Word to Sentence Visual Semantic Similarity for Caption Generation: Lessons Learned
This paper focuses on enhancing the captions generated by image-caption generation systems. We propose an approach for improving caption generation systems by choosing the most closely related output to the image rather than the most likely output produced by the model. Our model revises the language generation output beam search from a visual context perspective. We employ a visual semantic measure in a word and sentence level manner to match the proper caption to the related information in the image. The proposed approach can be applied to any caption system as a post-processing based method.
이 논문은 이미지 캡션으로 생성된 캡션을 개선하는 데 초점을 맞추고 있다. 세대 시스템 캡션 생성을 개선하기 위한 접근 방식을 제안합니다. 시스템이 아닌 이미지와 가장 밀접하게 관련된 출력을 선택함으로써 모형에 의해 생산될 가능성이 가장 높은 출력입니다. 우리의 모델은 언어를 수정한다. 시각적 컨텍스트 관점에서 생성 출력 빔 검색. 우리는 고용한다. 적절한 단어 및 문장 수준 방식의 시각적 의미 측정 이미지의 관련 정보에 대한 캡션입니다. 제안된 접근법은 다음과 같다. 후 처리 기반 방법으로 캡션 시스템에 적용됩니다.
Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts
Previous work has shown that there exists a scaling law between the size of Language Models (LMs) and their zero-shot performance on different downstream NLP tasks. In this work, we show that this phenomenon does not hold when evaluating large LMs on tasks with negated prompts, but instead shows an inverse scaling law. We evaluate 9 different tasks with negated prompts on (1) pretrained LMs (OPT & GPT-3) of varying sizes (125M - 175B), (2) LMs further pretrained to generalize to novel prompts (InstructGPT), (3) LMs provided with few-shot examples, and (4) LMs fine-tuned specifically on negated prompts; all LM types perform worse on negated prompts as they scale and show a huge performance gap between the human performance when comparing the average score on both original and negated prompts. By highlighting a critical limitation of existing LMs and methods, we urge the community to develop new approaches of developing LMs that actually follow the given instructions. We provide the code and the datasets to explore negated prompts at this https URL
이전 연구에서는 크기 사이에 스케일링 법칙이 존재함을 보여주었다. 다양한 다운스트림에서 언어 모델(LM) 및 제로샷 성능 NLP 작업. 이 연구에서, 우리는 이 현상이 다음과 같은 경우에 유지되지 않는다는 것을 보여준다. 거부된 프롬프트가 있는 작업에서 큰 LM을 평가하지만 대신 다음을 표시합니다. 역 스케일링 법칙 (1)에서 거부된 프롬프트를 사용하여 9가지 작업을 평가합니다. 다양한 크기(125M - 175B)의 사전 훈련된 LM(OPT 및 GPT-3), (2) LMs 추가 새로운 프롬프트(Instruct GPT)로 일반화하기 위해 사전 교육을 받았으며, (3) LMs는 다음을 제공한다. 퓨샷 예제 및 (4) 거부된 프롬프트에서 특별히 미세 조정된 LM; 모두 LM 유형은 크기가 조정되고 크기가 커짐에 따라 부정된 프롬프트에서 성능이 저하됩니다. 평균 점수를 비교할 때 인간 성과 간의 성과 격차 원래 프롬프트와 거부된 프롬프트에 모두 적용됩니다. 다음과 같은 중대한 한계를 강조함으로써 기존 LM과 방법, 우리는 커뮤니티가 새로운 접근 방식을 개발할 것을 촉구한다. 주어진 지침을 실제로 따르는 LM을 개발합니다. 코드를 제공합니다. 그리고 데이터셋에서 거부된 프롬프트를 탐색할 수 있습니다. 이 https URL
Do ever larger octopi still amplify reporting biases? Evidence from judgments of typical colour
Language models (LMs) trained on raw texts have no direct access to the physical world. Gordon and Van Durme (2013) point out that LMs can thus suffer from reporting bias: texts rarely report on common facts, instead focusing on the unusual aspects of a situation. If LMs are only trained on text corpora and naively memorise local co-occurrence statistics, they thus naturally would learn a biased view of the physical world. While prior studies have repeatedly verified that LMs of smaller scales (e.g., RoBERTa, GPT-2) amplify reporting bias, it remains unknown whether such trends continue when models are scaled up. We investigate reporting bias from the perspective of colour in larger language models (LLMs) such as PaLM and GPT-3. Specifically, we query LLMs for the typical colour of objects, which is one simple type of perceptually grounded physical common sense. Surprisingly, we find that LLMs significantly outperform smaller LMs in determining an object's typical colour and more closely track human judgments, instead of overfitting to surface patterns stored in texts. This suggests that very large models of language alone are able to overcome certain types of reporting bias that are characterized by local co-occurrences.
원시 텍스트에 대해 훈련된 언어 모델(LM)은 직접 액세스할 수 없습니다. 물리적 세계 Gordon과 Van Durme(2013)는 LMs가 그러므로 고통받을 수 있다고 지적한다. 보고 편향으로부터: 텍스트는 일반적인 사실에 대해 거의 보고하지 않고, 대신 에 초점을 맞춘다. 사태의 심상치 않은 양상 LM이 텍스트 말뭉치에 대해서만 훈련되는 경우 지역 동시 발생 통계를 순진하게 암기하기 때문에, 그들은 자연스럽게 그렇게 될 것이다. 편파적인 사회관을 배우다 이전 연구들은 반복적으로 더 작은 규모의 LM(예: RoBERTa, GPT-2)이 보고를 증폭시킨다는 것을 검증했다. 편향, 모델이 확장될 때 그러한 추세가 계속되는지 여부는 알려지지 않았다. up. 우리는 더 큰 색상의 관점에서 보고 편향을 조사한다. PaLM과 GPT-3와 같은 언어 모델(LLMs)입니다. 특히, 우리는 LLMs를 질의합니다. 사물의 전형적인 색상, 지각의 단순한 유형 중 하나. 바탕이 되는 육체적 상식 놀랍게도, 우리는 LLMs가 유의미하다는 것을 발견했다. 물체의 일반적인 색을 결정하는 데 있어서 더 작은 LMs를 능가한다. 표면 패턴에 과적합하지 않고 인간의 판단을 면밀히 추적하다. 텍스트에 저장된 이것은 언어의 매우 큰 모델들만이 있다는 것을 암시한다. 다음과 같이 특징지어지는 특정 유형의 보고 편견을 극복할 수 있다. 국지적 동시 발생
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-09-30] 오늘의 자연어처리 (0) | 2022.09.30 |
---|---|
[2022-09-29] 오늘의 자연어처리 (0) | 2022.09.29 |
[2022-09-27] 오늘의 자연어처리 (0) | 2022.09.27 |
[2022-09-26] 오늘의 자연어처리 (0) | 2022.09.26 |
[2022-09-25] 오늘의 자연어처리 (1) | 2022.09.25 |
댓글