본문 바로가기
오늘의 자연어 처리

[2023-08-04] 오늘의 자연어처리

by 지환이아빠 2023. 8. 4.
반응형

Grounded Image Text Matching with Mismatched Relation Reasoning

 

This paper introduces Grounded Image Text Matching with Mismatched Relation (GITM-MR), a novel visual-linguistic joint task that evaluates the relation understanding capabilities of transformer-based pre-trained models. GITM-MR requires a model to first determine if an expression describes an image, then localize referred objects or ground the mismatched parts of the text. We provide a benchmark for evaluating pre-trained models on this task, with a focus on the challenging settings of limited data and out-of-distribution sentence lengths. Our evaluation demonstrates that pre-trained models lack data efficiency and length generalization ability. To address this, we propose the Relation-sensitive Correspondence Reasoning Network (RCRN), which incorporates relation-aware reasoning via bi-directional message propagation guided by language structure. RCRN can be interpreted as a modular program and delivers strong performance in both length generalization and data efficiency.

 

본 논문에서는 불일치 관계가 있는 접지 이미지 텍스트 매칭을 소개한다 (GITM-MR), 관계를 평가하는 새로운 시각-언어 공동 작업 변압기 기반 사전 훈련 모델의 기능을 이해합니다. GITM-MR 먼저 식이 이미지를 설명하는지 여부를 결정하기 위해 모델이 필요합니다 참조된 개체를 현지화하거나 텍스트의 일치하지 않는 부분을 접지합니다. 우리가 이 작업에 대해 사전 교육된 모델을 평가하기 위한 벤치마크를 제공한다 제한된 데이터와 배포 중단이라는 까다로운 설정에 초점을 맞춥니다 문장 길이. 우리의 평가는 사전 훈련된 모델에 데이터가 부족하다는 것을 보여준다 효율성 및 길이 일반화 능력. 이를 해결하기 위해 다음과 같이 제안합니다 다음을 포함하는 관계 민감 대응 추론 네트워크(RCRN) 양방향 메시지 전파를 통한 관계 인식 추론 언어 구조. RCRN은 모듈식 프로그램으로 해석될 수 있으며 다음을 제공합니다 길이 일반화와 데이터 효율성 모두에서 강력한 성능을 발휘합니다. 

 

 

Retrieval Augmented Generation and Representative Vector Summarization for large unstructured textual data in Medical Education

 

Large Language Models are increasingly being used for various tasks including content generation and as chatbots. Despite their impressive performances in general tasks, LLMs need to be aligned when applying for domain specific tasks to mitigate the problems of hallucination and producing harmful answers. Retrieval Augmented Generation (RAG) allows to easily attach and manipulate a non-parametric knowledgebases to LLMs. Applications of RAG in the field of medical education are discussed in this paper. A combined extractive and abstractive summarization method for large unstructured textual data using representative vectors is proposed.

 

대형 언어 모델은 다음과 같은 다양한 작업에 점점 더 많이 사용되고 있습니다 콘텐츠 생성 및 챗봇으로. 그들의 인상적인 성과에도 불구하고 일반 작업, 도메인별 작업을 지원할 때 LLM을 정렬해야 합니다 환각의 문제를 완화하고 해로운 대답을 만들어내는 것입니다. RAG(Retrieve Augmented Generation)를 통해 쉽게 부착하고 조작할 수 있습니다 LLM에 대한 비모수적 지식 기반. 다음 분야에서 RAG의 적용 의학 교육은 이 논문에서 논의된다. 복합 추출물과 대규모 비정형 텍스트 데이터에 대한 추상적 요약 방법 대표 벡터가 제안되었다. 

 

 

Arithmetic with Language Models: from Memorization to Computation

 

A better understanding of the emergent computation and problem-solving capabilities of recent large language models is of paramount importance to further improve them and broaden their applicability. This work investigates how a language model, trained to predict the next token, can perform arithmetic computations generalizing beyond training data. Binary addition and multiplication constitute a good testbed for this purpose, since they require a very small vocabulary and exhibit relevant input/output discontinuities making smooth input interpolation ineffective for novel data. We successfully trained a light language model to learn these tasks and ran a number of experiments to investigate the extrapolation capabilities and internal information processing. Our findings support the hypotheses that the language model works as an Encoding-Regression-Decoding machine where the computation takes place in the value space once the input token representation is mapped to an appropriate internal representation.

 

새로운 계산과 문제 해결에 대한 더 나은 이해 최근의 큰 언어 모델의 능력은 무엇보다 중요하다 그것들을 더욱 개선하고 적용 가능성을 넓힌다. 이 작품은 조사한다 다음 토큰을 예측하도록 훈련된 언어 모델이 산술을 수행할 수 있는 방법 훈련 데이터 이상으로 일반화하는 계산. 이진 덧셈 및 곱셈은 이 목적을 위한 좋은 테스트베드를 구성한다, 왜냐하면 그것들은 a를 필요로 하기 때문이다 매우 작은 어휘와 관련된 입출력 불연속성을 보여줍니다 매끄러운 입력 보간은 새로운 데이터에 효과적이지 않습니다. 우리는 성공적으로 훈련했다 이러한 과제들을 배우기 위한 가벼운 언어 모델과 많은 실험들을 실행했다 외삽 기능과 내부 정보 처리를 조사합니다. 우리의 발견은 언어 모델이 다음과 같은 역할을 한다는 가설을 뒷받침한다 인코딩-회귀-에서 계산이 수행되는 디코딩 기계 입력 토큰 표현이 적절한 것에 매핑되면 공간 값을 지정합니다 내부 대표. 

 

 

반응형

댓글