본문 바로가기
오늘의 자연어 처리

[2023-09-03] 오늘의 자연어처리

by 지환이아빠 2023. 9. 3.
반응형

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

 

We present Belebele, a multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants. Significantly expanding the language coverage of natural language understanding (NLU) benchmarks, this dataset enables the evaluation of text models in high-, medium-, and low-resource languages. Each question is based on a short passage from the Flores-200 dataset and has four multiple-choice answers. The questions were carefully curated to discriminate between models with different levels of general language comprehension. The English dataset on its own proves difficult enough to challenge state-of-the-art language models. Being fully parallel, this dataset enables direct comparison of model performance across all languages. We use this dataset to evaluate the capabilities of multilingual masked language models (MLMs) and large language models (LLMs). We present extensive results and find that despite significant cross-lingual transfer in English-centric LLMs, much smaller MLMs pretrained on balanced multilingual data still understand far more languages. We also observe that larger vocabulary size and conscious vocabulary construction correlate with better performance on low-resource languages. Overall, Belebele opens up new avenues for evaluating and analyzing the multilingual capabilities of NLP systems.

 

우리는 객관식 기계 읽기 이해(MRC)인 Bellebele를 제시한다 122개의 언어 변형에 걸쳐 있는 데이터 세트. 언어의 대폭적인 확장 자연어 이해(NLU) 벤치마크의 적용 범위, 이 데이터 세트 고, 중, 저 자원의 텍스트 모델을 평가할 수 있습니다 언어들. 각 질문은 Flores-200의 짧은 구절을 기반으로 합니다 데이터 세트와 4개의 선다형 답변이 있습니다. 질문들은 신중했다 일반 수준이 다른 모델을 구별하기 위해 큐레이션된 언어 이해력. 영어 데이터 세트 자체가 충분히 어렵다는 것이 입증되었다 최첨단 언어 모델에 도전합니다. 완전히 평행하게, 이것은 데이터 세트를 사용하면 모든 언어에서 모델 성능을 직접 비교할 수 있습니다. 우리가 이 데이터 세트를 사용하여 다국어 마스킹 언어의 기능을 평가합니다 모델(MLM) 및 대형 언어 모델(LLM). 우리는 광범위한 결과를 제시한다 그리고 영어 중심에서 언어 간에 상당한 전이가 있음에도 불구하고 발견한다 LLM, 훨씬 더 작은 MLM은 여전히 균형 잡힌 다국어 데이터에 대해 사전 교육을 받습니다 언어를 훨씬 더 이해하다. 우리는 또한 더 큰 어휘 크기와 의식적인 어휘 구성은 더 나은 성능과 관련이 있다 자원이 적은 언어. 전반적으로 벨벨레는 평가를 위한 새로운 길을 연다 그리고 NLP 시스템의 다국어 기능을 분석합니다. 

 

 

Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations

 

We introduce Affective Visual Dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in visually grounded conversations. The task involves three skills: (1) Dialog-based Question Answering (2) Dialog-based Emotion Prediction and (3) Affective emotion explanation generation based on the dialog. Our key contribution is the collection of a large-scale dataset, dubbed AffectVisDial, consisting of 50K 10-turn visually grounded dialogs as well as concluding emotion attributions and dialog-informed textual emotion explanations, resulting in a total of 27,180 working hours. We explain our design decisions in collecting the dataset and introduce the questioner and answerer tasks that are associated with the participants in the conversation. We train and demonstrate solid Affective Visual Dialog baselines adapted from state-of-the-art models. Remarkably, the responses generated by our models show promising emotional reasoning abilities in response to visually grounded conversations. Our project page is available at this https URL.

 

감정 설명 및 추론인 Affective Visual Dialog를 소개합니다 감정 형성을 이해하기 위한 연구를 위한 테스트베드로서의 과제 시각적으로 근거가 있는 대화. 과제에는 세 가지 기술이 포함됩니다. (1) 대화 기반 질문 응답 (2) 대화 기반 감정 예측 및 (3) 대화를 기반으로 한 정의적 감정 설명 생성. 우리 열쇠 기여는 AffectVisDial이라는 대규모 데이터 세트의 모음입니다, 50K 10턴 시각적으로 접지된 대화상자와 결론으로 구성됩니다 감정 속성과 대화에 기반한 텍스트 감정 설명, 그 결과 총 27,180시간의 노동시간이 발생했다. 우리는 우리의 디자인 결정을 설명한다 데이터 세트를 수집하고 질문자와 답변자 작업을 소개합니다 대화의 참가자들과 연관되어 있습니다. 우리는 훈련을 하고 에서 적용된 견고한 Affective Visual Dialog 기준선을 시연 최첨단 모델. 놀랍게도, 우리의 모델에 의해 생성된 반응은 시각적으로 근거를 둔 반응으로 유망한 감정적 추론 능력 대화. 우리의 프로젝트 페이지는 다음에서 이용할 수 있다 이 https URL. 

 

 

Using Large Language Models to Automate Category and Trend Analysis of Scientific Articles: An Application in Ophthalmology

 

Purpose: In this paper, we present an automated method for article classification, leveraging the power of Large Language Models (LLM). The primary focus is on the field of ophthalmology, but the model is extendable to other fields. Methods: We have developed a model based on Natural Language Processing (NLP) techniques, including advanced LLMs, to process and analyze the textual content of scientific papers. Specifically, we have employed zero-shot learning (ZSL) LLM models and compared against Bidirectional and Auto-Regressive Transformers (BART) and its variants, and Bidirectional Encoder Representations from Transformers (BERT), and its variant such as distilBERT, SciBERT, PubmedBERT, BioBERT. Results: The classification results demonstrate the effectiveness of LLMs in categorizing large number of ophthalmology papers without human intervention. Results: To evalute the LLMs, we compiled a dataset (RenD) of 1000 ocular disease-related articles, which were expertly annotated by a panel of six specialists into 15 distinct categories. The model achieved mean accuracy of 0.86 and mean F1 of 0.85 based on the RenD dataset. Conclusion: The proposed framework achieves notable improvements in both accuracy and efficiency. Its application in the domain of ophthalmology showcases its potential for knowledge organization and retrieval in other domains too. We performed trend analysis that enables the researchers and clinicians to easily categorize and retrieve relevant papers, saving time and effort in literature review and information gathering as well as identification of emerging scientific trends within different disciplines. Moreover, the extendibility of the model to other scientific fields broadens its impact in facilitating research and trend analysis across diverse disciplines.

 

목적: 이 논문에서, 우리는 기사에 대한 자동화된 방법을 제시한다 LLM(Large Language Models)의 성능을 활용한 분류. 그 주로 안과학 분야에 초점을 맞추고 있지만, 그 모델은 확장 가능하다 다른 분야. 방법: 우리는 자연어를 기반으로 한 모델을 개발했다 처리 및 분석을 위한 고급 LLM을 포함한 처리(NLP) 기법 과학 논문의 본문 내용. 구체적으로, 우리는 고용했다 제로샷 학습(ZSL) LLM 모델 및 양방향과 비교 자동회귀변압기(BART) 및 그 변형과 양방향 인코더 트랜스포머(BERT)의 표현 및 distilB와 같은 변형ERT, SciBERT, PubmedBERT, 바이오버트. 결과: 분류 결과는 다음을 보여줍니다 많은 수의 안과 논문을 분류할 때 LLM의 효과 인간의 개입 없이. 결과: LLM을 평가하기 위해 데이터 세트를 편집했습니다 전문적으로 주석이 달린 1000개의 안구 질환 관련 기사 (RendD) 6명의 전문가들로 구성된 15개의 다른 카테고리들로 구성된 패널에 의해. 달성된 모델 RenD 데이터 세트를 기준으로 평균 정확도는 0.86이고 평균 F1은 0.85이다. 결론: 제안된 프레임워크는 두 가지 측면에서 현저한 개선을 달성한다 정확성과 효율성. 안과 영역에서의 그것의 적용 다른 분야에서 지식을 조직하고 검색할 수 있는 잠재력을 보여줍니다 도메인도. 우리는 연구자들을 가능하게 하는 트렌드 분석을 수행했고 임상의는 관련 논문을 쉽게 분류하고 검색하여 시간을 절약합니다 문헌 검토 및 정보 수집 및 식별 노력 다른 학문 분야에서 떠오르는 과학적 경향에 대해. 게다가, 그 다른 과학 분야에 대한 모델의 확장성은 영향을 확대한다 다양한 분야에 걸쳐 연구 및 추세 분석을 촉진합니다. 

 

 

반응형

댓글