본문 바로가기
오늘의 자연어 처리

[2023-02-09] 오늘의 자연어처리

by 지환이아빠 2023. 2. 9.
반응형

Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models

 

Learned metrics such as BLEURT have in recent years become widely employed to evaluate the quality of machine translation systems. Training such metrics requires data which can be expensive and difficult to acquire, particularly for lower-resource languages. We show how knowledge can be distilled from Large Language Models (LLMs) to improve upon such learned metrics without requiring human annotators, by creating synthetic datasets which can be mixed into existing datasets, requiring only a corpus of text in the target language. We show that the performance of a BLEURT-like model on lower resource languages can be improved in this way.

 

BLEURT와 같은 학습된 지표는 최근 몇 년 동안 널리 사용되었다 기계 번역 시스템의 품질을 평가한다. 이러한 측정 기준 교육 특히 다음을 위해 비용이 많이 들고 얻기 어려울 수 있는 데이터가 필요합니다 자원이 적은 언어. 우리는 지식이 어떻게 Large로부터 증류될 수 있는지 보여준다 언어 모델(LLM)은 필요 없이 학습된 메트릭을 개선합니다 인간 주석자, 혼합될 수 있는 합성 데이터 세트를 생성함으로써 대상 언어의 텍스트 코퍼스만 필요한 기존 데이터 세트. 우리가 하위 리소스 언어에서 BLEURT와 유사한 모델의 성능을 보여줍니다 이러한 방식으로 개선될 수 있습니다. 

 

 

A Categorical Archive of ChatGPT Failures

 

Large language models have been demonstrated to be valuable in different fields. ChatGPT, developed by OpenAI, has been trained using massive amounts of data and simulates human conversation by comprehending context and generating appropriate responses. It has garnered significant attention due to its ability to effectively answer a broad range of human inquiries, with fluent and comprehensive answers surpassing prior public chatbots in both security and usefulness. However, a comprehensive analysis of ChatGPT's failures is lacking, which is the focus of this study. Ten categories of failures, including reasoning, factual errors, math, coding, and bias, are presented and discussed. The risks, limitations, and societal implications of ChatGPT are also highlighted. The goal of this study is to assist researchers and developers in enhancing future language models and chatbots.

 

대규모 언어 모델은 다양한 면에서 가치가 있는 것으로 입증되었다 필드. ChatGPT, Open이 개발인공지능은 엄청난 양의 것을 사용하여 훈련되었다 데이터를 제공하고 문맥을 이해하고 생성함으로써 인간의 대화를 시뮬레이션합니다 적절한 대응. 그것은 그 능력 때문에 상당한 주목을 받았다 광범위한 인간 질문에 효과적으로 대답하기 위해 유창하고 보안과 보안 모두에서 이전의 공개 챗봇을 능가하는 포괄적인 답변 유용성. 그러나 ChatGPT의 실패에 대한 종합적인 분석은 부족하다, 그것이 이 연구의 초점이다. 다음을 포함한 10가지 고장 범주 추론, 사실 오류, 수학, 코딩, 편향이 제시되고 논의된다. ChatGPT의 위험, 한계 및 사회적 영향 또한 다음과 같다 강조 표시된. 이 연구의 목표는 연구자들과 개발자들을 돕는 것이다 미래의 언어 모델과 챗봇을 향상시킵니다. 

 

 

Capturing Topic Framing via Masked Language Modeling

 

Differential framing of issues can lead to divergent world views on important issues. This is especially true in domains where the information presented can reach a large audience, such as traditional and social media. Scalable and reliable measurement of such differential framing is an important first step in addressing them. In this work, based on the intuition that framing affects the tone and word choices in written language, we propose a framework for modeling the differential framing of issues through masked token prediction via large-scale fine-tuned language models (LMs). Specifically, we explore three key factors for our framework: 1) prompt generation methods for the masked token prediction; 2) methods for normalizing the output of fine-tuned LMs; 3) robustness to the choice of pre-trained LMs used for fine-tuning. Through experiments on a dataset of articles from traditional media outlets covering five diverse and politically polarized topics, we show that our framework can capture differential framing of these topics with high reliability.

 

문제의 차등 프레임은 중요한 것에 대한 다양한 세계관으로 이어질 수 있다 이것은 특히 제시된 정보가 가능한 도메인에서 사실이다 전통적이고 소셜 미디어와 같은 많은 청중에게 다가간다. 확장성 및 그러한 차등 프레임의 신뢰할 수 있는 측정은 중요한 첫 단계이다 그들에게 말을 건다. 이 작업에서, 프레임이 영향을 미친다는 직관에 기초하여 문자 언어의 톤과 단어 선택, 우리는 모델링을 위한 프레임워크를 제안한다 마스크된 토큰 예측을 통한 이슈의 차등 프레임화 대규모 미세 조정 언어 모델(LM). 구체적으로, 우리는 세 가지를 탐구한다 우리 프레임워크의 핵심 요소: 1) 마스크된 사람에 대한 신속한 생성 방법 토큰 예측; 2) 미세 조정된 LM의 출력을 정규화하는 방법; 3) 미세 조정에 사용되는 사전 훈련된 LM의 선택에 대한 견고성. 통해. 을 다루는 전통적인 미디어 매체의 기사 데이터 세트에 대한 실험 5가지 다양하고 정치적으로 양극화된 주제들, 우리는 우리의 틀이 할 수 있다는 것을 보여준다 높은 신뢰성으로 이러한 주제의 차등 프레임을 포착한다. 

 

 

반응형

댓글