본문 바로가기
오늘의 자연어 처리

[2023-04-19] 오늘의 자연어처리

by 지환이아빠 2023. 4. 19.
반응형

LongForm: Optimizing Instruction Tuning for Long Text Generation with Corpus Extraction

 

Instruction tuning enables language models to generalize more effectively and better follow user intent. However, obtaining instruction data can be costly and challenging. Prior works employ methods such as expensive human annotation, crowd-sourced datasets with alignment issues, or generating noisy examples via LLMs. We introduce the LongForm dataset, which is created by leveraging English corpus examples with augmented instructions. We select a diverse set of human-written documents from existing corpora such as C4 and Wikipedia and generate instructions for the given documents via LLMs. This approach provides a cheaper and cleaner instruction-tuning dataset and one suitable for long text generation. We finetune T5, OPT, and LLaMA models on our dataset and show that even smaller LongForm models have good generalization capabilities for text generation. Our models outperform 10x larger language models without instruction tuning on various tasks such as story/recipe generation and long-form question answering. Moreover, LongForm models outperform prior instruction-tuned models such as FLAN-T5 and Alpaca by a large margin. Finally, our models can effectively follow and answer multilingual instructions; we demonstrate this for news generation. We publicly release our data and models: this https URL.

 

명령어 튜닝은 언어 모델이 더 효과적으로 일반화할 수 있게 해준다 사용자 의도를 따르는 것이 좋습니다. 그러나 지침 데이터를 얻는 데는 비용이 많이 들 수 있습니다 그리고 도전적이다. 이전의 작품들은 값비싼 인간 주석과 같은 방법을 사용한다, 정렬 문제가 있는 크라우드소싱 데이터 세트 또는 노이즈가 많은 예제 생성 LLMs. 우리는 영어를 활용하여 만들어진 LongForm 데이터 세트를 소개한다 증강된 명령어가 있는 말뭉치 예제. 우리는 다양한 세트를 선택합니다 C4와 위키피디아와 같은 기존 말뭉치에서 인간이 작성한 문서와 LLM을 통해 지정된 문서에 대한 명령을 생성합니다. 이 접근 방식은 다음을 제공합니다 값싸고 깨끗한 명령 조정 데이터 세트와 긴 텍스트에 적합한 데이터 세트 시대. 우리는 데이터 세트에서 T5, OPT 및 LLaMA 모델을 미세 조정하고 그것을 보여준다 심지어 더 작은 LongForm 모델은 텍스트에 대한 좋은 일반화 기능을 가지고 있다 시대. NAT 모델은 10배 더 큰 언어 모델보다 성능이 우수합니다 다양한 작업에 대한 명령 튜닝(예: 스토리/메시지 생성 및 장문의 질문 답변. 또한 LongForm 모델은 이전 모델보다 성능이 뛰어납니다 FLAN-T5 및 알파카와 같은 명령어 조정 모델이 큰 폭으로 제공됩니다. 마침내. 우리의 모델은 다국어 지침을 효과적으로 따르고 대답할 수 있다; 우리는 뉴스 생성을 위해 이것을 시연합니다. NAT은 데이터 및 모델을 공개합니다: 이 https URL. 

 

 

Classification of news spreading barriers

 

News media is one of the most effective mechanisms for spreading information internationally, and many events from different areas are internationally relevant. However, news coverage for some news events is limited to a specific geographical region because of information spreading barriers, which can be political, geographical, economic, cultural, or linguistic. In this paper, we propose an approach to barrier classification where we infer the semantics of news articles through Wikipedia concepts. To that end, we collected news articles and annotated them for different kinds of barriers using the metadata of news publishers. Then, we utilize the Wikipedia concepts along with the body text of news articles as features to infer the news-spreading barriers. We compare our approach to the classical text classification methods, deep learning, and transformer-based methods. The results show that the proposed approach using Wikipedia concepts based semantic knowledge offers better performance than the usual for classifying the news-spreading barriers.

 

뉴스 미디어는 정보를 퍼뜨리는 가장 효과적인 메커니즘 중 하나이다 국제적으로, 그리고 다른 지역의 많은 행사들이 국제적으로 관련된. 그러나 일부 뉴스 이벤트에 대한 뉴스 보도는 특정 뉴스로 제한됩니다 정보 확산 장벽 때문에 지리적인 지역, 그것은 가능하다 정치적, 지리적, 경제적, 문화적 또는 언어적. 이 논문에서 우리는 우리가 의미론을 추론하는 장벽 분류에 대한 접근법을 제안한다 위키피디아 개념을 통한 뉴스 기사. 이를 위해 우리는 뉴스를 수집했다 메타데이터를 사용하여 다양한 종류의 장벽에 대한 기사와 주석을 달았다 뉴스 퍼블리셔의. 그런 다음 위키백과 개념을 본문과 함께 활용합니다 뉴스 차단 장벽을 추론하기 위한 특징으로서 뉴스 기사의 텍스트. 우리가 우리의 접근 방식을 고전적인 텍스트 분류 방법과 비교합니다 학습, 그리고 변압기 기반 방법. 결과는 제안된 것이 위키피디아 개념을 사용하는 접근법은 의미론적 지식을 기반으로 더 나은 것을 뉴스 차단 장벽을 분류하는 데 있어 일반적인 성능보다 더 나은 성능을 제공합니다. 

 

 

A Corpus-based Analysis of Attitudinal Changes in Lin Yutang's Self-translation of Between Tears and Laughter

 

Attitude is omnipresent in almost every type of text. There has yet to be any relevant research on attitudinal shifts in self-translation. The Chinese version of Between Tears and Laughter is a rare case of self-translation and co-translation in that the first 11 chapters are self-translated by Lin Yutang, and the last 12 chapters by Xu Chengbin. The current study conducted a word frequency analysis of this book's English and Chinese versions with LIWC and AntConc, and made comparative research into Lin Yutang's attitudinal changes. The results show that due to different writing purposes and readerships, there is less anger in Lin's self-translation (M=0.7755, SD=0.2775) than in the first 11 chapters of the English original (M=1.1036, SD=0.3861), which is a significant difference (t=2.2892, p=0.0331). This attitudinal change is also reflected in the translations of some n-grams containing anger words. In contrast, there is no significant difference (t=1.88, p=0.07) between Xu's co-translation and the corresponding part of the original in attitude "anger". This paper believes that corpus tools can help co-translators keep their translation consistent in attitude.

 

태도는 거의 모든 유형의 텍스트에 보편적으로 존재한다. 아직 아무것도 없다 자기 표현의 태도 변화에 대한 관련 연구. 중국인 Between Tears and Laugh의 버전은 자기 번역의 드문 사례이다 첫 11장이 린위탕에 의해 자가 번역되었다는 점에서 공동 번역, 그리고 쉬청빈의 마지막 12장. 현재의 연구는 단어를 수행했다 LIWC를 이용한 이 책의 영어와 중국어 버전의 빈도 분석 및 앤트콩은 린위탕의 태도 변화에 대한 비교 연구를 했다. 그 결과는 다른 글쓰기 목적과 독자층 때문에 첫 번째보다 린의 자기 보상(M=0.7755, SD=0.2775)에서 분노가 적습니다 영어 원문(M=1.1036, SD=0.3861)의 11장, 즉 유의한 차이(t=2.2892, p=0.0331). 이러한 태도 변화는 또한 분노의 단어가 포함된 일부 n-gram의 번역에 반영됩니다. 인 대조적으로, Xu의 값 사이에는 유의한 차이(t=1.88, p=0.07)가 없습니다 공존과 원래 태도 "분노"의 해당 부분. 이 논문은 말뭉치 도구가 공동 번역자들이 그들을 유지하는 것을 도울 수 있다고 믿는다 태도가 일치하는 번역. 

 

 

반응형

댓글