Detecting out-of-distribution text using topological features of transformer-based language models
Abstract:We attempt to detect out-of-distribution (OOD) text samples though applying Topological Data Analysis (TDA) to attention maps in transformer-based language models. We evaluate our proposed TDA-based approach for out-of-distribution detection on BERT, a transformer-based language model, and compare the to a more traditional OOD approach based on BERT CLS embeddings. We found that our TDA approach outperforms the CLS embedding approach at distinguishing in-distribution data (politics and entertainment news articles from HuffPost) from far out-of-domain samples (IMDB reviews), but its effectiveness deteriorates with near out-of-domain (CNN/Dailymail) or same-domain (business news articles from HuffPost) datasets.
추상화:트랜스포머 기반 언어 모델의 주의 지도에 위상 데이터 분석(TDA)을 적용하여 OOD(Out-of-Distribution) 텍스트 샘플을 탐지하려고 시도한다. 트랜스포머 기반 언어 모델인 BERT에서 분산 외 탐지를 위해 제안된 TDA 기반 접근 방식을 평가하고, 이를 BERT CLS 임베딩을 기반으로 한 보다 전통적인 OOD 접근 방식과 비교한다. 우리는 우리의 TDA 접근 방식이 분포 내 데이터(HuffPost의 정치 및 연예 뉴스 기사)를 도메인 밖의 먼 샘플(IMDB 리뷰)과 구별하는 데 있어 CLS 임베딩 접근 방식을 능가한다는 것을 발견했다, 그러나 거의 도메인 밖(CNN/Dailymail) 또는 동일 도메인(HuffPost의 비즈니스 뉴스 기사) 데이터 세트를 사용하면 그 효과가 저하된다.
Automatic Instruction Optimization for Open-source LLM Instruction Tuning
Abstract:Instruction tuning is crucial for enabling Language Learning Models (LLMs) in responding to human instructions. The quality of instruction pairs used for tuning greatly affects the performance of LLMs. However, the manual creation of high-quality instruction datasets is costly, leading to the adoption of automatic generation of instruction pairs by LLMs as a popular alternative in the training of open-source LLMs. To ensure the high quality of LLM-generated instruction datasets, several approaches have been proposed. Nevertheless, existing methods either compromise dataset integrity by filtering a large proportion of samples, or are unsuitable for industrial applications. In this paper, instead of discarding low-quality samples, we propose CoachLM, a novel approach to enhance the quality of instruction datasets through automatic revisions on samples in the dataset. CoachLM is trained from the samples revised by human experts and significantly increases the proportion of high-quality samples in the dataset from 17.7% to 78.9%. The effectiveness of CoachLM is further assessed on various real-world instruction test sets. The results show that CoachLM improves the instruction-following capabilities of the instruction-tuned LLM by an average of 29.9%, which even surpasses larger LLMs with nearly twice the number of parameters. Furthermore, CoachLM is successfully deployed in a data management system for LLMs at Huawei, resulting in an efficiency improvement of up to 20% in the cleaning of 40k real-world instruction pairs. We release the training data and code of CoachLM (this https URL).
추상화:언어 학습 모델(Language Learning Models, LLM)이 인간의 지시에 대응할 수 있도록 하기 위해서는 명령 조정이 중요하다. 튜닝에 사용되는 명령어 쌍의 품질은 LLM의 성능에 큰 영향을 미친다. 그러나 고품질 명령어 데이터 세트의 수동 생성은 비용이 많이 들어 LLM에 의한 명령어 쌍의 자동 생성은 오픈 소스 LLM의 훈련에서 대중적인 대안으로 채택되었다. LLM 생성 명령어 데이터 세트의 고품질을 보장하기 위해 여러 가지 접근법이 제안되었다. 그럼에도 불구하고, 기존의 방법들은 많은 부분의 샘플들을 필터링함으로써 데이터 세트 무결성을 손상시키거나, 산업 응용에 적합하지 않다. 본 논문에서는 저품질 샘플을 폐기하는 대신 데이터 세트 내 샘플에 대한 자동 수정을 통해 명령어 데이터 세트의 품질을 향상시키는 새로운 접근 방식인 CoachLM을 제안한다. CoachLM은 인간 전문가들이 수정한 샘플로부터 훈련을 받아 데이터셋에서 고품질 샘플의 비율을 17.7%에서 78.9%로 크게 증가시킨다. Coach LM의 효과는 다양한 실제 수업 테스트 세트에서 추가로 평가된다. 결과는 Coach LM이 명령어 조정 LLM의 명령어 추종 능력을 평균 29.9% 향상시킨다는 것을 보여주는데, 이는 파라미터 수가 거의 두 배에 달하는 더 큰 LLM을 능가한다. 또한, 코치LM은 화웨이의 LLM용 데이터 관리 시스템에 성공적으로 배치되어 40k개의 실세계 명령어 쌍의 청소에서 최대 20%의 효율성 향상을 달성했다. Coach LM(이 https URL)의 교육 데이터와 코드를 공개합니다.
Systematic word meta-sense extension
Abstract:The meaning of polysemous words often varies in a highly productive yet predictable way. Generalizing the regularity between conventional senses to derive novel word meaning is crucial for automated processing of non-literal language uses such as figurative expressions. We introduce a novel task called systematic word meta-sense extension (SWORME) to test and improve language models' ability to extend word meaning to denote new semantic domains (also called meta-senses) that bear regular semantic relations with existing senses. We found that language models prefer incremental lexical semantic change toward conceptually similar meta-senses such as logical metonymy, and are much worse at predicting highly non-literal meaning extensions such as metaphors. We propose a novel analogy-based method of word meaning extension, and show that it effectively improves language model systematicity in making both gradual and radical types of meta-sense extension. We further demonstrate that learning systematic meta-sense extensions benefits language models on multiple benchmarks of figurative language understanding.
추상화:다의어의 의미는 생산성이 높지만 예측 가능한 방식으로 다양한 경우가 많다. 새로운 단어 의미를 도출하기 위해 기존 감각 간의 규칙성을 일반화하는 것은 비유적 표현과 같은 비문자 언어 사용의 자동화 처리에 중요하다. 기존 감각과 규칙적인 의미론적 관계를 갖는 새로운 의미론적 영역(메타 감각이라고도 함)을 나타내기 위해 언어 모델의 단어 의미를 확장하는 능력을 테스트하고 개선하기 위해 체계적인 단어 메타 감각 확장(SWORME)이라는 새로운 작업을 도입한다. 우리는 언어 모델이 논리적 의미론과 같은 개념적으로 유사한 메타 감각을 향해 점진적인 어휘적 의미 변화를 선호하고, 은유와 같은 고도의 비문자적 의미 확장을 예측하는 데 훨씬 더 나쁘다는 것을 발견했다. 우리는 단어 의미 확장의 새로운 유추 기반 방법을 제안하고, 그것이 메타 감각 확장의 점진적인 유형과 급진적인 유형을 모두 만드는 데 있어 언어 모델 체계성을 효과적으로 향상시킨다는 것을 보여준다. 또한 체계적인 메타 센스 확장을 학습하면 비유적 언어 이해의 여러 벤치마크에서 언어 모델에 이점이 있음을 보여준다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-29] 오늘의 자연어처리 (0) | 2023.11.29 |
---|---|
[2023-11-28] 오늘의 자연어처리 (1) | 2023.11.28 |
[2023-11-26] 오늘의 자연어처리 (0) | 2023.11.26 |
[2023-11-25] 오늘의 자연어처리 (0) | 2023.11.25 |
[2023-11-24] 오늘의 자연어처리 (1) | 2023.11.24 |
댓글