본문 바로가기
오늘의 자연어 처리

[2023-08-21] 오늘의 자연어처리

by 지환이아빠 2023. 8. 21.
반응형

Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey

 

The increasing adoption of natural language processing (NLP) models across industries has led to practitioners' need for machine learning systems to handle these models efficiently, from training to serving them in production. However, training, deploying, and updating multiple models can be complex, costly, and time-consuming, mainly when using transformer-based pre-trained language models. Multi-Task Learning (MTL) has emerged as a promising approach to improve efficiency and performance through joint training, rather than training separate models. Motivated by this, we first provide an overview of transformer-based MTL approaches in NLP. Then, we discuss the challenges and opportunities of using MTL approaches throughout typical ML lifecycle phases, specifically focusing on the challenges related to data engineering, model development, deployment, and monitoring phases. This survey focuses on transformer-based MTL architectures and, to the best of our knowledge, is novel in that it systematically analyses how transformer-based MTL in NLP fits into ML lifecycle phases. Furthermore, we motivate research on the connection between MTL and continual learning (CL), as this area remains unexplored. We believe it would be practical to have a model that can handle both MTL and CL, as this would make it easier to periodically re-train the model, update it due to distribution shifts, and add new capabilities to meet real-world requirements.

 

전체적으로 NLP(Natural Language Processing) 모델의 채택이 증가하고 있습니다 산업은 하기 위한 기계 학습 시스템에 대한 실무자들의 필요로 이끌었다 이러한 모델을 효율적으로 처리할 수 있습니다. 교육에서 생산 단계까지 말입니다. 그러나 여러 모델의 교육, 배치 및 업데이트는 복잡할 수 있습니다, 주로 변압기 기반 사전 교육을 사용할 때 비용이 많이 들고 시간이 많이 소요됩니다 언어 모델. 다중 작업 학습(MTL)은 유망한 접근 방식으로 부상했다 공동 훈련을 통해 효율성과 성과를 향상시키는 것보다 별도의 모델을 교육합니다. 이에 동기를 부여하여, 우리는 먼저 에 대한 개요를 제공한다 NLP에서 트랜스포머 기반 MTL 접근법. 그런 다음 우리는 과제에 대해 논의합니다 일반적인 ML 라이프사이클 단계에 걸쳐 MTL 접근 방식을 사용할 수 있는 기회, 특히 데이터 엔지니어링, 모델과 관련된 과제에 초점을 맞추고 있습니다 개발, 배치 및 모니터링 단계를 포함합니다. 이 설문조사는 에 초점을 맞추고 있다 트랜스포머 기반 MTL 아키텍처는 매우 참신합니다 NLP의 변압기 기반 MTL이 어떻게 적합한지 체계적으로 분석한다는 점에서 ML 라이프사이클 단계. 게다가, 우리는 연관성에 대한 연구에 동기를 부여한다 MTL과 지속적 학습(CL) 사이에서 이 영역은 미개척 상태로 남아 있습니다. 우리가 MTL과 CL을 모두 처리할 수 있는 모델을 갖는 것이 실용적일 것이라고 믿는다, 이렇게 하면 주기적으로 모델을 재교육하는 것이 더 쉬워지기 때문에 업데이트해야 합니다 분산 전환을 수행하고 새로운 기능을 추가하여 실제 환경에 부합합니다 요구 사항들. 

 

 

Sarcasm Detection in a Disaster Context

 

During natural disasters, people often use social media platforms such as Twitter to ask for help, to provide information about the disaster situation, or to express contempt about the unfolding event or public policies and guidelines. This contempt is in some cases expressed as sarcasm or irony. Understanding this form of speech in a disaster-centric context is essential to improving natural language understanding of disaster-related tweets. In this paper, we introduce HurricaneSARC, a dataset of 15,000 tweets annotated for intended sarcasm, and provide a comprehensive investigation of sarcasm detection using pre-trained language models. Our best model is able to obtain as much as 0.70 F1 on our dataset. We also demonstrate that the performance on HurricaneSARC can be improved by leveraging intermediate task transfer learning. We release our data and code at this https URL.

 

자연재해 동안, 사람들은 종종 다음과 같은 소셜 미디어 플랫폼을 사용한다 트위터는 도움을 요청하고, 재난 상황에 대한 정보를 제공하고, 혹은 전개되는 사건이나 공공 정책에 대해 경멸을 표하기 위해 지침서. 이러한 경멸은 어떤 경우에는 빈정거림이나 아이러니로 표현된다. 재해 중심적인 맥락에서 이러한 형태의 연설을 이해하는 것은 필수적이다 재난 관련 트윗의 자연어 이해력 향상. 이 점에서. 종이, 우리는 허리케인을 소개한다SARC, 주석이 달린 15,000개의 트윗 데이터 세트 의도된 빈정거림과 빈정거림에 대한 포괄적인 조사를 제공하다 사전 훈련된 언어 모델을 사용한 탐지. 우리의 최고의 모델은 다음을 얻을 수 있다 데이터 세트에서 0.70 F1만큼. 우리는 또한 에 대한 성능을 입증한다 허리케인중간 작업 전송을 활용하여 SARC를 개선할 수 있습니다 학문의. 데이터 및 코드는 다음 위치에서 공개됩니다 이 https URL. 

 

 

Time Travel in LLMs: Tracing Data Contamination in Large Language Models

 

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in understanding LLMs' effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination in individual instances that are drawn from a small random sample; using this information, our approach then assesses if an entire dataset partition is contaminated. To estimate contamination of individual instances, we employ "guided instruction:" a prompt consisting of the dataset name, partition type, and the initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM's output either exactly or closely matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE or BLEURT) is statistically significantly better with the guided instruction vs. a general instruction that does not include the dataset and partition name. The second idea marks a dataset as contaminated if a classifier based on GPT-4 with in-context learning prompting marks multiple instances as contaminated. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human expert. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.

 

데이터 오염, 즉 다운스트림 작업의 테스트 데이터 존재 대형 언어 모델(LLM)의 훈련 데이터는 잠재적인 주요 문제이다 다른 업무에 대한 LLM의 효과를 이해하는 데 있어. 우리는 제안한다 데이터 오염을 식별하기 위한 간단하지만 효과적인 방법 LLMs. 그 핵심에서, 우리의 접근법은 잠재적인 오염을 확인하는 것으로부터 시작한다 작은 무작위 샘플에서 추출된 개별 인스턴스에서; 이것을 사용한다 정보, 그리고 나서 우리의 접근 방식은 전체 데이터 세트 파티션이 다음과 같은지 평가한다 오염된. 개별 인스턴스의 오염을 추정하기 위해 우리는 "guided instruction:" 데이터 세트 이름, 파티션 유형, 그리고 참조 인스턴스의 초기 세그먼트를 LLM에 완료하도록 요청합니다. LLM의 출력이 정확하게 일치하는 경우 인스턴스가 오염된 것으로 플래그 지정됩니다 참조의 마지막 세그먼트와 밀접하게 일치합니다. 전체를 이해하려면 파티션이 오염되었습니다. 우리는 두 가지 아이디어를 제안합니다. 첫 번째 아이디어는 데이터 세트를 표시한다 기준과 평균 중첩 점수가 일치하는 경우 오염된 것으로 파티션 분할 (ROUGE 또는 BLEURT로 측정된) 인스턴스는 통계적으로 유의합니다 안내된 지침 대 그렇지 않은 일반 지침으로 더 좋다 데이터 세트 및 파티션 이름을 포함합니다. 두 번째 아이디어는 데이터 세트를 다음과 같이 표시한다 컨텍스트 내 학습 프롬프트가 표시되는 GPT-4 기반 분류기가 오염된 경우 여러 인스턴스를 오염된 것으로 표시합니다. 우리의 최선의 방법은 정확성을 달성한다 LLM이 7개로 오염되었는지 여부를 감지할 때 92%에서 100% 사이입니다 데이터 세트, 훈련 및 테스트/확인 파티션이 포함되어 있습니다 인간 전문가에 의한 수동 평가. 게다가, 우리의 연구 결과는 GPT-4가 AG News, WNLI 및 XSum 데이터 세트로 오염되었습니다. 

 

 

반응형

댓글