본문 바로가기
오늘의 자연어 처리

[2023-08-20] 오늘의 자연어처리

by 지환이아빠 2023. 8. 20.
반응형

Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey

 

The increasing adoption of natural language processing (NLP) models across industries has led to practitioners' need for machine learning systems to handle these models efficiently, from training to serving them in production. However, training, deploying, and updating multiple models can be complex, costly, and time-consuming, mainly when using transformer-based pre-trained language models. Multi-Task Learning (MTL) has emerged as a promising approach to improve efficiency and performance through joint training, rather than training separate models. Motivated by this, we first provide an overview of transformer-based MTL approaches in NLP. Then, we discuss the challenges and opportunities of using MTL approaches throughout typical ML lifecycle phases, specifically focusing on the challenges related to data engineering, model development, deployment, and monitoring phases. This survey focuses on transformer-based MTL architectures and, to the best of our knowledge, is novel in that it systematically analyses how transformer-based MTL in NLP fits into ML lifecycle phases. Furthermore, we motivate research on the connection between MTL and continual learning (CL), as this area remains unexplored. We believe it would be practical to have a model that can handle both MTL and CL, as this would make it easier to periodically re-train the model, update it due to distribution shifts, and add new capabilities to meet real-world requirements.

 

전체적으로 NLP(Natural Language Processing) 모델의 채택이 증가하고 있습니다 산업은 하기 위한 기계 학습 시스템에 대한 실무자들의 필요로 이끌었다 이러한 모델을 효율적으로 처리할 수 있습니다. 교육에서 생산 단계까지 말입니다. 그러나 여러 모델의 교육, 배치 및 업데이트는 복잡할 수 있습니다, 주로 변압기 기반 사전 교육을 사용할 때 비용이 많이 들고 시간이 많이 소요됩니다 언어 모델. 다중 작업 학습(MTL)은 유망한 접근 방식으로 부상했다 공동 훈련을 통해 효율성과 성과를 향상시키는 것보다 별도의 모델을 교육합니다. 이에 동기를 부여하여, 우리는 먼저 에 대한 개요를 제공한다 NLP에서 트랜스포머 기반 MTL 접근법. 그런 다음 우리는 과제에 대해 논의합니다 일반적인 ML 라이프사이클 단계에 걸쳐 MTL 접근 방식을 사용할 수 있는 기회, 특히 데이터 엔지니어링, 모델과 관련된 과제에 초점을 맞추고 있습니다 개발, 배치 및 모니터링 단계를 포함합니다. 이 설문조사는 에 초점을 맞추고 있다 트랜스포머 기반 MTL 아키텍처는 매우 참신합니다 NLP의 변압기 기반 MTL이 어떻게 적합한지 체계적으로 분석한다는 점에서 ML 라이프사이클 단계. 게다가, 우리는 연관성에 대한 연구에 동기를 부여한다 MTL과 지속적 학습(CL) 사이에서 이 영역은 미개척 상태로 남아 있습니다. 우리가 MTL과 CL을 모두 처리할 수 있는 모델을 갖는 것이 실용적일 것이라고 믿는다, 이렇게 하면 주기적으로 모델을 재교육하는 것이 더 쉬워지기 때문에 업데이트해야 합니다 분산 전환을 수행하고 새로운 기능을 추가하여 실제 환경에 부합합니다 요구 사항들. 

 

 

MDDial: A Multi-turn Differential Diagnosis Dialogue Dataset with Reliability Evaluation

 

Dialogue systems for Automatic Differential Diagnosis (ADD) have a wide range of real-life applications. These dialogue systems are promising for providing easy access and reducing medical costs. Building end-to-end ADD dialogue systems requires dialogue training datasets. However, to the best of our knowledge, there is no publicly available ADD dialogue dataset in English (although non-English datasets exist). Driven by this, we introduce MDDial, the first differential diagnosis dialogue dataset in English which can aid to build and evaluate end-to-end ADD dialogue systems. Additionally, earlier studies present the accuracy of diagnosis and symptoms either individually or as a combined weighted score. This method overlooks the connection between the symptoms and the diagnosis. We introduce a unified score for the ADD system that takes into account the interplay between symptoms and diagnosis. This score also indicates the system's reliability. To the end, we train two moderate-size of language models on MDDial. Our experiments suggest that while these language models can perform well on many natural language understanding tasks, including dialogue tasks in the general domain, they struggle to relate relevant symptoms and disease and thus have poor performance on MDDial. MDDial will be released publicly to aid the study of ADD dialogue research.

 

자동 디퍼렌셜 진단(ADD)을 위한 대화 시스템은 광범위합니다 실생활에 적용할 수 있습니다. 이러한 대화 시스템은 다음을 제공하는 데 유망합니다 접근이 용이하고 의료비를 절감할 수 있습니다. 엔드 투 엔드 ADD 대화 구축 대화 훈련 데이터 세트가 필요합니다. 하지만, 최선을 다해라 지식, 공개적으로 사용할 수 있는 영어 ADD 대화 데이터 세트가 없다 (비영어 데이터 세트가 존재하지만). 이를 기반으로 MDDial을 소개합니다 구축에 도움이 될 수 있는 영어 최초의 차별적 진단 대화 데이터 세트 엔드 투 엔드 ADD 대화 시스템을 평가합니다. 추가적으로, 초기 연구들은 진단과 증상의 정확성을 개별적으로 또는 개별적으로 제시한다 가중 점수를 합산했습니다. 이 방법은 다음 사이의 연결을 간과합니다 증상과 진단. ADD 시스템에 대한 통합 점수를 도입합니다 증상과 진단 사이의 상호 작용을 고려한 것입니다. 이것. 점수는 또한 시스템의 신뢰성을 나타냅니다. 마지막까지 우리는 두 명을 훈련시킨다 MDial 언어 모델의 중간 크기. 우리의 실험에 따르면, 그것은 이 언어 모델들은 많은 자연어 이해에 있어서 잘 수행할 수 있다 일반 영역에서의 대화 작업을 포함하여, 그들은 관계를 맺기 위해 고군분투한다 관련 증상 및 질병으로 인해 MDial의 성능이 떨어집니다. MDDial ADD 대화 연구를 돕기 위해 공개될 것이다. 

 

 

Time Travel in LLMs: Tracing Data Contamination in Large Language Models

 

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in understanding LLMs' effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination in individual instances that are drawn from a small random sample; using this information, our approach then assesses if an entire dataset partition is contaminated. To estimate contamination of individual instances, we employ "guided instruction:" a prompt consisting of the dataset name, partition type, and the initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM's output either exactly or closely matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE or BLEURT) is statistically significantly better with the guided instruction vs. a general instruction that does not include the dataset and partition name. The second idea marks a dataset as contaminated if a classifier based on GPT-4 with in-context learning prompting marks multiple instances as contaminated. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human expert. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.

 

데이터 오염, 즉 다운스트림 작업의 테스트 데이터 존재 대형 언어 모델(LLM)의 훈련 데이터는 잠재적인 주요 문제이다 다른 업무에 대한 LLM의 효과를 이해하는 데 있어. 우리는 제안한다 데이터 오염을 식별하기 위한 간단하지만 효과적인 방법 LLMs. 그 핵심에서, 우리의 접근법은 잠재적인 오염을 확인하는 것으로부터 시작한다 작은 무작위 샘플에서 추출된 개별 인스턴스에서; 이것을 사용한다 정보, 그리고 나서 우리의 접근 방식은 전체 데이터 세트 파티션이 다음과 같은지 평가한다 오염된. 개별 인스턴스의 오염을 추정하기 위해 우리는 "guided instruction:" 데이터 세트 이름, 파티션 유형, 그리고 참조 인스턴스의 초기 세그먼트를 LLM에 완료하도록 요청합니다. LLM의 출력이 정확하게 일치하는 경우 인스턴스가 오염된 것으로 플래그 지정됩니다 참조의 마지막 세그먼트와 밀접하게 일치합니다. 전체를 이해하려면 파티션이 오염되었습니다. 우리는 두 가지 아이디어를 제안합니다. 첫 번째 아이디어는 데이터 세트를 표시한다 기준과 평균 중첩 점수가 일치하는 경우 오염된 것으로 파티션 분할 (ROUGE 또는 BLEURT로 측정된) 인스턴스는 통계적으로 유의합니다 안내된 지침 대 그렇지 않은 일반 지침으로 더 좋다 데이터 세트 및 파티션 이름을 포함합니다. 두 번째 아이디어는 데이터 세트를 다음과 같이 표시한다 컨텍스트 내 학습 프롬프트가 표시되는 GPT-4 기반 분류기가 오염된 경우 여러 인스턴스를 오염된 것으로 표시합니다. 우리의 최선의 방법은 정확성을 달성한다 LLM이 7개로 오염되었는지 여부를 감지할 때 92%에서 100% 사이입니다 데이터 세트, 훈련 및 테스트/확인 파티션이 포함되어 있습니다 인간 전문가에 의한 수동 평가. 게다가, 우리의 연구 결과는 GPT-4가 AG News, WNLI 및 XSum 데이터 세트로 오염되었습니다. 

 

 

반응형

댓글