본문 바로가기
오늘의 자연어 처리

[2023-07-04] 오늘의 자연어처리

by 지환이아빠 2023. 7. 4.
반응형

Biomedical Language Models are Robust to Sub-optimal Tokenization

 

As opposed to general English, many concepts in biomedical terminology have been designed in recent history by biomedical professionals with the goal of being precise and concise. This is often achieved by concatenating meaningful biomedical morphemes to create new semantic units. Nevertheless, most modern biomedical language models (LMs) are pre-trained using standard domain-specific tokenizers derived from large scale biomedical corpus statistics without explicitly leveraging the agglutinating nature of biomedical language. In this work, we first find that standard open-domain and biomedical tokenizers are largely unable to segment biomedical terms into meaningful components. Therefore, we hypothesize that using a tokenizer which segments biomedical terminology more accurately would enable biomedical LMs to improve their performance on downstream biomedical NLP tasks, especially ones which involve biomedical terms directly such as named entity recognition (NER) and entity linking. Surprisingly, we find that pre-training a biomedical LM using a more accurate biomedical tokenizer does not improve the entity representation quality of a language model as measured by several intrinsic and extrinsic measures such as masked language modeling prediction (MLM) accuracy as well as NER and entity linking performance. These quantitative findings, along with a case study which explores entity representation quality more directly, suggest that the biomedical pre-training process is quite robust to instances of sub-optimal tokenization.

 

일반적인 영어와는 대조적으로, 생물 의학 용어의 많은 개념들은 최근 역사에서 생물 의학 전문가들에 의해 설계되었다 정확하고 간결하다. 이것은 종종 의미 있는 연결을 통해 달성된다 새로운 의미 단위를 만들기 위한 생물 의학 형태소. 그럼에도 불구하고 가장 현대적인 생물의학 언어 모델(LM)은 표준 도메인별로 사전 교육을 받는다 의 대규모 생물 의학 코퍼스 통계에서 파생된 토큰화기 생물 의학 언어의 응집력 있는 특성을 이용하는 것을 명시적으로. 이 점에서. 작동, 우리는 먼저 표준 오픈 도메인 및 생물 의학 토큰화기가 생물 의학 용어를 의미 있는 구성 요소로 분할할 수 없습니다. 따라서, 우리는 생물 의학을 분할하는 토큰화기를 사용하는 것이 용어를 더 정확하게 사용하면 생물 의학 LM이 그들의 능력을 향상시킬 수 있을 것이다 다운스트림 바이오메디컬 NLP 작업에 대한 성능, 특히 관련된 작업 명명된 엔티티 인식(NER) 및 엔티티와 같은 직접적인 생물의학 용어 연접의. 놀랍게도, 우리는 더 많은 것을 사용하여 생물 의학 LM을 사전 훈련시키는 것을 발견했다 정확한 바이오메디컬 토큰라이저는 엔티티 표현을 개선하지 않습니다 몇 가지 본질적이고 외적인 것에 의해 측정된 언어 모델의 품질 마스크 언어 모델링 예측(MLM) 정확도와 같은 측정값 NER과 엔티티 연결 성능. 이러한 정량적인 발견들과 함께 엔티티 표현 품질을 보다 직접적으로 탐구하는 사례 연구, 제안 생물 의학 사전 훈련 과정이 다음의 사례들에 상당히 강하다는 것 차선의 토큰화. 

 

 

X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents

 

Task-oriented dialogue research has mainly focused on a few popular languages like English and Chinese, due to the high dataset creation cost for a new language. To reduce the cost, we apply manual editing to automatically translated data. We create a new multilingual benchmark, X-RiSAWOZ, by translating the Chinese RiSAWOZ to 4 languages: English, French, Hindi, Korean; and a code-mixed English-Hindi language. X-RiSAWOZ has more than 18,000 human-verified dialogue utterances for each language, and unlike most multilingual prior work, is an end-to-end dataset for building fully-functioning agents. The many difficulties we encountered in creating X-RiSAWOZ led us to develop a toolset to accelerate the post-editing of a new language dataset after translation. This toolset improves machine translation with a hybrid entity alignment technique that combines neural with dictionary-based methods, along with many automated and semi-automated validation checks. We establish strong baselines for X-RiSAWOZ by training dialogue agents in the zero- and few-shot settings where limited gold data is available in the target language. Our results suggest that our translation and post-editing methodology and toolset can be used to create new high-quality multilingual dialogue agents cost-effectively. Our dataset, code, and toolkit are released open-source.

 

작업 중심의 대화 연구는 주로 몇 가지 인기 있는 언어에 초점을 맞추고 있다 영어와 중국어처럼, 새로운 것을 위한 높은 데이터 세트 생성 비용 때문에 언어. 비용을 절감하기 위해 수동 편집을 에 자동으로 적용합니다 번역된 자료. 다음을 통해 새로운 다국어 벤치마크인 X-RiSAWOZ를 만듭니다 중국어 RiSAWOZ를 4개 언어로 번역: 영어, 프랑스어, 힌디어, 한국어; 그리고 코드가 섞인 영어-힌디 언어. X-RiSAOZ는 18,000개 이상을 보유하고 있다 대부분의 언어와 달리 각 언어에 대한 인간과 인간의 대화 발언 다국어 사전 작업, 구축을 위한 엔드 투 엔드 데이터 세트입니다 완벽하게 작동하는 에이전트. X-RiSAWOZ를 만드는 과정에서 우리가 직면한 많은 어려움들이 우리를 개발하게 했다 새로운 언어 데이터 세트의 사후 처리를 가속화하기 위한 도구 세트 번역. 이 도구 세트는 하이브리드 엔티티를 사용하여 기계 번역을 개선합니다 신경과 사전 기반의 방법을 결합하는 정렬 기술 많은 자동화 및 반자동화된 유효성 검사를 사용합니다. 우리는 대화 에이전트를 훈련시켜 X-RiSAOZ에 대한 강력한 기준선을 설정한다 제한된 골드 데이터를 사용할 수 있는 제로샷 및 퓨샷 설정 표적 언어. 우리의 결과는 우리의 번역과 사후 편집이 방법론과 도구 세트를 사용하여 새로운 고품질 다국어를 만들 수 있습니다 비용 효율적으로 대화 에이전트를 사용할 수 있습니다. 데이터 세트, 코드 및 툴킷이 출시되었습니다 오픈 소스의. 

 

 

Progressive Multi-task Learning Framework for Chinese Text Error Correction

 

Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human's daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC task and achieve tremendous success. However, previous approaches suffer from issues of over-correction and under-correction, and the former is especially conspicuous in the precision-critical CTEC task. To mitigate the issue of overcorrection, we propose a novel model-agnostic progressive multitask learning framework for CTEC, named ProTEC, which guides a CTEC model to learn the task from easy to difficult. We divide CTEC task into three sub-tasks from easy to difficult: Error Detection, Error Type Identification, and Correction Result Generation. During the training process, ProTEC guides the model to learn text error correction progressively by incorporating these sub-tasks into a multi-task training objective. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses fully demonstrate the effectiveness and efficiency of our proposed framework.

 

중국어 텍스트 오류 수정(CTEC)은 오류를 감지하고 수정하는 것을 목표로 한다 인간의 일상 생활과 다양한 다운스트림 작업에 도움이 되는 입력 텍스트. 최근의 접근 방식은 주로 사전 훈련된 언어 모델(PLM)을 사용하여 해결한다 CTEC는 엄청난 성공을 달성합니다. 그러나 이전의 접근 방식은 어려움을 겪는다 과보정과 과소보정의 문제로부터, 그리고 전자는 특히 정밀도가 중요한 CTEC 작업에서 두드러진다. 완화하기 위해 과잉 수정 문제, 우리는 새로운 모델에 구애받지 않는 진행형을 제안한다 CTEC 모델을 안내하는 ProTEC라는 이름의 CTEC용 멀티태스킹 학습 프레임워크 그 일을 쉬운 것부터 어려운 것까지 배우다. 우리는 CTEC 과제를 세 가지로 나눈다 오류 감지, 오류 유형 식별, 쉬운 작업부터 어려운 작업까지 모두 수행할 수 있습니다, 및 수정 결과 생성. 교육 과정 중에 ProTEC 가이드 이것들을 통합하여 점진적으로 텍스트 오류 수정을 학습하는 모델 멀티태스킹 교육 목표로 하위 분류됩니다. 추론 과정에서, 모델은 이러한 하위 단계를 차례로 완료하여 수정 결과를 생성합니다. 광범위한 실험과 상세한 분석은 효과를 충분히 입증한다 그리고 우리가 제안한 프레임워크의 효율성. 

 

 

반응형

댓글