본문 바로가기
오늘의 자연어 처리

[2023-09-10] 오늘의 자연어처리

by 지환이아빠 2023. 9. 10.
반응형

Word segmentation granularity in Korean

 

Abstract:This paper describes word {segmentation} granularity in Korean language processing. From a word separated by blank space, which is termed an eojeol, to a sequence of morphemes in Korean, there are multiple possible levels of word segmentation granularity in Korean. For specific language processing and corpus annotation tasks, several different granularity levels have been proposed and utilized, because the agglutinative languages including Korean language have a one-to-one mapping between functional morpheme and syntactic category. Thus, we analyze these different granularity levels, presenting the examples of Korean language processing systems for future reference. Interestingly, the granularity by separating only functional morphemes including case markers and verbal endings, and keeping other suffixes for morphological derivation results in the optimal performance for phrase structure parsing. This contradicts previous best practices for Korean language processing, which has been the de facto standard for various applications that require separating all morphemes.

 

초록:본 논문은 한국어 처리에서 {세분화}라는 단어의 세분화를 설명한다. 빈칸으로 구분된 단어, 즉 어절부터 한국어의 형태소 순서에 이르기까지 한국어에는 다양한 수준의 단어 세분화가 가능하다. 특정 언어 처리 및 말뭉치 주석 작업에 대해서는 기능적 형태소와 통사적 범주 간의 일대일 매핑이 존재하기 때문에 여러 가지 상이한 세분화 수준이 제안되어 활용되고 있다. 따라서 이러한 상이한 세분화 수준을 분석하여 향후 참고할 수 있도록 한국어 처리 시스템의 예를 제시한다. 흥미롭게도, 사례 마커 및 구두 종결어미를 포함하는 기능적 형태소만을 분리하고 형태론적 유도를 위해 다른 접미사를 유지함으로써 세분화는 구문 구조 파싱에 대한 최적의 성능을 가져온다. 이는 모든 형태소를 구분해야 하는 다양한 응용에 대한 사실상의 기준이 되어온 한국어 처리에 대한 기존의 모범 사례와 모순된다. 

 

 

All Labels Together: Low-shot Intent Detection with an Efficient Label Semantic Encoding Paradigm

 

Abstract:In intent detection tasks, leveraging meaningful semantic information from intent labels can be particularly beneficial for few-shot scenarios. However, existing few-shot intent detection methods either ignore the intent labels, (e.g. treating intents as indices) or do not fully utilize this information (e.g. only using part of the intent labels). In this work, we present an end-to-end One-to-All system that enables the comparison of an input utterance with all label candidates. The system can then fully utilize label semantics in this way. Experiments on three few-shot intent detection tasks demonstrate that One-to-All is especially effective when the training resource is extremely scarce, achieving state-of-the-art performance in 1-, 3- and 5-shot settings. Moreover, we present a novel pretraining strategy for our model that utilizes indirect supervision from paraphrasing, enabling zero-shot cross-domain generalization on intent detection tasks. Our code is at this https URL.

 

초록:의도 탐지 작업에서 의도 레이블의 의미 있는 의미 정보를 활용하는 것은 퓨샷 시나리오에 특히 유용할 수 있다. 그러나 기존의 퓨샷 의도 탐지 방법은 의도 레이블을 무시하거나(예: 의도를 인덱스로 취급), 이 정보를 완전히 활용하지 않는다(예: 의도 레이블의 일부만 사용). 본 연구에서는 입력 발화를 모든 레이블 후보와 비교할 수 있는 종단 간 일대일 시스템을 제시한다. 그러면 시스템은 이러한 방식으로 라벨 시맨틱스를 완전히 활용할 수 있다. 세 가지 퓨샷 의도 감지 작업에 대한 실험은 훈련 자원이 극도로 부족할 때 특히 One-to-All이 효과적이며 1, 3, 5샷 설정에서 최첨단 성능을 달성한다는 것을 보여준다. 또한, 우리는 의도 탐지 작업에 대한 제로샷 교차 도메인 일반화를 가능하게 하는 패러프레이즈의 간접 감독을 활용하는 모델에 대한 새로운 사전 훈련 전략을 제시한다. 우리의 코드는 이 https URL에 있다. 

 

 

On Large Language Models' Selection Bias in Multi-Choice Questions

 

Abstract:Multi-choice questions (MCQs) serve as a common yet important task format in the research of large language models (LLMs). Our work shows that LLMs exhibit an inherent "selection bias" in MCQs, which refers to LLMs' preferences to select options located at specific positions (like "Option C"). This bias is prevalent across various LLMs, making their performance vulnerable to option position changes in MCQs. We identify that one primary cause resulting in selection bias is option numbering, i.e., the ID symbols A/B/C/D associated with the options. To mitigate selection bias, we propose a new method called PriDe. PriDe first decomposes the observed model prediction distribution into an intrinsic prediction over option contents and a prior distribution over option IDs. It then estimates the prior by permutating option contents on a small number of test samples, which is used to debias the subsequent test samples. We demonstrate that, as a label-free, inference-time method, PriDe achieves a more effective and computation-efficient debiasing than strong baselines. We further show that the priors estimated by PriDe generalize well across different domains, highlighting its practical potential in broader scenarios.

 

초록:다중 선택 질문(MCQ)은 대형 언어 모델(LLM) 연구에서 일반적이면서도 중요한 작업 형식의 역할을 한다. 우리의 연구는 LLM이 MCQ에 내재된 "선택 편향"을 나타냄을 보여주는데, 이는 특정 위치에 위치한 옵션을 선택하는 LLM의 선호도를 나타낸다("옵션 C"와 같이). 이러한 편향은 다양한 LLM에 걸쳐 널리 퍼져 있으며, 이들의 성능을 MCQ의 옵션 위치 변경에 취약하게 만든다. 우리는 선택 편향을 초래하는 한 가지 주요 원인이 옵션 번호 부여, 즉 옵션과 관련된 ID 기호 A/B/C/D라는 것을 식별한다. 선택 편향을 완화하기 위해 PriDe라는 새로운 방법을 제안한다. PriDe는 먼저 관측된 모델 예측 분포를 옵션 내용에 대한 고유 예측과 옵션 ID에 대한 사전 분포로 분해한다. 그런 다음 적은 수의 테스트 샘플에서 옵션 내용을 순열하여 이전 것을 추정하며, 이는 후속 테스트 샘플을 디바이즈하는 데 사용됩니다. 우리는 레이블이 없는 추론 시간 방법으로서 PriDe가 강력한 기준선보다 더 효과적이고 계산 효율적인 디바이징을 달성한다는 것을 보여준다. 우리는 또한 PriDe에 의해 추정된 이전의 것이 다양한 도메인에 걸쳐 잘 일반화되어 더 넓은 시나리오에서 실용적인 잠재력을 강조한다는 것을 보여준다. 

 

 

반응형

댓글