본문 바로가기
오늘의 자연어 처리

[2023-08-01] 오늘의 자연어처리

by 지환이아빠 2023. 8. 1.
반응형

Investigating the Learning Behaviour of In-context Learning: A Comparison with Supervised Learning

 

Large language models (LLMs) have shown remarkable capacity for in-context learning (ICL), where learning a new task from just a few training examples is done without being explicitly pre-trained. However, despite the success of LLMs, there has been little understanding of how ICL learns the knowledge from the given prompts. In this paper, to make progress toward understanding the learning behaviour of ICL, we train the same LLMs with the same demonstration examples via ICL and supervised learning (SL), respectively, and investigate their performance under label perturbations (i.e., noisy labels and label imbalance) on a range of classification tasks. First, via extensive experiments, we find that gold labels have significant impacts on the downstream in-context performance, especially for large language models; however, imbalanced labels matter little to ICL across all model sizes. Second, when comparing with SL, we show empirically that ICL is less sensitive to label perturbations than SL, and ICL gradually attains comparable performance to SL as the model size increases.

 

대형 언어 모델(LLM)은 컨텍스트 내에서 놀라운 용량을 보여주었다 학습(ICL), 단지 몇 가지 훈련 예로부터 새로운 과제를 배우는 것은 명시적으로 사전 교육을 받지 않고 완료되었습니다. 그러나, 성공에도 불구하고 LLMs, ICL이 어떻게 지식을 학습하는지에 대한 이해가 거의 없었다 지정된 프롬프트. 이 논문에서, 이해를 위한 진전을 이루기 위해 ICL의 학습 동작, 우리는 동일한 시연으로 동일한 LLM을 훈련한다 각각 ICL과 지도 학습(SL)을 통한 사례를 조사하고 라벨 섭동(즉, 소음 라벨 및 라벨) 하에서의 성능 불균형)이 다양한 분류 작업에서 발생합니다. 첫째, 광범위하게 실험, 우리는 금 라벨이 다음에 중대한 영향을 미친다는 것을 발견했다 특히 대규모 언어 모델의 경우 다운스트림 인트라넷 성능; 그러나 불균형 레이블은 모든 모델 크기에 걸쳐 ICL에 거의 중요하지 않다. 둘째, SL과 비교할 때, 우리는 ICL이 라벨에 덜 민감하다는 것을 경험적으로 보여준다 SL보다 섭동, 그리고 ICL은 SL과 동등한 성능을 점진적으로 얻는다 모델 크기가 증가함에 따라. 

 

 

Uncertainty in Natural Language Generation: From Theory to Applications

 

Recent advances of powerful Language Models have allowed Natural Language Generation (NLG) to emerge as an important technology that can not only perform traditional tasks like summarisation or translation, but also serve as a natural language interface to a variety of applications. As such, it is crucial that NLG systems are trustworthy and reliable, for example by indicating when they are likely to be wrong; and supporting multiple views, backgrounds and writing styles -- reflecting diverse human sub-populations. In this paper, we argue that a principled treatment of uncertainty can assist in creating systems and evaluation protocols better aligned with these goals. We first present the fundamental theory, frameworks and vocabulary required to represent uncertainty. We then characterise the main sources of uncertainty in NLG from a linguistic perspective, and propose a two-dimensional taxonomy that is more informative and faithful than the popular aleatoric/epistemic dichotomy. Finally, we move from theory to applications and highlight exciting research directions that exploit uncertainty to power decoding, controllable generation, self-assessment, selective answering, active learning and more.

 

최근 강력한 언어 모델의 발전은 자연어를 허용했다 발전(NLG)은 단지 수행할 수 있는 것뿐만 아니라 중요한 기술로 부상할 것이다 요약이나 번역과 같은 전통적인 작업들은 또한 다음과 같은 역할을 한다 다양한 응용 프로그램에 대한 자연어 인터페이스. 그러므로, 그것은 매우 중요하다 NLG 시스템이 신뢰할 수 있고 신뢰할 수 있다는 것을 예를 들어 다음과 같이 표시한다 그들은 틀릴 가능성이 있다; 그리고 다수의 견해, 배경 그리고 다양한 인간 하위 집단을 반영하는 글쓰기 스타일. 이 논문에서 우리는 불확실성의 원칙적인 처리가 시스템을 만드는 데 도움이 될 수 있다고 주장한다 그리고 평가 프로토콜이 이러한 목표와 더 잘 일치합니다. 우리는 먼저 다음을 제시한다 표현하는 데 필요한 기본 이론, 프레임워크 및 어휘 불확실성. 그런 다음 우리는 NLG의 불확실성의 주요 원인을 a로부터 특징짓는다 언어적 관점, 그리고 더 많은 2차원 분류법을 제안한다 일반적인 격언적/비공식적 이분법보다 유익하고 충실하다. 마지막으로 이론에서 응용 분야로 이동하고 흥미로운 연구를 강조합니다 전력 디코딩에 대한 불확실성을 이용하는 방향, 제어 가능한 생성, 자기 평가, 선택적 답변, 능동적 학습 등을 제공합니다. 

 

 

The timing bottleneck: Why timing and overlap are mission-critical for conversational user interfaces, speech recognition and dialogue systems

 

Speech recognition systems are a key intermediary in voice-driven human-computer interaction. Although speech recognition works well for pristine monologic audio, real-life use cases in open-ended interactive settings still present many challenges. We argue that timing is mission-critical for dialogue systems, and evaluate 5 major commercial ASR systems for their conversational and multilingual support. We find that word error rates for natural conversational data in 6 languages remain abysmal, and that overlap remains a key challenge (study 1). This impacts especially the recognition of conversational words (study 2), and in turn has dire consequences for downstream intent recognition (study 3). Our findings help to evaluate the current state of conversational ASR, contribute towards multidimensional error analysis and evaluation, and identify phenomena that need most attention on the way to build robust interactive speech technologies.

 

음성 인식 시스템은 음성 기반의 핵심 매개체입니다 인간과 컴퓨터의 상호 작용. 비록 음성 인식이 자연 환경에서 잘 작동하지만 단일 오디오, 개방형 대화형 설정의 실제 사용 사례 여전히 많은 도전을 하다. 우리는 대화를 위해 타이밍이 미션 크리티컬하다고 주장한다 5개의 주요 상용 ASR 시스템을 평가하여 대화를 진행합니다 그리고 다국어 지원. 우리는 자연스러운 단어 오류율을 발견했다 6개 언어의 대화 데이터는 여전히 최악이며, 그 중복은 여전히 a로 남아 있다 핵심 과제(연구 1). 이것은 특히 의 인식에 영향을 미친다 대화형 단어(스터디 2), 그리고 차례로 심각한 결과를 초래한다 다운스트림 의도 인식(연구 3). 우리의 발견은 다음을 평가하는 데 도움이 된다 현재 대화형 ASR 상태, 다차원 오류에 기여 분석과 평가, 그리고 가장 주의가 필요한 현상을 식별한다 강력한 대화형 음성 기술을 구축하는 방법. 

 

 

반응형

댓글