본문 바로가기
오늘의 자연어 처리

[2023-02-14] 오늘의 자연어처리

by 지환이아빠 2023. 2. 14.
반응형

Translating Natural Language to Planning Goals with Large-Language Models

 

Recent large language models (LLMs) have demonstrated remarkable performance on a variety of natural language processing (NLP) tasks, leading to intense excitement about their applicability across various domains. Unfortunately, recent work has also shown that LLMs are unable to perform accurate reasoning nor solve planning problems, which may limit their usefulness for robotics-related tasks. In this work, our central question is whether LLMs are able to translate goals specified in natural language to a structured planning language. If so, LLM can act as a natural interface between the planner and human users; the translated goal can be handed to domain-independent AI planners that are very effective at planning. Our empirical results on GPT 3.5 variants show that LLMs are much better suited towards translation rather than planning. We find that LLMs are able to leverage commonsense knowledge and reasoning to furnish missing details from under-specified goals (as is often the case in natural language). However, our experiments also reveal that LLMs can fail to generate goals in tasks that involve numerical or physical (e.g., spatial) reasoning, and that LLMs are sensitive to the prompts used. As such, these models are promising for translation to structured planning languages, but care should be taken in their use.

 

최근의 대형 언어 모델(LLM)은 놀라운 성능을 보여주었다 다양한 자연어 처리(NLP) 작업에 대해 집중적으로 수행합니다 다양한 영역에 걸친 적용 가능성에 대한 흥분. 불행하게도, 최근 연구는 또한 LLM이 정확한 추론을 수행할 수 없다는 것을 보여주었다 그들의 유용성을 제한할 수 있는 계획 문제를 해결하지도 않는다 로봇 공학 관련 업무. 이 작업에서 우리의 중심 질문은 LLM이 자연어로 지정된 목표를 체계적인 계획으로 변환할 수 있다 언어. 그렇다면 LLM은 설계자와 설계자 사이의 자연스러운 인터페이스 역할을 할 수 있습니다 인간 사용자; 번역된 목표는 도메인 독립 AI에 전달될 수 있다 매우 효과적인 계획 입안자들. GPT 3.5에 대한 경험적 결과 변형은 LLM이 번역에 훨씬 더 적합하다는 것을 보여준다 계획. 우리는 LLM이 상식적인 지식을 활용할 수 있다는 것을 발견했다 (흔히 그렇듯이) 지정되지 않은 목표에서 누락된 세부 사항을 제공하는 추론 자연어의 경우). 그러나 우리의 실험은 또한 LLM이 수치 또는 물리적 작업(예: 공간적) 추론, 그리고 LLM은 사용된 프롬프트에 민감하다. 그러니까, 이 모델들은 구조화된 계획 언어로의 번역에 유망하다, 그러나 주의해서 사용해야 합니다. 

 

 

Cross-Corpora Spoken Language Identification with Domain Diversification and Generalization

 

This work addresses the cross-corpora generalization issue for the low-resourced spoken language identification (LID) problem. We have conducted the experiments in the context of Indian LID and identified strikingly poor cross-corpora generalization due to corpora-dependent non-lingual biases. Our contribution to this work is twofold. First, we propose domain diversification, which diversifies the limited training data using different audio data augmentation methods. We then propose the concept of maximally diversity-aware cascaded augmentations and optimize the augmentation fold-factor for effective diversification of the training data. Second, we introduce the idea of domain generalization considering the augmentation methods as pseudo-domains. Towards this, we investigate both domain-invariant and domain-aware approaches. Our LID system is based on the state-of-the-art emphasized channel attention, propagation, and aggregation based time delay neural network (ECAPA-TDNN) architecture. We have conducted extensive experiments with three widely used corpora for Indian LID research. In addition, we conduct a final blind evaluation of our proposed methods on the Indian subset of VoxLingua107 corpus collected in the wild. Our experiments demonstrate that the proposed domain diversification is more promising over commonly used simple augmentation methods. The study also reveals that domain generalization is a more effective solution than domain diversification. We also notice that domain-aware learning performs better for same-corpora LID, whereas domain-invariant learning is more suitable for cross-corpora generalization. Compared to basic ECAPA-TDNN, its proposed domain-invariant extensions improve the cross-corpora EER up to 5.23%. In contrast, the proposed domain-aware extensions also improve performance for same-corpora test scenarios.

 

이 작업은 기업 간 일반화 문제를 해결합니다 저자원 음성 언어 식별(LID) 문제. 우리는 실시했다 인도 LID의 맥락에서의 실험과 현저하게 빈약한 것을 확인했다 말뭉치 의존적 비언어적 편견으로 인한 말뭉치 간 일반화. 우리들의 이 일에 대한 공헌은 두 가지다. 먼저, 우리는 도메인 다양화를 제안한다, 서로 다른 오디오 데이터를 사용하여 제한된 교육 데이터를 다양화합니다 증강 방법. 그런 다음 우리는 최대 다양성 인식의 개념을 제안한다 계단식 증강 및 효과적인 확장을 위한 확대 접기 요소 최적화 훈련 데이터의 다양화. 둘째, 도메인의 개념을 소개한다 증강 방법을 의사 표현으로 간주하는 일반화. 방향 이를 통해 도메인 불변 및 도메인 인식 접근 방식을 모두 조사한다. 우리의 뚜껑 시스템은 최첨단 강조 채널 주의를 기반으로 합니다, 전파 및 집계 기반 시간 지연 신경망(ECAPA-TDNN) 건축학. 우리는 널리 사용되는 세 가지 실험을 광범위하게 수행했다 인도 LID 연구를 위한 말뭉치. 게다가, 우리는 최종 블라인드를 실시한다 VoxLingua107 말뭉치의 인도 부분 집합에 대한 제안된 방법의 평가 야생에서 채집한. 우리의 실험은 제안된 도메인이 다양화는 일반적으로 사용되는 단순 증강보다 더 유망하다 방법들. 이 연구는 또한 도메인 일반화가 더 효과적이라는 것을 보여준다 도메인 다양화보다 솔루션이 더 중요합니다. 우리는 또한 도메인 인식 학습이 도메인 불변 학습이 더 나은 반면, 동일한 기업 ID에 더 잘 수행됩니다 기업 간 일반화에 적합합니다. 기본 ECAPA-TDNN과 비교하면 제안된 도메인 불변 확장은 기업 간 EER를 최대 5.23%까지 향상시킨다. 반대로, 제안된 도메인 인식 확장은 또한 다음을 위해 성능을 향상시킨다 동일 기업 테스트 시나리오. 

 

 

Span-based Named Entity Recognition by Generating and Compressing Information

 

The information bottleneck (IB) principle has been proven effective in various NLP applications. The existing work, however, only used either generative or information compression models to improve the performance of the target task. In this paper, we propose to combine the two types of IB models into one system to enhance Named Entity Recognition (NER). For one type of IB model, we incorporate two unsupervised generative components, span reconstruction and synonym generation, into a span-based NER system. The span reconstruction ensures that the contextualised span representation keeps the span information, while the synonym generation makes synonyms have similar representations even in different contexts. For the other type of IB model, we add a supervised IB layer that performs information compression into the system to preserve useful features for NER in the resulting span representations. Experiments on five different corpora indicate that jointly training both generative and information compression models can enhance the performance of the baseline span-based NER system. Our source code is publicly available at this https URL.

 

정보 병목 현상(IB) 원리는 다음과 같이 효과적인 것으로 입증되었습니다 다양한 NLP 응용 프로그램. 그러나 기존 작업은 다음 중 하나만 사용했습니다 생성 또는 정보 압축 모델을 사용하여 성능을 향상시킬 수 있습니다 대상 태스크. 본 논문에서는 두 가지 유형의 IB 모델을 결합할 것을 제안한다 NER(Named Entity Recognition)을 향상시키기 위해 하나의 시스템으로 통합됩니다. 한 유형의 IB에 대해 모델, 우리는 두 개의 비지도 생성 요소를 통합한다 재구성 및 동의어 생성, 스팬 기반 NER 시스템으로. 더 스판 재구성은 문맥화된 스팬 표현이 다음을 유지하도록 보장한다 동의어 생성이 동의어를 유사하게 만드는 반면, 정보를 확장한다 심지어 다른 맥락에서도 표현. 다른 유형의 IB 모델의 경우 정보 압축을 수행하는 감독 IB 계층을 시스템에 추가합니다 결과 스팬 표현에서 NER의 유용한 기능을 보존한다. 5개의 다른 말뭉치에 대한 실험은 두 가지를 공동으로 훈련한다는 것을 나타낸다 생성 및 정보 압축 모델은 성능을 향상시킬 수 있습니다 기준 스팬 기반 NER 시스템. 소스 코드는 다음 사이트에서 공개적으로 사용할 수 있습니다 이 https URL. 

 

 

반응형

댓글