본문 바로가기
오늘의 자연어 처리

[2022-11-11] 오늘의 자연어처리

by 지환이아빠 2022. 11. 11.
반응형

Evaluating and Improving Context Attention Distribution on Multi-Turn Response Generation using Self-Contained Distractions

 

Despite the rapid progress of open-domain generation-based conversational agents, most deployed systems treat dialogue contexts as single-turns, while systems dealing with multi-turn contexts are less studied. There is a lack of a reliable metric for evaluating multi-turn modelling, as well as an effective solution for improving it. In this paper, we focus on an essential component of multi-turn generation-based conversational agents: context attention distribution, i.e. how systems distribute their attention on dialogue's context. For evaluation of this component, We introduce a novel attention-mechanism-based metric: DAS ratio. To improve performance on this component, we propose an optimization strategy that employs self-contained distractions. Our experiments on the Ubuntu chatlogs dataset show that models with comparable perplexity can be distinguished by their ability on context attention distribution. Our proposed optimization strategy improves both non-hierarchical and hierarchical models on the proposed metric by about 10% from baselines.

 

개방형 도메인 생성 기반 대화 방식의 빠른 발전에도 불구하고 에이전트, 대부분의 배포된 시스템은 대화 컨텍스트를 단일 패리티로 취급한다. 다중 턴 컨텍스트를 다루는 시스템은 덜 연구된다. 이 부족하다. 멀티턴 모델링을 평가하기 위한 신뢰할 수 있는 측정 기준 및 효과적 그것을 개선하기 위한 해결책. 이 논문에서, 우리는 필수적인 구성 요소에 초점을 맞춘다. 다중 턴 생성 기반 대화 에이전트: 컨텍스트 주의 분배, 즉 시스템이 대화 내용에 주의를 분산하는 방법. 맥락. 이 구성 요소의 평가를 위해 우리는 소설을 소개한다. 주의 메커니즘 기반 메트릭: DAS 비율. 이 기능의 성능을 향상시키려면 구성 요소, 우리는 자체 포함을 사용하는 최적화 전략을 제안한다. 산만함 Ubuntu 채팅 로그 데이터 세트에 대한 우리의 실험은 다음과 같은 모델을 보여준다. 문맥상 그들의 능력에 의해 비슷한 곤혹스러움으로 구별될 수 있다. 주의 분산 제안된 최적화 전략은 두 가지 모두를 개선합니다. 제안된 메트릭에 대한 비계층적 및 계층적 모델 약 10% 베이스라인에서 

 

 

Detecting Languages Unintelligible to Multilingual Models through Local Structure Probes

 

Providing better language tools for low-resource and endangered languages is imperative for equitable growth. Recent progress with massively multilingual pretrained models has proven surprisingly effective at performing zero-shot transfer to a wide variety of languages. However, this transfer is not universal, with many languages not currently understood by multilingual approaches. It is estimated that only 72 languages possess a "small set of labeled datasets" on which we could test a model's performance, the vast majority of languages not having the resources available to simply evaluate performances on. In this work, we attempt to clarify which languages do and do not currently benefit from such transfer. To that end, we develop a general approach that requires only unlabelled text to detect which languages are not well understood by a cross-lingual model. Our approach is derived from the hypothesis that if a model's understanding is insensitive to perturbations to text in a language, it is likely to have a limited understanding of that language. We construct a cross-lingual sentence similarity task to evaluate our approach empirically on 350, primarily low-resource, languages.

 

저자원 및 멸종 위기에 처한 언어를 위해 더 나은 언어 도구를 제공하는 것은 공평한 성장을 위해 필수적이다. 대규모 다국어 관련 최근 진행 상황 사전 훈련된 모델은 제로 샷을 수행하는 데 놀라울 정도로 효과적이라는 것이 입증되었습니다. 여러 언어로 옮기다 그러나 이 양도는 그렇지 않다. 다국어에 의해 현재 이해되지 않는 많은 언어가 있는 보편적 접근법 72개 언어만이 "작은 집합"을 가지고 있는 것으로 추정된다. 레이블이 지정된 데이터 세트"를 사용하여 모델의 성능을 테스트할 수 있습니다. 대부분의 언어는 단순히 평가할 수 있는 자원을 가지고 있지 않다. 의 공연 이 작업에서, 우리는 어떤 언어가 하고 무엇을 하는지 명확히 하려고 노력한다. 현재 그러한 이전으로부터 이익을 얻지 못한다. 이를 위해, 우리는 장군을 개발한다. 어떤 언어가 그렇지 않은지를 감지하기 위해 레이블이 지정되지 않은 텍스트만 요구하는 접근법 교차 언어 모델에 의해 잘 이해됩니다. 우리의 접근 방식은 만약 모델의 이해가 에 대한 섭동에 둔감하다면 가설. 언어의 텍스트, 그것은 그것에 대한 제한된 이해를 가지고 있을 것 같다. 언어. 우리는 다음을 평가하기 위해 교차 언어 문장 유사성 작업을 구성한다. 주로 저자원 언어인 350개 언어에 대해 경험적으로 접근합니다. 

 

 

Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Attentive CRF

 

Recognizing useful named entities plays a vital role in medical information processing, which helps drive the development of medical area research. Deep learning methods have achieved good results in medical named entity recognition (NER). However, we find that existing methods face great challenges when dealing with the nested named entities. In this work, we propose a novel method, referred to as ASAC, to solve the dilemma caused by the nested phenomenon, in which the core idea is to model the dependency between different categories of entity recognition. The proposed method contains two key modules: the adaptive shared (AS) part and the attentive conditional random field (ACRF) module. The former part automatically assigns adaptive weights across each task to achieve optimal recognition accuracy in the multi-layer network. The latter module employs the attention operation to model the dependency between different entities. In this way, our model could learn better entity representations by capturing the implicit distinctions and relationships between different categories of entities. Extensive experiments on public datasets verify the effectiveness of our method. Besides, we also perform ablation analyses to deeply understand our methods.

 

의료 정보에서 유용한 명명된 실체를 인식하는 것은 중요한 역할을 한다. 의료 분야 연구의 발전을 촉진하는 데 도움이 되는 가공. 깊다 학습 방법은 의학적으로 명명된 실체 인식에서 좋은 결과를 얻었다. (NER). 그러나, 우리는 기존 방법이 다음과 같은 경우에 큰 도전에 직면한다는 것을 발견했다. 중첩된 명명된 도면요소를 처리합니다. 이 작품에서 우리는 소설을 제안한다. ASAC라고 하는, 중첩으로 인한 딜레마를 해결하기 위한 방법. 다른 것 사이의 의존성을 모델링하는 것이 핵심 아이디어인 현상. 실체 인식의 범주. 제안된 방법에는 두 가지 주요 모듈이 포함되어 있습니다. 적응형 공유(AS) 부품 및 주의 깊은 조건부 무작위 필드(ACRF) 모듈. 전자는 각 작업에 걸쳐 자동으로 적응 가중치를 할당합니다. 다중 계층 네트워크에서 최적의 인식 정확도를 달성합니다. 후자 모듈은 주의 연산을 사용하여 간의 의존성을 모델링합니다. 서로 다른 실체 이러한 방식으로, 우리의 모델은 더 나은 실체를 배울 수 있다. 암묵적인 구별과 관계를 포착하여 표현. 서로 다른 범주의 엔티티 간에. 대중을 대상으로 한 광범위한 실험 데이터 세트는 우리 방법의 효과를 검증한다. 게다가, 우리는 공연도 한다. 우리의 방법을 깊이 이해하기 위한 절제 분석 

 

 

반응형

댓글