AARGH! End-to-end Retrieval-Generation for Task-Oriented Dialog
We introduce AARGH, an end-to-end task-oriented dialog system combining retrieval and generative approaches in a single model, aiming at improving dialog management and lexical diversity of outputs. The model features a new response selection method based on an action-aware training objective and a simplified single-encoder retrieval architecture which allow us to build an end-to-end retrieval-enhanced generation model where retrieval and generation share most of the parameters. On the MultiWOZ dataset, we show that our approach produces more diverse outputs while maintaining or improving state tracking and context-to-response generation performance, compared to state-of-the-art baselines.
우리는 AARGH를 소개합니다. AARGH는 엔드 투 엔드 작업 지향 대화 시스템입니다. 단일 모델에서 검색 및 생성 접근 방식, 개선을 목표로 함 대화 관리 및 출력의 어휘 다양성. 그 모델은 새로운 특징을 가지고 있다. 행동 인식 훈련 목표 및 A에 기반한 대응 선택 방법 단순화된 단일 데이터 검색 아키텍처를 통해 검색 및 생성을 수행하는 엔드 투 엔드 검색-프로그래밍 생성 모델 대부분의 매개 변수를 공유합니다. MultiWOZ 데이터 집합에서 우리는 다음을 보여준다. 상태를 유지하거나 개선하는 동안 더 다양한 출력을 생성하는 접근 방식 추적 및 컨텍스트-대-응답 생성 성능, 최첨단 기준선
CLaCLab at SocialDisNER: Using Medical Gazetteers for Named-Entity Recognition of Disease Mentions in Spanish Tweets
This paper summarizes the CLaC submission for SMM4H 2022 Task 10 which concerns the recognition of diseases mentioned in Spanish tweets. Before classifying each token, we encode each token with a transformer encoder using features from Multilingual RoBERTa Large, UMLS gazetteer, and DISTEMIST gazetteer, among others. We obtain a strict F1 score of 0.869, with competition mean of 0.675, standard deviation of 0.245, and median of 0.761.
이 논문은 SMM4H 2022 과제 10에 대한 CLaC 제출을 요약한다. 스페인 트윗에서 언급된 질병의 인식에 관한 것이다. 전에 각 토큰을 분류하고, 우리는 트랜스포머 인코더로 각 토큰을 인코딩한다. 다국어 Roberta Large, UMLS 가제너 및 DISTemist의 기능 가제트 등 우리는 0.869의 엄격한 F1 점수를 얻으며 경쟁한다. 평균 0.675, 표준 편차 0.120, 중위수 0.761입니다.
Towards explainable evaluation of language models on the semantic similarity of visual concepts
Recent breakthroughs in NLP research, such as the advent of Transformer models have indisputably contributed to major advancements in several tasks. However, few works research robustness and explainability issues of their evaluation strategies. In this work, we examine the behavior of high-performing pre-trained language models, focusing on the task of semantic similarity for visual vocabularies. First, we address the need for explainable evaluation metrics, necessary for understanding the conceptual quality of retrieved instances. Our proposed metrics provide valuable insights in local and global level, showcasing the inabilities of widely used approaches. Secondly, adversarial interventions on salient query semantics expose vulnerabilities of opaque metrics and highlight patterns in learned linguistic representations.
트랜스포머의 등장과 같은 NLP 연구의 최근 돌파구 모델은 의심할 여지 없이 여러 작업에서 주요한 발전에 기여했습니다. 그러나, 그들의 견고성과 설명 가능성 문제를 연구하는 연구는 거의 없다. 평가 전략 이 연구에서, 우리는 고성능의 행동을 조사한다. 사전 훈련된 언어 모델, 의 의미론적 유사성 작업에 초점을 맞춥니다. 시각 어휘 첫째, 설명 가능한 평가의 필요성을 다룬다. 검색된 것의 개념적 품질을 이해하는 데 필요한 측정 기준 예문 제안된 메트릭스는 로컬 및 글로벌에 대한 귀중한 통찰력을 제공합니다. 수준, 널리 사용되는 접근 방식의 무능성을 보여준다. 두 번째로, 두드러진 쿼리 의미론에 대한 적대적 개입은 취약성을 노출시킨다. 학습된 언어 표현의 불투명 메트릭과 강조 패턴.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-09-12] 오늘의 자연어처리 (0) | 2022.09.12 |
---|---|
[2022-09-11] 오늘의 자연어처리 (1) | 2022.09.11 |
[2022-09-09] 오늘의 자연어처리 (0) | 2022.09.09 |
[2022-09-08] 오늘의 자연어처리 (0) | 2022.09.08 |
[2022-09-07] 오늘의 자연어처리 (0) | 2022.09.07 |
댓글