본문 바로가기
오늘의 자연어 처리

[2023-02-13] 오늘의 자연어처리

by 지환이아빠 2023. 2. 13.
반응형

Robust Question Answering against Distribution Shifts with Test-Time Adaptation: An Empirical Study

 

A deployed question answering (QA) model can easily fail when the test data has a distribution shift compared to the training data. Robustness tuning (RT) methods have been widely studied to enhance model robustness against distribution shifts before model deployment. However, can we improve a model after deployment? To answer this question, we evaluate test-time adaptation (TTA) to improve a model after deployment. We first introduce COLDQA, a unified evaluation benchmark for robust QA against text corruption and changes in language and domain. We then evaluate previous TTA methods on COLDQA and compare them to RT methods. We also propose a novel TTA method called online imitation learning (OIL). Through extensive experiments, we find that TTA is comparable to RT methods, and applying TTA after RT can significantly boost the performance on COLDQA. Our proposed OIL improves TTA to be more robust to variation in hyper-parameters and test distributions over time.

 

배포된 QA(Question Answering) 모델은 테스트 데이터가 있을 때 쉽게 실패할 수 있습니다 교육 데이터와 비교하여 분포 이동이 있습니다. 로버스트니스 튜닝(RT) 방법은 모델의 견고성을 향상시키기 위해 광범위하게 연구되어 왔다 모델 배포 전에 배포 이동을 수행할 수 있습니다. 하지만, 우리가 모델을 개선할 수 있을까요 배치 후에? 이 질문에 답하기 위해, 우리는 시험 시간 적응을 평가한다 (TTA) 배치 후 모델을 개선합니다. 먼저 통일된 COLDQA를 소개합니다 텍스트 손상 및 변경에 대한 강력한 QA를 위한 평가 벤치마크 언어와 영역. 그런 다음 COLDQA에 대한 이전 TTA 방법을 평가한다 RT 방법과 비교합니다. 우리는 또한 온라인이라고 불리는 새로운 TTA 방법을 제안한다 모방 학습. 광범위한 실험을 통해 우리는 TTA가 RT 방법과 유사하며, RT 후에 TTA를 적용하면 크게 향상될 수 있습니다 COLDQA에서의 공연. 우리가 제안한 오일은 TTA를 보다 견고하게 개선한다 시간에 따른 초 매개변수 및 검정 분포의 변동. 

 

 

A Transformer-based Response Evaluator for Open-Domain Spoken Conversation

 

Many open-domain dialogue systems rely on multiple response generators, any of which can contribute a response to the dialogue in a particular context. Thus the ability to compare potential responses and then select the best plays an important role in ensuring a dialogue system is coherent and engaging. Dialogue coherence goes beyond simply remaining on topic -- some trivia may be on topic and engaging when mentioned out of the blue, but may not be coherent and grounded in the context of the conversation. We carry out experiments on response selection in the Athena system, an Alexa Prize SocialBot that has dedicated content and multiple topic-specific response generators for a large number of topics. First, we collect a corpus of Athena conversations with live human traffic, where potential responses from all enabled response generators are logged and subsequently annotated for response quality. We compare several off-the-shelf response ranking methods for open-domain dialogue to Athena-Heuristic, a heuristic response ranker that was field-tested in Athena during the third Alexa Prize competition. We also compare these to a transformer-based response ranker we call Athena-RR, that we train on our Athena conversations. Athena-RR uses both the conversational context and the dialogue state to rank the potential responses. We find that Athena-RR with a Recall@1 of 70.79\% outperforms Athena-Heuristic and all of the off-the-shelf rankers by a large margin. We then conduct a live A/B study comparing Athena-Heuristic to Athena-RR in a 6,358 conversations with Alexa users. We show that Athena-RR leads to significantly longer conversations that receive significantly higher user ratings than the heuristic rule-based ranker.

 

많은 개방형 도메인 대화 시스템은 다중 응답 생성기에 의존한다 그것은 특정한 맥락에서 대화에 대한 반응에 기여할 수 있다. 따라서 잠재적인 반응을 비교한 다음 최고의 플레이를 선택할 수 있습니다 대화 시스템이 일관성 있고 매력적이라는 것을 보장하는 중요한 역할. 대화의 일관성은 단순히 주제에 머무르는 것을 넘어선다 - 어떤 사소한 것들은 주제에 대해 그리고 갑자기 언급되었을 때 참여하지만 일관성이 없을 수도 있다 대화의 맥락에 근거를 두고 있습니다. 우리는 다음에 대한 실험을 수행한다 Athena 시스템의 응답 선택, Alexa Prize SocialBot은 대규모 전용 콘텐츠 및 여러 주제별 응답 생성기 화제의 수. 먼저, 우리는 아테나와 실시간 대화의 말뭉치를 수집한다 활성화된 모든 응답 생성기의 잠재적 응답이 있는 휴먼 트래픽 는 기록되고 후속적으로 응답 품질에 대한 주석이 추가됩니다. 우리는 몇 개를 비교한다 오픈 도메인 대화를 위한 기성 응답 순위 방법 아테나-휴리스틱, 아테나에서 현장 테스트된 휴리스틱 응답 랭커 세 번째 알렉사 상 대회 동안. 우리는 또한 이것들을 a와 비교한다 우리가 Athena-RR이라고 부르는 변압기 기반 응답 랭커는 우리가 훈련하는 것이다 아테나의 대화. Athena-RR은 대화 컨텍스트와 대화 상태를 사용하여 잠재적 반응의 순위를 지정합니다. 우리는 Athena-RR과 함께 70.79%의 Recall@1은 Athena-Heuristic 및 모든 기성품을 능가합니다 큰 차로 랭커들. 그런 다음 A/B 실시간 비교 연구를 수행합니다 Alexa 사용자와의 6,358건의 대화에서 Athena-Heuristic에서 Athena-RR로 변경되었습니다. 우리가 Athena-RR이 수신하는 대화가 상당히 길어짐을 보여줍니다 휴리스틱 규칙 기반 랭커보다 훨씬 높은 사용자 등급. 

 

 

Data Augmentation for Robust Character Detection in Fantasy Novels

 

Named Entity Recognition (NER) is a low-level task often used as a foundation for solving higher level NLP problems. In the context of character detection in novels, NER false negatives can be an issue as they possibly imply missing certain characters or relationships completely. In this article, we demonstrate that applying a straightforward data augmentation technique allows training a model achieving higher recall, at the cost of a certain amount of precision regarding ambiguous entities. We show that this decrease in precision can be mitigated by giving the model more local context, which resolves some of the ambiguities.

 

명명된 엔티티 인식(NER)은 종종 기반으로 사용되는 낮은 수준의 작업입니다 더 높은 수준의 NLP 문제를 해결하기 위해. 문자 탐지의 맥락에서 소설, NER 거짓 부정은 누락을 의미할 수 있기 때문에 문제가 될 수 있습니다 특정 인물이나 관계를 완전히 파악할 수 있습니다. 이 기사에서는 다음을 시연합니다 간단한 데이터 확대 기술을 적용하면 훈련을 할 수 있다 일정 정도의 정밀도를 희생하여 더 높은 회수율을 달성하는 모델 애매모호한 실체에 대해서. 우리는 이러한 정밀도의 감소가 다음과 같을 수 있음을 보여준다 모델에 더 많은 로컬 컨텍스트를 제공함으로써 완화되며, 이는 일부를 해결한다 애매모호함. 

 

 

반응형

댓글