본문 바로가기
오늘의 자연어 처리

[2024-01-09] 오늘의 자연어처리

by 지환이아빠 2024. 1. 9.
반응형

Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding

 

Abstract:Minimum Bayes-Risk (MBR) decoding is shown to be a powerful alternative to beam search decoding for a wide range of text generation tasks. However, MBR requires a huge amount of time for inference to compute the MBR objective, which makes the method infeasible in many situations where response time is critical. Confidence-based pruning (CBP) (Cheng and Vlachos, 2023) has recently been proposed to reduce the inference time in machine translation tasks. Although it is shown to significantly reduce the amount of computation, it requires hyperparameter tuning using a development set to be effective. To this end, we propose Approximate Minimum Bayes-Risk (AMBR) decoding, a hyperparameter-free method to run MBR decoding approximately. AMBR is derived from the observation that the problem of computing the sample-based MBR objective is the medoid identification problem. AMBR uses the Correlated Sequential Halving (CSH) algorithm (Baharav and Tse, 2019), the best approximation algorithm to date for the medoid identification problem, to compute the sample-based MBR objective. We evaluate AMBR on machine translation, text summarization, and image captioning tasks. The results show that AMBR achieves on par with CBP, with CBP selecting hyperparameters through an Oracle for each given computation budget.

 

추상화:MBR(Minimum Bayes-Risk) 디코딩은 광범위한 텍스트 생성 작업을 위한 빔 검색 디코딩의 강력한 대안으로 보인다. 그러나 MBR은 MBR 목표를 계산하기 위해 추론에 엄청난 시간이 필요하므로 응답 시간이 중요한 많은 상황에서 방법이 불가능하다. 최근 기계 번역 작업에서 추론 시간을 줄이기 위해 신뢰 기반 가지치기(CBP)(Cheng and Vlachos, 2023)가 제안되었다. 계산량을 크게 감소시키는 것으로 나타나지만, 효과적이기 위해서는 개발 세트를 이용한 하이퍼 파라미터 튜닝이 필요하다. 이를 위해, 우리는 MBR 디코딩을 근사적으로 실행하기 위한 하이퍼 파라미터가 없는 방법인 AMBR(Aproxate Minimum Bayes-Risk) 디코딩을 제안한다. AMBR은 샘플 기반 MBR 목표를 계산하는 문제가 매개체 식별 문제라는 관측에서 도출된다. AMBR은 샘플 기반 MBR 목표를 계산하기 위해 메도이드 식별 문제에 대한 현재까지 가장 좋은 근사 알고리즘인 상관 순차적 반감(Correlated Sequential Halving, CSH) 알고리즘(Baharav and Tse, 2019)을 사용한다. 기계 번역, 텍스트 요약 및 이미지 캡션 작업에 대한 AMBR을 평가합니다. 결과는 주어진 계산 예산마다 CBP가 오라클을 통해 하이퍼파라미터를 선택함으로써 AMBR이 CBP와 동등한 수준을 달성한다는 것을 보여준다. 

 

 

DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models

 

Abstract:We present DIALIGHT, a toolkit for developing and evaluating multilingual Task-Oriented Dialogue (ToD) systems which facilitates systematic evaluations and comparisons between ToD systems using fine-tuning of Pretrained Language Models (PLMs) and those utilising the zero-shot and in-context learning capabilities of Large Language Models (LLMs). In addition to automatic evaluation, this toolkit features (i) a secure, user-friendly web interface for fine-grained human evaluation at both local utterance level and global dialogue level, and (ii) a microservice-based backend, improving efficiency and scalability. Our evaluations reveal that while PLM fine-tuning leads to higher accuracy and coherence, LLM-based systems excel in producing diverse and likeable responses. However, we also identify significant challenges of LLMs in adherence to task-specific instructions and generating outputs in multiple languages, highlighting areas for future research. We hope this open-sourced toolkit will serve as a valuable resource for researchers aiming to develop and properly evaluate multilingual ToD systems and will lower, currently still high, entry barriers in the field.

 

추상화:사전 훈련된 언어 모델(PLM)의 미세 조정을 사용하여 ToD 시스템과 대형 언어 모델(LLM)의 제로샷 및 컨텍스트 내 학습 기능을 사용하는 ToD 시스템 간의 체계적인 평가 및 비교를 용이하게 하는 다국어 작업 지향 대화(ToD) 시스템 개발 및 평가를 위한 툴킷인 DIALIGHT를 제시한다. 이 툴킷은 자동 평가 외에도 (i) 로컬 발화 수준과 글로벌 대화 수준 모두에서 세분화된 인간 평가를 위한 안전하고 사용자 친화적인 웹 인터페이스와 (ii) 마이크로 서비스 기반 백엔드를 특징으로 하여 효율성과 확장성을 향상시킨다. 우리의 평가는 PLM 미세 조정이 더 높은 정확도와 일관성으로 이어지는 반면, LLM 기반 시스템은 다양하고 호감도 있는 응답을 생성하는 데 탁월하다는 것을 보여준다. 그러나 우리는 또한 작업별 지침을 준수하고 여러 언어로 출력을 생성하는 데 있어 LLM의 중요한 과제를 식별하여 향후 연구 분야를 강조한다. 우리는 이 오픈 소스 툴킷이 다국어 ToD 시스템을 개발하고 적절하게 평가하는 것을 목표로 하는 연구자들에게 귀중한 자원이 되기를 바라며, 현재 여전히 높은 분야의 진입 장벽을 낮출 것이다. 

 

 

Joint Multi-Facts Reasoning Network For Complex Temporal Question Answering Over Knowledge Graph

 

Abstract:Temporal Knowledge Graph (TKG) is an extension of regular knowledge graph by attaching the time scope. Existing temporal knowledge graph question answering (TKGQA) models solely approach simple questions, owing to the prior assumption that each question only contains a single temporal fact with explicit/implicit temporal constraints. Hence, they perform poorly on questions which own multiple temporal facts. In this paper, we propose \textbf{\underline{J}}oint \textbf{\underline{M}}ulti \textbf{\underline{F}}acts \textbf{\underline{R}}easoning \textbf{\underline{N}}etwork (JMFRN), to jointly reasoning multiple temporal facts for accurately answering \emph{complex} temporal questions. Specifically, JMFRN first retrieves question-related temporal facts from TKG for each entity of the given complex question. For joint reasoning, we design two different attention (\ie entity-aware and time-aware) modules, which are suitable for universal settings, to aggregate entities and timestamps information of retrieved facts. Moreover, to filter incorrect type answers, we introduce an additional answer type discrimination task. Extensive experiments demonstrate our proposed method significantly outperforms the state-of-art on the well-known complex temporal question benchmark TimeQuestions.

 

추상화:TKG(Temporal Knowledge Graph)는 시간 범위를 붙여 정규 지식 그래프를 확장한 것이다. 기존의 시간 지식 그래프 질문 답변(TKGQA) 모델은 각 질문이 명시적/묵시적 시간 제약을 갖는 단일 시간적 사실만을 포함한다는 이전의 가정으로 인해 단순한 질문에만 접근한다. 따라서, 그들은 여러 시간적 사실을 가지고 있는 질문에 대해 잘 수행하지 못한다. 본 논문에서는 \textbf{\underline}을 제안한다J}점 \textbf{\underline}M}ulti \textbf{\underline}F}: 동작 \textbf{\underline}R}) \textbf{\underline{N}: 네트워크(JMFRN), \emph{complex} 시간적 질문에 정확하게 답하기 위해 여러 시간적 사실을 공동으로 추론한다. 구체적으로, JMFRN은 먼저 주어진 복합 질문의 각 개체에 대해 TKG로부터 질문 관련 시간적 사실을 검색한다. 공동 추론을 위해 범용 설정에 적합한 두 가지 다른 주의(\즉, 엔티티 인식 및 시간 인식) 모듈을 설계하여 검색된 사실의 정보를 집계하고 타임스탬프를 지정한다. 또한 오답형 정답을 필터링하기 위해 정답형 판별 과제를 추가로 도입한다. 광범위한 실험은 우리가 제안한 방법이 잘 알려진 복잡한 시간 질문 벤치마크인 Time Questions에서 최첨단 방법을 크게 능가한다는 것을 보여준다. 

 

 

반응형

댓글