본문 바로가기
오늘의 자연어 처리

[2023-02-18] 오늘의 자연어처리

by 지환이아빠 2023. 2. 18.
반응형

A Survey on Event-based News Narrative Extraction

 

Narratives are fundamental to our understanding of the world, providing us with a natural structure for knowledge representation over time. Computational narrative extraction is a subfield of artificial intelligence that makes heavy use of information retrieval and natural language processing techniques. Despite the importance of computational narrative extraction, relatively little scholarly work exists on synthesizing previous research and strategizing future research in the area. In particular, this article focuses on extracting news narratives from an event-centric perspective. Extracting narratives from news data has multiple applications in understanding the evolving information landscape. This survey presents an extensive study of research in the area of event-based news narrative extraction. In particular, we screened over 900 articles that yielded 54 relevant articles. These articles are synthesized and organized by representation model, extraction criteria, and evaluation approaches. Based on the reviewed studies, we identify recent trends, open challenges, and potential research lines.

 

서사는 우리에게 제공하는 세계에 대한 우리의 이해의 기본이다 시간이 지남에 따라 지식 표현을 위한 자연스러운 구조를 가지고 있습니다. 계산적 이야기 추출은 무겁게 만드는 인공지능의 하위 분야이다 정보 검색 및 자연어 처리 기술의 사용. 컴퓨터 서사 추출의 중요성에도 불구하고, 상대적으로 적다 학술적인 연구는 이전의 연구를 종합하고 미래를 전략화하는 것에 존재한다 그 방면의 연구. 특히 이 기사는 뉴스 추출에 초점을 맞추고 있다 사건 중심의 관점에서 서술하는 것. 뉴스에서 내러티브 추출 데이터는 진화하는 정보를 이해하는 데 있어 여러 응용 프로그램을 가지고 있다 풍경. 이 조사는 다음 분야의 광범위한 연구를 제시한다 이벤트 기반 뉴스 내러티브 추출. 특히 우리는 900개가 넘는 영화를 상영했다 54개의 관련 기사를 산출한 기사. 이 기사들은 합성되어 있다 표현 모델, 추출 기준 및 평가별로 구성됩니다 접근. 검토된 연구를 바탕으로 최근 동향을 파악하고 개방한다 과제 및 잠재적인 연구 라인. 

 

 

Aligning Language Models with Preferences through f-divergence Minimization

 

Aligning language models with preferences can be posed as approximating a target distribution representing some desired behavior. Existing approaches differ both in the functional form of the target distribution and the algorithm used to approximate it. For instance, Reinforcement Learning from Human Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target distribution arising from a KL penalty in the objective. On the other hand, Generative Distributional Control (GDC) has an explicit target distribution and minimizes a forward KL from it using the Distributional Policy Gradient (DPG) algorithm. In this paper, we propose a new approach, f-DPG, which allows the use of any f-divergence to approximate any target distribution. f-DPG unifies both frameworks (RLHF, GDC) and the approximation methods (DPG, RL with KL penalties). We show the practical benefits of various choices of divergence objectives and demonstrate that there is no universally optimal objective but that different divergences are good for approximating different targets. For instance, we discover that for GDC, the Jensen-Shannon divergence frequently outperforms forward KL divergence by a wide margin, leading to significant improvements over prior work.

 

언어 모델을 기본 설정과 정렬하는 것은 대략 a 원하는 동작을 나타내는 대상 분포입니다. 기존 접근 방식 목표 분포와 알고리즘의 기능적 형태 모두에서 다르다 그것을 근사화하는 데 사용되었다. 예를 들어, 인간으로부터 배우는 강화 피드백(RLHF)은 암시적 대상에서 역 KL을 최소화하는 것에 해당한다 목표의 KL 페널티에서 발생하는 분포. 반면에, GDC(Generative Distribution Control)는 명시적인 목표 분포를 가지고 있으며 분산 정책 그라데이션(DPG)을 사용하여 포워드 KL을 최소화합니다 알고리즘. 본 논문에서, 우리는 다음을 가능하게 하는 새로운 접근법인 f-DPG를 제안한다 모든 목표 분포를 근사하기 위해 f-divergence의 사용. f-DPG는 통합된다 두 프레임워크(RLHF, GDC)와 근사 방법(DPG, RL with KL) 위약금). 우리는 다양한 발산 선택의 실질적인 이점을 보여준다 목표를 제시하고 보편적으로 최적의 목표가 없다는 것을 증명한다 서로 다른 분기가 서로 다른 목표를 근사화하는 데 도움이 된다는 것입니다. 위해서 예를 들어, 우리는 GDC의 경우 옌센-샤논 분기가 자주 발생한다는 것을 발견했다 전방 KL 발산을 큰 폭으로 능가하여 상당한 결과를 초래한다 이전 작업에 비해 개선된 사항. 

 

 

Evaluating and Improving the Coreference Capabilities of Machine Translation Models

 

Machine translation (MT) requires a wide range of linguistic capabilities, which current end-to-end models are expected to learn implicitly by observing aligned sentences in bilingual corpora. In this work, we ask: \emph{How well do MT models learn coreference resolution from implicit signal?} To answer this question, we develop an evaluation methodology that derives coreference clusters from MT output and evaluates them without requiring annotations in the target language. We further evaluate several prominent open-source and commercial MT systems, translating from English to six target languages, and compare them to state-of-the-art coreference resolvers on three challenging benchmarks. Our results show that the monolingual resolvers greatly outperform MT models. Motivated by this result, we experiment with different methods for incorporating the output of coreference resolution models in MT, showing improvement over strong baselines.

 

기계 번역(MT)은 광범위한 언어 기능을 필요로 한다, 관찰을 통해 암묵적으로 학습할 것으로 예상되는 현재의 종단 간 모델 이중 언어 말뭉치로 정렬된 문장들. 이 작업에서 우리는 다음과 같이 묻는다: \emph{얼마나 잘하나요 MT 모델은 암시적 신호로부터 상호 참조 해상도를 학습합니까?} 이에 답하려면 질문, 우리는 상관관계를 도출하는 평가 방법론을 개발한다 MT 출력에서 클러스터를 생성하고 에 주석을 필요로 하지 않고 평가합니다 대상 언어. 우리는 몇 가지 유명한 오픈 소스를 추가로 평가한다 상용 MT 시스템, 영어에서 6개의 대상 언어로 번역, 그리고 그들을 세 가지 도전에 대한 최첨단 상호 참조 해결사와 비교한다 벤치마크. 우리의 결과는 단일 언어 해결사의 성능이 크게 뛰어나다는 것을 보여준다 MT 모델. 이 결과에 의해, 우리는 다른 방법들을 실험한다 MT에 상호 참조 해상도 모델의 출력을 통합하여 보여줍니다 강력한 기준선에 대한 개선. 

 

 

반응형

댓글