본문 바로가기
오늘의 자연어 처리

[2022-09-01] 오늘의 자연어처리

by 지환이아빠 2022. 9. 1.
반응형

A Spanish dataset for Targeted Sentiment Analysis of political headlines

 

Subjective texts have been studied by several works as they can induce certain behaviours in their users. Most work focuses on user-generated texts in social networks, but some other texts also comprise opinions on certain topics and could influence judgement criteria during political decisions. In this work, we address the task of Targeted Sentiment Analysis for the domain of news headlines, published by the main outlets during the 2019 Argentinean Presidential Elections. For this purpose, we present a polarity dataset of 1,976 headlines mentioning candidates in the 2019 elections at the target level. Preliminary experiments with state-of-the-art classification algorithms based on pre-trained linguistic models suggest that target information is helpful for this task. We make our data and pre-trained models publicly available.

 

주관적인 텍스트는 유도할 수 있기 때문에 여러 작품에 의해 연구되어 왔다. 사용자의 특정 행동 대부분의 작업은 사용자 생성 텍스트에 초점을 맞춥니다. 소셜 네트워크, 그러나 몇몇 다른 텍스트들은 또한 특정한 주제에 대한 의견들을 포함한다. 정치적 결정 중 판단 기준에 영향을 미칠 수 있다. 이 점에서. 일, 우리는 뉴스 영역에 대한 목표 감정 분석 과제를 다룬다. 2019년 아르헨티나어 기간 동안 주요 언론사가 발행한 헤드라인. 대통령 선거. 이를 위해, 우리는 극성 데이터 세트를 제시한다. 1,976개 헤드라인에서 2019년 선거 후보 언급 level. 최첨단 분류 알고리즘을 사용한 예비 실험 사전 훈련된 언어 모델을 기반으로 대상 정보가 이 작업에 도움이 됩니다. 데이터 및 사전 훈련된 모델을 공개적으로 제작합니다. 이용할 수 있는. 

 

 

A Spanish dataset for Targeted Sentiment Analysis of political headlines

 

Subjective texts have been studied by several works as they can induce certain behaviours in their users. Most work focuses on user-generated texts in social networks, but some other texts also comprise opinions on certain topics and could influence judgement criteria during political decisions. In this work, we address the task of Targeted Sentiment Analysis for the domain of news headlines, published by the main outlets during the 2019 Argentinean Presidential Elections. For this purpose, we present a polarity dataset of 1,976 headlines mentioning candidates in the 2019 elections at the target level. Preliminary experiments with state-of-the-art classification algorithms based on pre-trained linguistic models suggest that target information is helpful for this task. We make our data and pre-trained models publicly available.

 

주관적인 텍스트는 유도할 수 있기 때문에 여러 작품에 의해 연구되어 왔다. 사용자의 특정 행동 대부분의 작업은 사용자 생성 텍스트에 초점을 맞춥니다. 소셜 네트워크, 그러나 몇몇 다른 텍스트들은 또한 특정한 주제에 대한 의견들을 포함한다. 정치적 결정 중 판단 기준에 영향을 미칠 수 있다. 이 점에서. 일, 우리는 뉴스 영역에 대한 목표 감정 분석 과제를 다룬다. 2019년 아르헨티나어 기간 동안 주요 언론사가 발행한 헤드라인. 대통령 선거. 이를 위해, 우리는 극성 데이터 세트를 제시한다. 1,976개 헤드라인에서 2019년 선거 후보 언급 level. 최첨단 분류 알고리즘을 사용한 예비 실험 사전 훈련된 언어 모델을 기반으로 대상 정보가 이 작업에 도움이 됩니다. 데이터 및 사전 훈련된 모델을 공개적으로 제작합니다. 이용할 수 있는. 

 

 

Efficient and Interpretable Neural Models for Entity Tracking

 

What would it take for a natural language model to understand a novel, such as The Lord of the Rings? Among other things, such a model must be able to: (a) identify and record new characters (entities) and their attributes as they are introduced in the text, and (b) identify subsequent references to the characters previously introduced and update their attributes. This problem of entity tracking is essential for language understanding, and thus, useful for a wide array of downstream applications in NLP such as question-answering, summarization. In this thesis, we focus on two key problems in relation to facilitating the use of entity tracking models: (i) scaling entity tracking models to long documents, such as a novel, and (ii) integrating entity tracking into language models. Applying language technologies to long documents has garnered interest recently, but computational constraints are a significant bottleneck in scaling up current methods. In this thesis, we argue that computationally efficient entity tracking models can be developed by representing entities with rich, fixed-dimensional vector representations derived from pretrained language models, and by exploiting the ephemeral nature of entities. We also argue for the integration of entity tracking into language models as it will allow for: (i) wider application given the current ubiquitous use of pretrained language models in NLP applications, and (ii) easier adoption since it is much easier to swap in a new pretrained language model than to integrate a separate standalone entity tracking model.

 

자연어 모델이 소설을 이해하기 위해서는 무엇이 필요할까? 반지의 제왕으로서? 무엇보다도, 그러한 모델은 다음을 할 수 있어야 한다: (a) 새로운 문자(어떤 문자)와 그 속성을 있는 그대로 식별하고 기록한다. 본문에 소개되고, (b) 다음에 대한 참조를 식별한다. 이전에 소개된 문자를 사용하여 속성을 업데이트합니다. 이 문제는 엔티티 추적은 언어 이해에 필수적이며, 따라서, a에 유용하다. 질의응답과 같은 NLP의 광범위한 다운스트림 애플리케이션 요약 이 논문에서, 우리는 촉진과 관련하여 두 가지 핵심 문제에 초점을 맞춘다. 엔티티 추적 모델 사용: (i) 엔티티 추적 모델을 길이로 확장 소설과 같은 문서 및 (ii) 엔티티 추적을 언어로 통합합니다. 모델. 긴 문서에 언어 기술을 적용하는 것은 관심을 끌었다. 최근, 그러나 컴퓨팅 제약은 확장에 있어 중요한 병목 현상입니다. 최신의 방법 이 논문에서, 우리는 계산적으로 효율적이라고 주장한다. 실체 추적 모델은 풍부한 실체를 표현함으로써 개발될 수 있다. 사전 훈련된 언어에서 파생된 고정 차원 벡터 표현 모델 및 엔티티의 일시적 특성을 활용합니다. 우리는 또한 을 주장한다. 엔티티 추적을 언어 모델에 통합하면 다음과 같은 이점이 있습니다. (i) 사전 훈련된 언어의 현재 유비쿼터스 사용을 고려할 때 더 광범위한 적용. NLP 애플리케이션의 모델, 그리고 (ii) 훨씬 더 쉬우므로 채택이 더 쉽다. 별도의 독립 실행형 통합보다 사전 훈련된 새로운 언어 모델을 스왑합니다. 엔티티 추적 모델. 

 

 

반응형

댓글