본문 바로가기
오늘의 자연어 처리

[2022-10-05] 오늘의 자연어처리

by 지환이아빠 2022. 10. 5.
반응형

ReAct: A Review Comment Dataset for Actionability (and more)

 

Review comments play an important role in the evolution of documents. For a large document, the number of review comments may become large, making it difficult for the authors to quickly grasp what the comments are about. It is important to identify the nature of the comments to identify which comments require some action on the part of document authors, along with identifying the types of these comments. In this paper, we introduce an annotated review comment dataset ReAct. The review comments are sourced from OpenReview site. We crowd-source annotations for these reviews for actionability and type of comments. We analyze the properties of the dataset and validate the quality of annotations. We release the dataset (this https URL) to the research community as a major contribution. We also benchmark our data with standard baselines for classification tasks and analyze their performance.

 

검토 코멘트는 문서의 발전에 중요한 역할을 합니다. 1인분 대형 문서, 리뷰 코멘트의 수가 많아질 수 있습니다. 저자들이 논평이 무엇에 관한 것인지 빨리 이해하기는 어렵다. 그렇다. 어떤 코멘트를 식별하기 위해 코멘트의 성격을 식별하는 것이 중요하다. 문서 작성자 측과 식별을 위한 약간의 조치가 필요하다. 이러한 주석 유형. 본 논문에서, 우리는 주석이 달린 리뷰를 소개한다. 주석 데이터 집합 ReAct. 검토 코멘트는 OpenReview 사이트에서 제공됩니다. 우리가 실행 가능성 및 유형에 대한 이러한 검토에 대한 크라우드 소스 주석 평. 데이터 세트의 속성을 분석하고 품질을 검증합니다. 주석 데이터 세트(이 https URL)를 다음 주소로 릴리스합니다. 연구 공동체를 주요 공헌으로 삼다. 또한 NAT은 다음과 같이 데이터를 벤치마킹합니다. 분류 작업을 위한 표준 기준선과 그 성능을 분석합니다. 

 

 

SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis

 

We propose MINT, a new Multilingual INTimacy analysis dataset covering 13,384 tweets in 10 languages including English, French, Spanish, Italian, Portuguese, Korean, Dutch, Chinese, Hindi, and Arabic. We benchmarked a list of popular multilingual pre-trained language models. The dataset is released along with the SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis (this https URL).

 

우리는 13,384개를 다루는 새로운 다국어 인티마시 분석 데이터 세트인 MINT를 제안한다. 영어, 프랑스어, 스페인어, 이탈리아어, 포르투갈어를 포함한 10개 언어로 된 트윗. 한국어, 네덜란드어, 중국어, 힌디어, 아랍어. 우리는 인기 있는 목록을 벤치마킹했다. 다국어 사전 교육 언어 모델 데이터 집합은 다음과 같이 릴리스됩니다. SemEval 2023 과제 9: 다국어 트윗 친밀도 분석 (이 https URL). 

 

 

The boundaries of meaning: a case study in neural machine translation

 

The success of deep learning in natural language processing raises intriguing questions about the nature of linguistic meaning and ways in which it can be processed by natural and artificial systems. One such question has to do with subword segmentation algorithms widely employed in language modeling, machine translation, and other tasks since 2016. These algorithms often cut words into semantically opaque pieces, such as 'period', 'on', 't', and 'ist' in 'period|on|t|ist'. The system then represents the resulting segments in a dense vector space, which is expected to model grammatical relations among them. This representation may in turn be used to map 'period|on|t|ist' (English) to 'par|od|ont|iste' (French). Thus, instead of being modeled at the lexical level, translation is reformulated more generally as the task of learning the best bilingual mapping between the sequences of subword segments of two languages; and sometimes even between pure character sequences: 'p|e|r|i|o|d|o|n|t|i|s|t' $\rightarrow$ 'p|a|r|o|d|o|n|t|i|s|t|e'. Such subword segmentations and alignments are at work in highly efficient end-to-end machine translation systems, despite their allegedly opaque nature. The computational value of such processes is unquestionable. But do they have any linguistic or philosophical plausibility? I attempt to cast light on this question by reviewing the relevant details of the subword segmentation algorithms and by relating them to important philosophical and linguistic debates, in the spirit of making artificial intelligence more transparent and explainable.

 

자연어 처리에서 딥 러닝의 성공은 호기심을 불러일으킨다. 언어적 의미의 본질과 그것이 될 수 있는 방법에 대한 질문들 자연 및 인공 시스템에 의해 처리됩니다. 그러한 질문 중 하나는 와 관련이 있다. 언어 모델링에 널리 사용되는 하위 단어 분할 알고리즘, 기계 번역, 그리고 2016년 이후 다른 일들. 이 알고리즘들은 종종 단어들을 잘라낸다. 의 '기간', 'on', 't', 'ist'와 같은 의미론적으로 불투명한 조각들 '''기간. 그런 다음 시스템은 결과 세그먼트를 조밀하게 나타냅니다. 그들 사이의 문법적 관계를 모델링할 것으로 기대되는 벡터 공간. 이것. 표현은 차례로 'period|on|t|ist'(영어)를 매핑하는 데 사용될 수 있다. 'par|od|ont|iste'(프랑스어). 따라서 어휘를 모델링하는 대신 레벨, 번역은 학습의 과업으로서 보다 일반적으로 재구성된다. 두 개의 하위 단어 부분 순서 사이의 최고의 이중 언어 매핑 언어, 때로는 순수한 문자 시퀀스 사이에서도 마찬가지입니다. 'p|e|r|i|o|d|n|t|i|s|t' $\rightarrow$ 'p|a|r|o|d|n|i|s|t|e'. 그런 하위 단어 매우 효율적인 엔드 투 엔드 머신에서 세분화 및 정렬이 작동함 불투명한 성질에도 불구하고 번역 시스템 계산적 그러한 과정의 가치는 의심의 여지가 없다. 하지만 그들은 언어학이나 철학적 타당성? ...에 의해 이 문제를 밝히려고 한다. 하위 단어 세분화 알고리즘의 관련 세부 사항 검토 및 기준 정신적으로 그들을 중요한 철학적 및 언어적 논쟁과 연관시킨다. 인공지능을 더 투명하고 설명할 수 있게 만드는 것. 

 

 

반응형

댓글