[2023-05-11] 오늘의 자연어처리

by 지환이아빠 2023. 5. 11.

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset


Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.


웹 페이지는 언어 및 비전 언어 작업을 위한 풍부한 리소스입니다. 그러나 웹 페이지는 이미지 캡션 쌍, 긴 텍스트 기사, 또는 원시 HTML, 모두 한 곳에 있는 것은 아닙니다. 결과적으로 웹 페이지 작업이 수신되었습니다 주의가 거의 없고 구조화된 이미지 텍스트 데이터가 충분히 사용되지 않습니다. 멀티모달을 공부하려면 웹 페이지 이해, 위키백과 웹 페이지 2M(위키웹2M) 제품군을 소개합니다; 사용 가능한 전체 이미지, 텍스트 및 구조 데이터 세트를 보유한 최초의 기업 한 페이지에. WikiWeb2M은 페이지 설명 생성과 같은 작업에 사용될 수 있습니다, 섹션 요약 및 상황별 이미지 캡션. 



ArgU: A Controllable Factual Argument Generator


Effective argumentation is essential towards a purposeful conversation with a satisfactory outcome. For example, persuading someone to reconsider smoking might involve empathetic, well founded arguments based on facts and expert opinions about its ill-effects and the consequences on one's family. However, the automatic generation of high-quality factual arguments can be challenging. Addressing existing controllability issues can make the recent advances in computational models for argument generation a potential solution. In this paper, we introduce ArgU: a neural argument generator capable of producing factual arguments from input facts and real-world concepts that can be explicitly controlled for stance and argument structure using Walton's argument scheme-based control codes. Unfortunately, computational argument generation is a relatively new field and lacks datasets conducive to training. Hence, we have compiled and released an annotated corpora of 69,428 arguments spanning six topics and six argument schemes, making it the largest publicly available corpus for identifying argument schemes; the paper details our annotation and dataset creation framework. We further experiment with an argument generation strategy that establishes an inference strategy by generating an ``argument template'' before actual argument generation. Our results demonstrate that it is possible to automatically generate diverse arguments exhibiting different inference patterns for the same set of facts by using control codes based on argument schemes and stance.


효과적인 논쟁은 목적있는 대화를 위해 필수적이다 만족할 만한 결과. 예를 들어, 누군가가 흡연을 재고하도록 설득하는 것 사실과 전문가에 기초한 공감적이고 근거 있는 주장을 포함할 수 있다 그것이 가족에게 미치는 악영향과 결과에 대한 의견. 하지만, 고품질 사실 주장의 자동 생성은 어려울 수 있다. 기존의 제어 가능성 문제를 해결하는 것이 최근의 발전을 가져올 수 있다 인수 생성을 위한 계산 모델 잠재적 해결책. 이 점에서. 논문에서, 우리는 ArgU를 소개한다: 생산할 수 있는 신경 인수 생성기 입력 사실과 실제 개념에서 나온 사실적 주장은 다음과 같다 월튼의 주장을 사용하여 입장과 주장 구조에 대해 명시적으로 통제되었다 체계 기반 제어 코드. 불행하게도, 계산 인수 생성은 상대적으로 새로운 분야이며 훈련에 도움이 되는 데이터 세트가 부족하다. 그러므로, 우리는 6개에 걸친 69,428개의 인수의 주석이 달린 말뭉치를 컴파일하고 공개했다 공개적으로 이용 가능한 가장 큰 주제와 6가지 주장 체계 주장 체계를 식별하기 위한 말뭉치; 논문은 우리의 주석과 데이터 세트 생성 프레임워크. 우리는 추가로 인수 생성을 실험한다 '''전략'''을 생성하여 추론 전략을 수립하는 전략 실제 인수 생성 전에 '템플릿'이(가) 있습니다. 우리의 결과는 그것이 서로 다른 것을 나타내는 다양한 인수를 자동으로 생성할 수 있다 다음을 기반으로 한 제어 코드를 사용하여 동일한 사실 집합에 대한 추론 패턴 논쟁 계획과 입장. 



Beyond Good Intentions: Reporting the Research Landscape of NLP for Social Good


With the recent advances in natural language processing (NLP), a vast number of applications have emerged across various use cases. Among the plethora of NLP applications, many academic researchers are motivated to do work that has a positive social impact, in line with the recent initiatives of NLP for Social Good (NLP4SG). However, it is not always obvious to researchers how their research efforts are tackling today's big social problems. Thus, in this paper, we introduce NLP4SGPAPERS, a scientific dataset with three associated tasks that can help identify NLP4SG papers and characterize the NLP4SG landscape by: (1) identifying the papers that address a social problem, (2) mapping them to the corresponding UN Sustainable Development Goals (SDGs), and (3) identifying the task they are solving and the methods they are using. Using state-of-the-art NLP models, we address each of these tasks and use them on the entire ACL Anthology, resulting in a visualization workspace that gives researchers a comprehensive overview of the field of NLP4SG. Our website is available at https://nlp4sg.vercel.app . We released our data at this https URL and code at this https URL .


최근 자연어 처리(NLP)의 발전과 함께, 많은 수가 다양한 사용 사례에 걸쳐 응용 프로그램이 등장했습니다. 다수의 NLP 애플리케이션, 많은 학술 연구자들은 동기 부여를 받아 다음과 같은 작업을 한다 사회를 위한 NLP의 최근 이니셔티브에 따른 긍정적인 사회적 영향 양호(NLP4SG). 그러나, 연구자들에게 그들의 방식이 항상 명백한 것은 아니다 연구 노력은 오늘날의 큰 사회적 문제들을 다루고 있다. 따라서, 이 논문에서, 우리는 세 가지 관련 작업이 있는 과학 데이터 세트인 NLP4SGPAPER를 소개한다 NLP4SG 문서를 식별하고 다음과 같은 방법으로 NLP4SG 환경을 특성화할 수 있습니다: (1) 사회 문제를 다루는 논문을 식별하고, (2) 그것들을 매핑한다 해당하는 유엔 지속가능개발목표(SDGs) 및 (3) 식별 그들이 해결하고 있는 과제와 그들이 사용하는 방법. 사용. 최첨단 NLP 모델, 우리는 이러한 각각의 작업을 다루고 그것들을 사용한다 전체 ACL Anthology를 통해 시각화 작업 공간을 제공합니다 연구자들은 NLP4SG 분야에 대한 포괄적인 개요를 제공한다. 저희 웹사이트는 https://nlp4sg.vercel.app에서 사용할 수 있습니다. 우리는 데이터를 다음 위치에 공개했습니다 이 https URL 및 코드 이 https URL. 



