본문 바로가기
오늘의 자연어 처리

[2022-10-20] 오늘의 자연어처리

by 지환이아빠 2022. 10. 20.
반응형

EventGraph at CASE 2021 Task 1: A General Graph-based Approach to Protest Event Extraction

 

This paper presents our submission to the 2022 edition of the CASE 2021 shared task 1, subtask 4. The EventGraph system adapts an end-to-end, graph-based semantic parser to the task of Protest Event Extraction and more specifically subtask 4 on event trigger and argument extraction. We experiment with various graphs, encoding the events as either "labeled-edge" or "node-centric" graphs. We show that the "node-centric" approach yields best results overall, performing well across the three languages of the task, namely English, Spanish, and Portuguese. EventGraph is ranked 3rd for English and Portuguese, and 4th for Spanish. Our code is available at: this https URL

 

이 논문은 CASE 2021의 2022년 판에 대한 제출물을 제시한다. 공유 작업 1, 하위 작업 4. 이벤트 그래프 시스템은 엔드 투 엔드로 적응합니다. 시위 이벤트 추출 및 기타 작업에 대한 그래프 기반 의미 분석기 특히 이벤트 트리거 및 인수 추출에 대한 하위 작업 4. 우리는 실험한다. 다양한 그래프를 사용하여 이벤트를 "라벨링된 에지"로 인코딩하거나 "노드 중심" 그래프. 우리는 "노드 중심" 접근 방식이 최고의 결과를 낳는다는 것을 보여준다. 전반적인 결과, 작업의 세 가지 언어에서 잘 수행, 즉 영어, 스페인어, 포르투갈어. EventGraph는 영어에서 3위를 차지했고 포르투갈어, 스페인어는 4위입니다. 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL 

 

 

Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task

 

In this report, we present our submission to the WMT 2022 Metrics Shared Task. We build our system based on the core idea of UNITE (Unified Translation Evaluation), which unifies source-only, reference-only, and source-reference-combined evaluation scenarios into one single model. Specifically, during the model pre-training phase, we first apply the pseudo-labeled data examples to continuously pre-train UNITE. Notably, to reduce the gap between pre-training and fine-tuning, we use data cropping and a ranking-based score normalization strategy. During the fine-tuning phase, we use both Direct Assessment (DA) and Multidimensional Quality Metrics (MQM) data from past years' WMT competitions. Specially, we collect the results from models with different pre-trained language model backbones, and use different ensembling strategies for involved translation directions.

 

이 보고서에서, 우리는 WMT 2022 Metrics Shared에 대한 제출물을 제시한다. 과제. UNITE(통합번역)의 핵심 아이디어를 바탕으로 시스템을 구축합니다. 평가), 소스 전용, 참조 전용 및 소스-참조-매개 평가 시나리오를 하나의 단일 모델로 만듭니다. 특히, 모델 사전 교육 단계에서, 우리는 먼저 UNITE를 지속적으로 사전 교육하기 위한 유사 레이블링 데이터 예제. 특히, 사전 훈련과 미세 조정 사이의 격차를 줄이고, 데이터 크롭과 순위 기반 점수 정규화 전략. 미세 조정 단계에서 우리는 직접 평가(DA) 및 다차원 품질 메트릭(MQM) 데이터 모두 사용 지난 몇 년간의 WMT 대회로부터. 특히, 우리는 결과를 수집한다. 서로 다른 사전 훈련된 언어 모델 백본이 있는 모델 및 서로 다른 모델 관련된 번역 방향에 대한 전략을 결합합니다. 

 

 

SafeText: A Benchmark for Exploring Physical Safety in Language Models

 

Understanding what constitutes safe text is an important issue in natural language processing and can often prevent the deployment of models deemed harmful and unsafe. One such type of safety that has been scarcely studied is commonsense physical safety, i.e. text that is not explicitly violent and requires additional commonsense knowledge to comprehend that it leads to physical harm. We create the first benchmark dataset, SafeText, comprising real-life scenarios with paired safe and physically unsafe pieces of advice. We utilize SafeText to empirically study commonsense physical safety across various models designed for text generation and commonsense reasoning tasks. We find that state-of-the-art large language models are susceptible to the generation of unsafe text and have difficulty rejecting unsafe advice. As a result, we argue for further studies of safety and the assessment of commonsense physical safety in models before release.

 

안전한 텍스트를 구성하는 것이 무엇인지 이해하는 것은 자연에서 중요한 문제이다. 언어 처리 및 종종 간주되는 모델의 배포를 방지할 수 있습니다. 해롭고 안전하지 않은 거의 연구되지 않은 그러한 유형의 안전은 다음과 같다. 상식적인 물리적 안전, 즉 명시적으로 폭력적이지 않은 텍스트 및 그것을 이해하려면 추가적인 상식적 지식이 필요하다. 육체적 해 우리는 다음과 같이 구성된 첫 번째 벤치마크 데이터 세트인 SafeText를 만듭니다. 안전하고 물리적으로 안전하지 않은 조언이 결합된 실제 시나리오 우리가 SafeText를 활용하여 전반적인 상식적인 물리적 안전을 경험적으로 연구합니다. 텍스트 생성 및 상식 추론 작업을 위해 설계된 다양한 모델. 우리가 최첨단 대형 언어 모델이 다음과 같은 영향을 받기 쉽다는 것을 발견하다 안전하지 않은 텍스트의 생성 및 안전하지 않은 조언을 거부하는 데 어려움을 겪습니다. 로서 그 결과, 우리는 안전과 평가에 대한 추가 연구를 주장한다. 출시 전 모델의 물리적 안전 상식. 

 

 

반응형

댓글