본문 바로가기
오늘의 자연어 처리

[2023-11-04] 오늘의 자연어처리

by 지환이아빠 2023. 11. 4.
반응형

People Make Better Edits: Measuring the Efficacy of LLM-Generated Counterfactually Augmented Data for Harmful Language Detection

 

Abstract:NLP models are used in a variety of critical social computing tasks, such as detecting sexist, racist, or otherwise hateful content. Therefore, it is imperative that these models are robust to spurious features. Past work has attempted to tackle such spurious features using training data augmentation, including Counterfactually Augmented Data (CADs). CADs introduce minimal changes to existing training data points and flip their labels; training on them may reduce model dependency on spurious features. However, manually generating CADs can be time-consuming and expensive. Hence in this work, we assess if this task can be automated using generative NLP models. We automatically generate CADs using Polyjuice, ChatGPT, and Flan-T5, and evaluate their usefulness in improving model robustness compared to manually-generated CADs. By testing both model performance on multiple out-of-domain test sets and individual data point efficacy, our results show that while manual CADs are still the most effective, CADs generated by ChatGPT come a close second. One key reason for the lower performance of automated methods is that the changes they introduce are often insufficient to flip the original label.

 

초록:NLP 모델은 성차별적, 인종차별적 또는 다른 방식으로 혐오스러운 콘텐츠를 감지하는 것과 같은 다양한 중요한 소셜 컴퓨팅 작업에 사용된다. 따라서 이러한 모델은 가짜 기능에 강건해야 한다. 과거의 연구는 CAD(Counterfactual Augmented Data)를 포함한 훈련 데이터 증강을 사용하여 이러한 가짜 기능을 해결하려고 시도했다. CAD는 기존 훈련 데이터 포인트에 최소한의 변경을 도입하고 레이블을 뒤집는다. 이에 대한 훈련은 가짜 기능에 대한 모델 의존성을 줄일 수 있다. 그러나 수동으로 CAD를 생성하는 것은 시간이 많이 걸리고 비용이 많이 들 수 있다. 따라서 본 연구에서는 생성 NLP 모델을 사용하여 이 작업을 자동화할 수 있는지 평가한다. 우리는 Polyjuice, ChatGPT 및 Flan-T5를 사용하여 CAD를 자동으로 생성하고 수동으로 생성한 CAD에 비해 모델 견고성을 향상시키는 유용성을 평가한다. 여러 도메인 외부 테스트 세트에서 모델 성능과 개별 데이터 포인트 효율성을 모두 테스트함으로써 결과는 수동 CAD가 여전히 가장 효과적이지만, ChatGPT에 의해 생성된 CAD는 거의 1초 뒤에 온다. 자동화된 방법의 성능이 떨어지는 한 가지 중요한 이유는 그 방법들이 도입하는 변경사항들이 종종 원래의 라벨을 뒤집기에는 불충분하다는 것이다. 

 

 

Weakly Supervised Semantic Parsing with Execution-based Spurious Program Filtering

 

Abstract:The problem of spurious programs is a longstanding challenge when training a semantic parser from weak supervision. To eliminate such programs that have wrong semantics but correct denotation, existing methods focus on exploiting similarities between examples based on domain-specific knowledge. In this paper, we propose a domain-agnostic filtering mechanism based on program execution results. Specifically, for each program obtained through the search process, we first construct a representation that captures the program's semantics as execution results under various inputs. Then, we run a majority vote on these representations to identify and filter out programs with significantly different semantics from the other programs. In particular, our method is orthogonal to the program search process so that it can easily augment any of the existing weakly supervised semantic parsing frameworks. Empirical evaluations on the Natural Language Visual Reasoning and WikiTableQuestions demonstrate that applying our method to the existing semantic parsers induces significantly improved performances.

 

초록:취약한 감독으로부터 의미 파서를 훈련시킬 때 가짜 프로그램의 문제는 오랜 과제이다. 잘못된 의미론을 가지고 있지만 올바른 표현을 하는 그러한 프로그램을 제거하기 위해, 기존의 방법들은 도메인 특정 지식에 기초한 예들 간의 유사성을 활용하는 것에 초점을 맞춘다. 본 논문에서는 프로그램 실행 결과를 기반으로 도메인에 구애받지 않는 필터링 메커니즘을 제안한다. 구체적으로, 검색 과정을 통해 얻은 각 프로그램에 대해, 먼저 프로그램의 의미론을 다양한 입력 하에서 실행 결과로 캡처하는 표현을 구성한다. 그런 다음 이러한 표현에 대한 다수결을 실시하여 다른 프로그램과 의미론이 상당히 다른 프로그램을 식별하고 필터링한다. 특히, 우리의 방법은 프로그램 검색 프로세스와 직교하므로 기존의 약하게 감독된 의미 구문 분석 프레임워크를 쉽게 보강할 수 있다. 자연어 시각적 추론 및 WikiTable 질문에 대한 경험적 평가는 기존 의미 파서에 우리의 방법을 적용하면 성능이 크게 향상됨을 보여준다. 

 

 

ACES: Translation Accuracy Challenge Sets for Evaluating Machine Translation Metrics

 

Abstract:As machine translation (MT) metrics improve their correlation with human judgement every year, it is crucial to understand the limitations of such metrics at the segment level. Specifically, it is important to investigate metric behaviour when facing accuracy errors in MT because these can have dangerous consequences in certain contexts (e.g., legal, medical). We curate ACES, a translation accuracy challenge set, consisting of 68 phenomena ranging from simple perturbations at the word/character level to more complex errors based on discourse and real-world knowledge. We use ACES to evaluate a wide range of MT metrics including the submissions to the WMT 2022 metrics shared task and perform several analyses leading to general recommendations for metric developers. We recommend: a) combining metrics with different strengths, b) developing metrics that give more weight to the source and less to surface-level overlap with the reference and c) explicitly modelling additional language-specific information beyond what is available via multilingual embeddings.

 

초록:기계 번역(MT) 메트릭이 매년 인간 판단과의 상관 관계를 개선하기 때문에 세그먼트 수준에서 이러한 메트릭의 한계를 이해하는 것이 중요하다. 특히 MT에서 정확도 오류에 직면할 때 메트릭 동작을 조사하는 것이 중요한데, 이는 특정 맥락(예: 법률, 의료)에서 위험한 결과를 초래할 수 있기 때문이다. 우리는 단어/문자 수준의 단순한 섭동에서 담론과 실제 지식에 기반한 보다 복잡한 오류에 이르는 68개의 현상으로 구성된 번역 정확도 도전 세트인 ACES를 큐레이션한다. 우리는 ACES를 사용하여 WMT 2022 메트릭 공유 작업에 대한 제출을 포함한 광범위한 MT 메트릭을 평가하고 메트릭 개발자에 대한 일반적인 권장 사항으로 이어지는 여러 분석을 수행한다. 우리는 a) 서로 다른 강점을 가진 메트릭을 결합하고, b) 소스에 더 많은 가중치를 부여하고 참조와 표면 수준 중복을 줄이는 메트릭을 개발하고 c) 다국어 임베딩을 통해 사용할 수 있는 것 이상의 추가 언어별 정보를 명시적으로 모델링하는 것을 권장한다. 

 

 

반응형

댓글