본문 바로가기
오늘의 자연어 처리

[2023-04-06] 오늘의 자연어처리

by 지환이아빠 2023. 4. 6.
반응형

Is ChatGPT a Highly Fluent Grammatical Error Correction System? A Comprehensive Evaluation

 

ChatGPT, a large-scale language model based on the advanced GPT-3.5 architecture, has shown remarkable potential in various Natural Language Processing (NLP) tasks. However, there is currently a dearth of comprehensive study exploring its potential in the area of Grammatical Error Correction (GEC). To showcase its capabilities in GEC, we design zero-shot chain-of-thought (CoT) and few-shot CoT settings using in-context learning for ChatGPT. Our evaluation involves assessing ChatGPT's performance on five official test sets in three different languages, along with three document-level GEC test sets in English. Our experimental results and human evaluations demonstrate that ChatGPT has excellent error detection capabilities and can freely correct errors to make the corrected sentences very fluent, possibly due to its over-correction tendencies and not adhering to the principle of minimal edits. Additionally, its performance in non-English and low-resource settings highlights its potential in multilingual GEC tasks. However, further analysis of various types of errors at the document-level has shown that ChatGPT cannot effectively correct agreement, coreference, tense errors across sentences, and cross-sentence boundary errors.

 

고급 GPT-3.5 기반의 대규모 언어 모델인 ChatGPT 건축은 다양한 자연어에서 놀라운 잠재력을 보여주었다 처리(NLP) 태스크. 그러나, 현재 종합적인 것이 부족하다 문법적 오류 수정 분야에서 그 가능성을 탐구하는 연구 (GEC). GEC의 기능을 보여주기 위해 제로샷을 디자인합니다 맥락 내 학습을 사용하는 사상 체인(CoT) 및 퓨샷 CoT 설정 ChatGPT. 우리의 평가는 5번에 대한 ChatGPT의 성과를 평가하는 것을 포함한다 3개의 다른 언어로 된 공식적인 시험 세트들과 3개의 언어들 영어로 된 문서 수준 GEC 테스트 세트. 우리의 실험 결과와 인간은 평가를 통해 ChatGPT가 우수한 오류 감지 기능을 가지고 있음을 입증합니다 그리고 오류를 자유롭게 수정하여 수정된 문장을 매우 유창하게 만들 수 있다, 아마도 그것의 과도한 수정 경향과 그것을 고수하지 않기 때문일 것이다 최소 편집의 원칙. 추가적으로, 영어 이외의 언어에서의 그것의 성능과 낮은 리소스 설정은 다국어 GEC 작업에서 가능성을 강조합니다. 그러나 문서 수준에서 다양한 유형의 오류에 대한 추가 분석은 ChatGPT가 합의, 공동 참조, 시제를 효과적으로 수정할 수 없음을 보여준다 문장 전체의 오류 및 교차 경계 오류. 

 

 

An interpretability framework for Similar case matching

 

Similar Case Matching (SCM) is designed to determine whether two cases are similar. The task has an essential role in the legal system, helping legal professionals to find relevant cases quickly and thus deal with them more efficiently. Existing research has focused on improving the model's performance but not on its interpretability. Therefore, this paper proposes a pipeline framework for interpretable SCM, which consists of four modules: a judicial feature sentence identification module, a case matching module, a feature sentence alignment module, and a conflict disambiguation module. Unlike existing SCM methods, our framework will identify feature sentences in a case that contain essential information, perform similar case matching based on the extracted feature sentence results, and align the feature sentences in the two cases to provide evidence for the similarity of the cases. SCM results may conflict with feature sentence alignment results, and our framework further disambiguates against this inconsistency. The experimental results show the effectiveness of our framework, and our work provides a new benchmark for interpretable SCM.

 

유사 사례 매칭(SCM)은 두 사례가 다음과 같은지 여부를 결정하기 위해 설계되었습니다 유사한. 그 일은 법률 시스템에서 필수적인 역할을 하며, 법률을 돕는다 전문가들은 관련 사례를 신속하게 찾아 더 많이 처리할 수 있다 능률적으로. 기존 연구는 모델의 성능 향상에 초점을 맞추었다 하지만 해석 가능성에 대해서는 그렇지 않다. 그러므로, 이 논문은 파이프라인을 제안한다 4개의 모듈로 구성된 해석 가능한 SCM을 위한 프레임워크: 사법부 특징 문장 식별 모듈, 대소문자 일치 모듈, 특징 문장 정렬 모듈, 그리고 충돌 명확화 모듈. 와는 달리 기존 SCM 방법, 우리의 프레임워크는 사례에서 특징 문장을 식별할 것이다 필수적인 정보를 포함하는, 다음을 기반으로 유사한 사례 매칭을 수행한다 추출된 특징 문장 결과, 그리고 두 개의 특징 문장을 정렬한다 사례의 유사성에 대한 증거를 제공하는 사례. SCM 결과는 다음과 같다 특징 문장 정렬 결과와 충돌하며, 우리의 프레임워크는 더 나아가 이 모순에 대해 명확하게 반대합니다. 실험 결과는 다음을 보여준다 우리 프레임워크의 효과, 그리고 우리의 작업은 새로운 벤치마크를 제공한다 해석 가능한 SCM. 

 

 

Can BERT eat RuCoLA? Topological Data Analysis to Explain

 

This paper investigates how Transformer language models (LMs) fine-tuned for acceptability classification capture linguistic features. Our approach uses the best practices of topological data analysis (TDA) in NLP: we construct directed attention graphs from attention matrices, derive topological features from them, and feed them to linear classifiers. We introduce two novel features, chordality, and the matching number, and show that TDA-based classifiers outperform fine-tuning baselines. We experiment with two datasets, CoLA and RuCoLA in English and Russian, typologically different languages. On top of that, we propose several black-box introspection techniques aimed at detecting changes in the attention mode of the LMs during fine-tuning, defining the LM's prediction confidences, and associating individual heads with fine-grained grammar phenomena. Our results contribute to understanding the behavior of monolingual LMs in the acceptability classification task, provide insights into the functional roles of attention heads, and highlight the advantages of TDA-based approaches for analyzing LMs. We release the code and the experimental results for further uptake.

 

이 논문은 트랜스포머 언어 모델(LM)이 어떻게 미세 조정되었는지 조사한다 수용성 분류는 언어적 특징을 포착한다. 우리의 접근 방식은 NLP에서 위상 데이터 분석(TDA)의 모범 사례: 우리는 지시된 것을 구성한다 주의 행렬에서 주의 그래프, 위상학적 특징 도출 선형 분류기에 입력합니다. 우리는 두 가지 새로운 특징을 소개한다, 코드성, 그리고 일치하는 숫자, 그리고 TDA 기반 분류기를 보여준다 미세 조정 기준선을 능가합니다. 우리는 CoLA라는 두 개의 데이터 세트를 실험한다 영어와 러시아어의 RuCoLA는 유형학적으로 다른 언어입니다. 위에 그것은, 우리는 탐지를 목표로 하는 몇 가지 블랙박스 검사 기법을 제안한다 미세 조정 중 LM의 주의 모드 변경, LM의 정의 예측 신뢰도 및 개별 머리와 세분화된 머리와의 연관성 문법 현상. 우리의 결과는 다음의 행동을 이해하는 데 기여한다 수용성 분류 과제에서 단일 언어 LM, 에 대한 통찰력을 제공 주의 책임자의 기능적 역할, 그리고 장점을 강조한다 LM을 분석하기 위한 TDA 기반 접근법입니다. 코드를 공개하고 추가적인 이해를 위한 실험 결과. 

 

 

반응형

댓글