본문 바로가기
오늘의 자연어 처리

[2022-08-10] 오늘의 자연어처리

by 지환이아빠 2022. 8. 10.
반응형

The Analysis of Synonymy and Antonymy in Discourse Relations: An interpretable Modeling Approach

 

The idea that discourse relations are construed through explicit content and shared, or implicit, knowledge between producer and interpreter is ubiquitous in discourse research and linguistics. However, the actual contribution of the lexical semantics of arguments is unclear. We propose a computational approach to the analysis of contrast and concession relations in the PDTB corpus. Our work sheds light on the extent to which lexical semantics contributes to signaling explicit and implicit discourse relations and clarifies the contribution of different parts of speech in both. This study contributes to bridging the gap between corpus linguistics and computational linguistics by proposing transparent and explainable models of discourse relations based on the synonymy and antonymy of their arguments.

 

담화 관계가 명시적인 내용을 통해 해석된다는 생각은 생산자와 통역사 사이의 공유 또는 암묵적인 지식은 어디에나 있다. 담화 연구와 언어학에서. 그러나 실제 기여는 주장의 어휘적 의미론은 명확하지 않다. 우리는 계산 접근법을 제안한다. PDTB 말뭉치의 대조 및 양허 관계 분석. 우리들의 연구는 어휘적 의미론이 기여하는 범위를 조명한다. 명시적이고 암묵적인 담화 관계를 시그널링하고 다음을 명확히 한다. 두 가지 언어에서 서로 다른 부분의 기여 이 연구는 에 기여한다. 말뭉치 언어학과 컴퓨터 언어학 사이의 간극을 메우기 위해 다음을 기반으로 한 담화 관계의 투명하고 설명 가능한 모델을 제안합니다. 그들의 주장의 동의론과 반의론 

 

 

Where's the Learning in Representation Learning for Compositional Semantics and the Case of Thematic Fit

 

Observing that for certain NLP tasks, such as semantic role prediction or thematic fit estimation, random embeddings perform as well as pretrained embeddings, we explore what settings allow for this and examine where most of the learning is encoded: the word embeddings, the semantic role embeddings, or ``the network''. We find nuanced answers, depending on the task and its relation to the training objective. We examine these representation learning aspects in multi-task learning, where role prediction and role-filling are supervised tasks, while several thematic fit tasks are outside the models' direct supervision. We observe a non-monotonous relation between some tasks' quality score and the training data size. In order to better understand this observation, we analyze these results using easier, per-verb versions of these tasks.

 

의미론적 역할 예측과 같은 특정 NLP 작업에 대한 관찰 또는 주제 적합 추정, 랜덤 임베딩은 사전 학습과 마찬가지로 잘 수행됨 임베딩, 우리는 어떤 설정이 이것을 허용하는지 탐색하고 가장 많은 부분을 조사한다. 학습은 인코딩된다: 단어 임베딩, 의미적 역할 임베딩, 또는 '''네트워크''' 작업 및 작업에 따라 미묘한 답변을 찾을 수 있습니다. 훈련 목표와의 관계. 우리는 이러한 표현 학습을 검토한다. 역할 예측과 역할 분담을 하는 다중 작업 학습의 측면들 몇 가지 주제별 적합 작업이 모델의 외부에 있는 동안 감독된 작업 직속 감독 우리는 일부 작업들 사이에 단조롭지 않은 관계를 관찰한다. 품질 점수 및 교육 데이터 크기. 이것을 더 잘 이해하기 위해서. 관찰, 우리는 이러한 결과를 더 쉽고, 더 쉬운 버전별 버전을 사용하여 분석한다. 임무들. 

 

 

Exploring Hate Speech Detection with HateXplain and BERT

 

Hate Speech takes many forms to target communities with derogatory comments, and takes humanity a step back in societal progress. HateXplain is a recently published and first dataset to use annotated spans in the form of rationales, along with speech classification categories and targeted communities to make the classification more humanlike, explainable, accurate and less biased. We tune BERT to perform this task in the form of rationales and class prediction, and compare our performance on different metrics spanning across accuracy, explainability and bias. Our novelty is threefold. Firstly, we experiment with the amalgamated rationale class loss with different importance values. Secondly, we experiment extensively with the ground truth attention values for the rationales. With the introduction of conservative and lenient attentions, we compare performance of the model on HateXplain and test our hypothesis. Thirdly, in order to improve the unintended bias in our models, we use masking of the target community words and note the improvement in bias and explainability metrics. Overall, we are successful in achieving model explanability, bias removal and several incremental improvements on the original BERT implementation.

 

Hate Speech는 경멸적인 코멘트를 가진 커뮤니티를 목표로 하기 위해 많은 형태를 취한다. 인류를 사회적 진보로 한 걸음 물러나게 할 것입니다. HateXplain은 최근에 게시된 데이터 집합과 주석이 달린 범위를 합리성의 형태로 사용하는 첫 번째 데이터 집합, 음성 분류 범주 및 만들 대상 커뮤니티와 함께 더 인간적이고, 설명 가능하고, 정확하고, 덜 편향된 분류. 우리가 이 작업을 합리성과 클래스 예측의 형태로 수행하도록 BERT를 조정한다. 그리고 정확도에 걸쳐 다양한 지표에서 성능을 비교합니다. 설명 가능성과 편견 우리의 참신함은 세 가지다. 먼저, 우리는 실험을 한다. 중요도 값이 다른 통합 이론적 클래스 손실. 둘째, 우리는 다음과 같은 사실에 대한 주의 값을 광범위하게 실험한다. 이치 보수적이고 관대한 관심을 도입하면서 우리는 HateXplain에서 모델의 성능을 비교하고 가설을 테스트한다. 셋째, 모델에서 의도하지 않은 편견을 개선하기 위해 마스킹을 사용한다. 대상 커뮤니티 단어 및 편견의 개선을 주목한다. 설명 가능성 메트릭스. 전반적으로 모델을 성공적으로 달성하고 있습니다. 설명 가능성, 편향 제거 및 에 대한 몇 가지 점진적 개선 원래의 BERT 구현. 

 

 

반응형

댓글