본문 바로가기
오늘의 자연어 처리

[2022-08-27] 오늘의 자연어처리

by 지환이아빠 2022. 8. 27.
반응형

Bitext Mining for Low-Resource Languages via Contrastive Learning

 

Mining high-quality bitexts for low-resource languages is challenging. This paper shows that sentence representation of language models fine-tuned with multiple negatives ranking loss, a contrastive objective, helps retrieve clean bitexts. Experiments show that parallel data mined from our approach substantially outperform the previous state-of-the-art method on low resource languages Khmer and Pashto.

 

저자원 언어에 대한 고품질 바이트 텍스트를 채굴하는 것은 어렵다. 이것. 논문은 언어 모델의 문장 표현이 와 미세하게 일치한다는 것을 보여준다. 대조적인 목표인 다중 부정 순위 손실은 깨끗한 회수하는 데 도움이 됩니다. 본문을 깨물다 실험 결과, 우리의 접근 방식에서 채굴된 병렬 데이터가 나타났다. 적은 자원으로 이전의 최첨단 방법을 크게 능가하다. 크메르어와 파슈토어 

 

 

Addressing Token Uniformity in Transformers via Singular Value Transformation

 

Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at this https URL.

 

토큰 균일성은 일반적으로 변압기 기반 모델에서 관찰된다. 다른 토큰들은 간 후에 비슷한 정보의 많은 부분을 공유한다. 변압기에 여러 개의 자기 주의 레이어를 쌓아 올립니다. 이 논문에서, 우리는 각각의 출력의 단수 값의 분포를 사용할 것을 제안한다. 토큰 균일성 현상을 특징짓기 위한 변압기 레이어 덜 왜곡된 단일 값 분포가 다음을 할 수 있음을 경험적으로 설명한다. 통일 문제를 완화하다 우리의 관찰에 기초하여, 우리는 정의한다. 단일 값 분포의 몇 가지 바람직한 특성 및 제안 단수 값을 업데이트하기 위한 새로운 변환 함수. 우리는 그것을 보여준다. 토큰 균일성을 완화하는 것 외에도 변환 함수는 다음과 같아야 한다. 원래의 매립 공간에 지역 이웃 구조를 보존한다. 우리들의 제안된 특이치 변환 함수는 다음과 같은 범위에 적용된다. BERT, ALBERT, RoBERTa 및 DistilB와 같은 변압기 기반 언어 모델ERT, 그리고 의미론적 텍스트 유사성 평가에서 향상된 성능이 관찰된다. 그리고 다양한 GLUE 작업. 소스 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL. 

 

 

A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment Analysis

 

Recently, some span-based methods have achieved encouraging performances for joint aspect-sentiment analysis, which first extract aspects (aspect extraction) by detecting aspect boundaries and then classify the span-level sentiments (sentiment classification). However, most existing approaches either sequentially extract task-specific features, leading to insufficient feature interactions, or they encode aspect features and sentiment features in a parallel manner, implying that feature representation in each task is largely independent of each other except for input sharing. Both of them ignore the internal correlations between the aspect extraction and sentiment classification. To solve this problem, we novelly propose a hierarchical interactive network (HI-ASA) to model two-way interactions between two tasks appropriately, where the hierarchical interactions involve two steps: shallow-level interaction and deep-level interaction. First, we utilize cross-stitch mechanism to combine the different task-specific features selectively as the input to ensure proper two-way interactions. Second, the mutual information technique is applied to mutually constrain learning between two tasks in the output layer, thus the aspect input and the sentiment input are capable of encoding features of the other task via backpropagation. Extensive experiments on three real-world datasets demonstrate HI-ASA's superiority over baselines.

 

최근, 일부 스팬 기반 방법은 고무적인 성능을 달성했습니다. 먼저 양상을 추출하는 공동 양상 분석(구체적합동 추출)을 통해 측면 경계를 감지한 다음 스팬 레벨을 분류합니다. 감정(구분) 그러나 대부분의 기존 접근법 중 하나는 작업별 피쳐를 순차적으로 추출하여 피쳐 부족 발생 상호 작용, 또는 그들은 측면 특징과 감정 특징을 인코딩한다. 병렬 방식, 각 작업에서 특징 표현은 대체로 입력 공유를 제외하고 서로 독립적입니다. 그들 둘 다 무시한다. 측면 추출과 감정 사이의 내부 상관 관계 분류. 이 문제를 해결하기 위해, 우리는 새로운 계층 구조를 제안한다. 두 작업 간의 양방향 상호 작용을 모델링하는 대화형 네트워크(HI-ASA) 적절하게, 계층적 상호작용이 두 단계를 포함하는 경우: 얕은 수준의 상호 작용과 깊은 수준의 상호 작용. 첫째, 우리는 다양한 작업별 기능을 결합하기 위한 교차 결합 메커니즘 적절한 양방향 상호 작용을 보장하기 위해 선택적으로 입력한다. 둘째, 상호 정보 기술은 상호 간의 학습을 제한하기 위해 적용된다. 출력 계층의 두 가지 작업, 즉 측면 입력과 정서 입력. 역전파를 통해 다른 작업의 기능을 인코딩할 수 있습니다. 세 가지 실제 데이터 세트에 대한 광범위한 실험은 HI-ASA의 기준선에 대한 우위 

 

 

반응형

댓글