본문 바로가기
오늘의 자연어 처리

[2023-02-03] 오늘의 자연어처리

by 지환이아빠 2023. 2. 3.
반응형

An Empirical Study on the Transferability of Transformer Modules in Parameter-Efficient Fine-Tuning

 

Parameter-efficient fine-tuning approaches have recently garnered a lot of attention. Having considerably lower number of trainable weights, these methods can bring about scalability and computational effectiveness. In this paper, we look for optimal sub-networks and investigate the capability of different transformer modules in transferring knowledge from a pre-trained model to a downstream task. Our empirical results suggest that every transformer module in BERT can act as a winning ticket: fine-tuning each specific module while keeping the rest of the network frozen can lead to comparable performance to the full fine-tuning. Among different modules, LayerNorms exhibit the best capacity for knowledge transfer with limited trainable weights, to the extent that, with only 0.003% of all parameters in the layer-wise analysis, they show acceptable performance on various target tasks. On the reasons behind their effectiveness, we argue that their notable performance could be attributed to their high-magnitude weights compared to that of the other modules in the pre-trained BERT.

 

매개 변수 효율적인 미세 조정 접근 방식은 최근에 많은 것을 얻었다 주의를 기울임. 훈련 가능한 가중치의 수가 상당히 적은 경우, 이러한 방법 확장성과 계산 효율성을 가져올 수 있습니다. 이 논문에서, 우리는 최적의 하위 모델을 찾고 서로 다른 기능을 조사합니다 사전 훈련된 모델에서 지식을 전달하는 트랜스포머 모듈 다운스트림 작업. 우리의 경험적 결과는 모든 변압기 모듈이 BERT는 당첨 티켓 역할을 할 수 있다: 각 특정 모듈을 미세 조정하는 동안 네트워크의 나머지를 동결시킨 상태로 유지하는 것은 다음과 유사한 성능으로 이어질 수 있다 전면적인 미세 조정. 다양한 모듈 중에서 LayerNorms가 가장 우수합니다 제한된 훈련 가능한 가중치를 가진 지식 전달을 위한 용량 계층별 분석에서 모든 매개 변수의 0.003%만 사용하여, 그들은 보여준다 다양한 대상 작업에서 허용 가능한 성능. 그들의 배후에 있는 이유들로 효과, 우리는 그들의 주목할 만한 성과가 원인일 수 있다고 주장한다 그들의 높은 크기의 무게는 다른 모듈의 그것과 비교된다 사전 훈련된 BERT. 

 

 

Machine Translation Impact in E-commerce Multilingual Search

 

Previous work suggests that performance of cross-lingual information retrieval correlates highly with the quality of Machine Translation. However, there may be a threshold beyond which improving query translation quality yields little or no benefit to further improve the retrieval performance. This threshold may depend upon multiple factors including the source and target languages, the existing MT system quality and the search pipeline. In order to identify the benefit of improving an MT system for a given search pipeline, we investigate the sensitivity of retrieval quality to the presence of different levels of MT quality using experimental datasets collected from actual traffic. We systematically improve the performance of our MT systems quality on language pairs as measured by MT evaluation metrics including Bleu and Chrf to determine their impact on search precision metrics and extract signals that help to guide the improvement strategies. Using this information we develop techniques to compare query translations for multiple language pairs and identify the most promising language pairs to invest and improve.

 

이전 연구는 교차 언어 정보의 성능을 제안한다 검색은 기계 번역의 품질과 높은 상관관계가 있습니다. 하지만, 쿼리 번역 품질을 향상시키는 임계값이 있을 수 있습니다 검색 성능을 추가로 향상시킬 수 있는 이점이 거의 또는 전혀 없습니다. 이것. 임계값은 소스 및 대상을 포함한 여러 요인에 따라 달라질 수 있습니다 언어, 기존 MT 시스템 품질 및 검색 파이프라인. 위하여 주어진 검색 파이프라인에 대한 MT 시스템 개선의 이점을 식별한다 상이한 존재에 대한 검색 품질의 민감도를 조사한다 실제 트래픽에서 수집된 실험 데이터 세트를 사용한 MT 품질 수준. 언어에 대한 MT 시스템 품질을 체계적으로 개선합니다 결정하기 위해 Bleu와 Chrf를 포함한 MT 평가 지표에 의해 측정된 쌍 검색 정밀도 지표에 미치는 영향 및 안내에 도움이 되는 신호 추출 개선 전략. 이 정보를 사용하여 우리는 다음과 같은 기술을 개발한다 여러 언어 쌍에 대한 쿼리 번역을 비교하고 가장 많이 식별합니다 투자하고 개선할 유망한 언어 쌍. 

 

 

Zero Shot Transfer of Legal Judgement Prediction as Article-aware Entailment for the European Court of Human Rights

 

In this paper, we cast Legal Judgment Prediction (LJP) from text on European Court of Human Rights cases as an entailment task, where the case outcome is classified from a combined input of case facts and convention articles. This configuration facilitates the model learning legal reasoning ability in mapping article text to specific fact text. It also provides the opportunity to evaluate the model's ability to generalize to zero-shot settings when asked to classify the case outcome with respect to articles not seen during training. We devise zero-shot LJP experiments and apply domain adaptation methods based on domain discriminator and Wasserstein distance. Our results demonstrate that the entailment architecture outperforms straightforward fact classification. We also find that domain adaptation methods improve zero-shot transfer performance, with article relatedness and encoder pre-training influencing the effect.

 

이 논문에서, 우리는 유럽어 텍스트에서 법적 판단 예측(LJP)을 캐스팅했다 수반과제로서의 인권재판소 사건, 사건의 결과는 다음과 같다 사례 사실과 관습 기사의 결합된 입력에서 분류됩니다. 이것. 구성은 모델이 매핑에서 법적 추론 능력을 학습하는 것을 용이하게 한다 특정 팩트 텍스트에 대한 아티클 텍스트. 또한 다음과 같은 기회를 제공합니다 요청 시 제로샷 설정으로 일반화하는 모델의 능력을 평가한다 훈련 중에 볼 수 없는 기사와 관련하여 사례 결과를 분류한다. 우리가 제로샷 LJP 실험을 고안하고 도메인 적응 방법을 적용한다 도메인 판별기와 와서스테인 거리. 우리의 결과는 다음과 같은 것을 증명한다 수반 아키텍처는 간단한 사실 분류보다 성능이 뛰어나다. 우리가 또한 도메인 적응 방법이 제로샷 전송을 향상시킨다는 것을 발견한다 기사 관련성 및 인코더 사전 교육이 영향을 미치는 성능 영향. 

 

 

반응형

댓글