Contextual information integration for stance detection via cross-attention
Stance detection deals with the identification of an author's stance towards a target and is applied on various text domains like social media and news. In many cases, inferring the stance is challenging due to insufficient access to contextual information. Complementary context can be found in knowledge bases but integrating the context into pretrained language models is non-trivial due to their graph structure. In contrast, we explore an approach to integrate contextual information as text which aligns better with transformer architectures. Specifically, we train a model consisting of dual encoders which exchange information via cross-attention. This architecture allows for integrating contextual information from heterogeneous sources. We evaluate context extracted from structured knowledge sources and from prompting large language models. Our approach is able to outperform competitive baselines (1.9pp on average) on a large and diverse stance detection benchmark, both (1) in-domain, i.e. for seen targets, and (2) out-of-domain, i.e. for targets unseen during training. Our analysis shows that it is able to regularize for spurious label correlations with target-specific cue words.
스탠스 감지는 에 대한 저자의 입장을 식별하는 것을 다룬다. 소셜 미디어와 뉴스와 같은 다양한 텍스트 영역에 적용되고 있습니다. 인 많은 경우, 입장 유추는 에 대한 불충분한 접근으로 인해 어렵다. 상황별 정보 지식 기반에서 상호 보완적인 문맥을 찾을 수 있습니다. 하지만 문맥을 사전 훈련된 언어 모델에 통합하는 것은 적절하지 않다. 그래프 구조에 맞춰야 합니다. 이와는 대조적으로, 우리는 통합을 위한 접근 방식을 탐구한다. 트랜스포머와 더 잘 정렬되는 텍스트로서의 상황별 정보 건축 양식 구체적으로, 우리는 이중 인코더로 구성된 모델을 훈련시킨다. 상호 주의로 정보를 교환하다 이 아키텍처는 다음을 허용합니다. 이질적인 출처의 상황별 정보를 통합합니다. 우리는 평가한다 구조화된 지식 출처 및 대규모 프롬프트에서 추출된 컨텍스트 언어 모델 NAT 접근 방식은 경쟁 기준을 능가할 수 있습니다. 크고 다양한 자세 감지 벤치마크에서 (평균 1.9pp), 둘 다 (1) 도메인 내(즉, 보이는 대상의 경우) 및 (2) 도메인 외(즉, 훈련 중에 보이지 않는. 우리의 분석은 그것이 다음에 대해 정규화할 수 있다는 것을 보여준다. 대상별 큐 워드와 가짜 레이블 상관 관계.
Data-efficient End-to-end Information Extraction for Statistical Legal Analysis
Legal practitioners often face a vast amount of documents. Lawyers, for instance, search for appropriate precedents favorable to their clients, while the number of legal precedents is ever-growing. Although legal search engines can assist finding individual target documents and narrowing down the number of candidates, retrieved information is often presented as unstructured text and users have to examine each document thoroughly which could lead to information overloading. This also makes their statistical analysis challenging. Here, we present an end-to-end information extraction (IE) system for legal documents. By formulating IE as a generation task, our system can be easily applied to various tasks without domain-specific engineering effort. The experimental results of four IE tasks on Korean precedents shows that our IE system can achieve competent scores (-2.3 on average) compared to the rule-based baseline with as few as 50 training examples per task and higher score (+5.4 on average) with 200 examples. Finally, our statistical analysis on two case categories--drunk driving and fraud--with 35k precedents reveals the resulting structured information from our IE system faithfully reflects the macroscopic features of Korean legal system.
법조인들은 종종 방대한 양의 서류에 직면한다. 변호사님, 예를 들어, 고객에게 유리한 적절한 판례를 검색하는 동안 법적 판례의 수가 계속 증가하고 있다. 합법적인 검색 엔진에도 불구하고 개별 대상 문서를 찾고 수를 줄이는 데 도움이 될 수 있습니다. 후보, 검색된 정보는 종종 비정형 텍스트로 제시됩니다. 사용자들은 정보로 이어질 수 있는 각각의 문서를 철저히 검토해야 한다. 과부하의 이것은 또한 그들의 통계적 분석을 어렵게 만든다. 자, 우리. 법률 문서에 대한 종단 간 정보 추출(IE) 시스템을 제시합니다. IE를 생성 작업으로 공식화함으로써, 우리의 시스템은 쉽게 적용될 수 있다. 도메인별 엔지니어링 작업 없이 다양한 작업을 수행할 수 있습니다. 실험적인 것. 한국 판례에 대한 4개의 IE 과제의 결과는 우리의 IE 시스템이 규칙 기반 기준과 비교하여 적절한 점수(평균 2.3점)를 획득한다. 과제당 최소 50개의 교육 예제와 더 높은 점수(평균 +5.4점)를 가지고 있다. 200가지 예를 들면 마지막으로, 두 사건에 대한 우리의 통계 분석은 35,000개의 전례가 있는 범주는 결과를 드러낸다. 우리의 IE 시스템의 구조화된 정보는 거시적인 것을 충실히 반영한다. 한국 법제의 특징
Fine-Tuning Pre-Trained Language Models Effectively by Optimizing Subnetworks Adaptively
Large-scale pre-trained language models have achieved impressive results on a wide range of downstream tasks recently. However, fine-tuning an extremely large-scale pre-trained language model on limited target datasets is often plagued by overfitting and representation degradation. In this paper, we propose a Dynamic Parameter Selection (DPS) algorithm for the large-scale pre-trained models during fine-tuning, which adaptively selects a more promising subnetwork to perform staging updates based on gradients of back-propagation. Experiments on the GLUE benchmark show that DPS outperforms previous fine-tuning methods in terms of overall performance and stability, and consistently achieves better results with variable pre-trained language models. In addition, DPS brings a large magnitude of improvement in out-of-domain transferring experiments and low-resource scenarios, which shows that it can maintain stable general contextual features and reduce the representation collapse. We release our code at this https URL
대규모 사전 교육 언어 모델은 다음과 같은 인상적인 결과를 얻었다. 최근 광범위한 다운스트림 작업. 그러나 극도로 미세하게 조정한다. 제한된 대상 데이터 세트에 대한 대규모 사전 훈련된 언어 모델은 종종 과적합 및 표현력 저하에 시달린다. 이 논문에서, 우리는 대규모 동적 파라미터 선택(DPS) 알고리즘을 제안하다 미세 조정 중에 사전 훈련된 모델, 적응적으로 더 많은 것을 선택한다. 경사도를 기반으로 스테이징 업데이트를 수행할 수 있는 유망한 하위 네트워크 역행의 GLUE 벤치마크에 대한 실험 결과 DPS가 우수한 것으로 나타났습니다. 전체적인 성능 및 안정성 측면에서 이전의 미세 조정 방법들, 가변적인 사전 훈련된 언어 모델을 사용하여 지속적으로 더 나은 결과를 달성한다. 또한 DPS는 도메인 외부에서 큰 폭으로 개선됩니다. 전송 실험 및 저자원 시나리오, 이 시나리오가 다음을 수행할 수 있음을 보여줍니다. 안정된 일반적인 문맥적 특징을 유지하고 표현을 줄인다. 무너지다 이 https URL에서 코드를 공개합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-11-07] 오늘의 자연어처리 (0) | 2022.11.07 |
---|---|
[2022-11-06] 오늘의 자연어처리 (0) | 2022.11.06 |
[2022-11-04] 오늘의 자연어처리 (0) | 2022.11.04 |
[2022-11-03] 오늘의 자연어처리 (0) | 2022.11.03 |
[2022-11-03] 오늘의 자연어처리 (0) | 2022.11.03 |
댓글