본문 바로가기
오늘의 자연어 처리

[2022-10-11] 오늘의 자연어처리

by 지환이아빠 2022. 10. 11.
반응형

PARAGEN : A Parallel Generation Toolkit

 

PARAGEN is a PyTorch-based NLP toolkit for further development on parallel generation. PARAGEN provides thirteen types of customizable plugins, helping users to experiment quickly with novel ideas across model architectures, optimization, and learning strategies. We implement various features, such as unlimited data loading and automatic model selection, to enhance its industrial usage. ParaGen is now deployed to support various research and industry applications at ByteDance. PARAGEN is available at this https URL.

 

PARAGEN은 병렬로 추가 개발을 위한 PyTorch 기반 NLP 툴킷입니다. 시대. PARAGEN은 13가지 유형의 맞춤형 플러그인을 제공하여 사용자가 모델 아키텍처 전반에 걸쳐 새로운 아이디어를 신속하게 실험할 수 있습니다. 최적화 및 학습 전략. 다음과 같은 다양한 기능을 구현합니다. 무제한 데이터 로딩 및 자동 모델 선택, 산업성 향상 사용. ParGen은 현재 다양한 연구와 산업을 지원하기 위해 배치되었습니다. ByteDance의 응용 프로그램입니다. PARAGEN은 다음 사이트에서 사용할 수 있습니다. 이 https URL. 

 

 

Measuring and Narrowing the Compositionality Gap in Language Models

 

We investigate the ability of language models to perform compositional reasoning tasks where the overall solution depends on correctly composing the answers to sub-problems. We measure how often models can correctly answer all sub-problems but not generate the overall solution, a ratio we call the compositionality gap. We evaluate this ratio by asking multi-hop questions with answers that require composing multiple facts unlikely to have been observed together during pretraining. In the GPT-3 family of models, as model size increases we show that the single-hop question answering performance improves faster than the multi-hop performance does, therefore the compositionality gap does not decrease. This surprising result suggests that while more powerful models memorize and recall more factual knowledge, they show no corresponding improvement in their ability to perform this kind of compositional reasoning. We then demonstrate how elicitive prompting (such as chain of thought) narrows the compositionality gap by reasoning explicitly instead of implicitly. We present a new method, self-ask, that further improves on chain of thought. In our method, the model explicitly asks itself (and then answers) follow-up questions before answering the initial question. We finally show that self-ask's structured prompting lets us easily plug in a search engine to answer the follow-up questions, which additionally improves accuracy.

 

우리는 언어 모델이 구성을 수행하는 능력을 조사한다. 전체 솔루션이 올바르게 구성되어야 하는 추론 작업 하위 항목에 대한 답변 모델이 모든 질문에 정확하게 답할 수 있는 빈도를 측정합니다. 하위 계층이지만 전체 솔루션을 생성하지는 않습니다. 이 비율을 우리는 구성성 격차 우리는 멀티홉 질문을 통해 이 비율을 평가한다. 관찰되었을 것 같지 않은 여러 사실을 구성해야 하는 대답 함께 훈련하는 거야 GPT-3 계열 모델에서는 모델 크기로 증가 우리는 단일 홉 질문 응답 성능이 향상된다는 것을 보여준다. 멀티홉 퍼포먼스보다 더 빠르며, 따라서 구성성 격차 감소하지 않습니다. 이 놀라운 결과는 더 강력하지만 모델들은 더 많은 사실적 지식을 기억하고 상기한다, 그들은 상응하는 것을 보여주지 않는다. 이런 종류의 구성 추론을 수행하는 능력의 향상 그런 다음 우리는 (생각의 연쇄와 같은) 얼마나 유도적인지를 보여준다. 은연중에 추론하는 대신 명시적으로 추론하여 구성성 격차를 좁힌다. 우리는 일련의 사고를 더욱 향상시키는 새로운 방법인 자기 질문 방식을 제시한다. ask)을 제시한다. 우리의 방법에서, 모델은 스스로에게 명시적으로 후속 조치를 묻고 나서 대답한다. 첫 번째 질문에 답하기 전에 질문합니다. 우리는 마침내 그것을 보여준다. 셀프 질문의 구조화된 프롬프트를 통해 검색 엔진을 쉽게 연결할 수 있습니다. 후속 질문에 답하면 정확도가 추가로 향상됩니다. 

 

 

Zero-shot stance detection based on cross-domain feature enhancement by contrastive learning

 

Zero-shot stance detection is challenging because it requires detecting the stance of previously unseen targets in the inference phase. The ability to learn transferable target-invariant features is critical for zero-shot stance detection. In this work, we propose a stance detection approach that can efficiently adapt to unseen targets, the core of which is to capture target-invariant syntactic expression patterns as transferable knowledge. Specifically, we first augment the data by masking the topic words of sentences, and then feed the augmented data to an unsupervised contrastive learning module to capture transferable features. Then, to fit a specific target, we encode the raw texts as target-specific features. Finally, we adopt an attention mechanism, which combines syntactic expression patterns with target-specific features to obtain enhanced features for predicting previously unseen targets. Experiments demonstrate that our model outperforms competitive baselines on four benchmark datasets.

 

제로샷 자세 검출은 검출이 필요하기 때문에 어렵다. 추론 단계에서 이전에 보이지 않았던 대상의 자세. 할 수 있는 능력 전송 가능한 표적 관련 기능을 학습하는 것은 제로샷 자세에 매우 중요하다. 탐지하다 이 연구에서, 우리는 다음을 할 수 있는 자세 감지 접근법을 제안한다. 눈에 보이지 않는 대상에 효율적으로 적응하며, 그 핵심은 포착하는 것이다. 전달 가능한 지식으로서 대상과 일치하는 구문 표현 패턴. 구체적으로, 우리는 먼저 주제어를 가림으로써 데이터를 증가시킨다. 문장, 그리고 나서 증강된 데이터를 감독되지 않은 대조군에 공급한다. 전송 가능한 기능을 캡처하는 학습 모듈. 그런 다음 특정 항목을 적합시킵니다. 대상, 우리는 원시 텍스트를 대상 특정 기능으로 인코딩한다. 마지막으로, 우리는 채택한다. 구문 표현 패턴을 결합하는 주의 메커니즘 미리 예측하기 위한 향상된 기능을 얻기 위한 대상별 기능 보이지 않는 표적 실험 결과, 우리 모델이 경쟁력을 능가한다는 것이 입증되었다. 4개의 벤치마크 데이터셋에 대한 기준선을 제공합니다. 

 

 

반응형

댓글