ContraGen: Effective Contrastive Learning For Causal Language Model
Despite exciting progress in large-scale language generation, the expressiveness of its representations is severely limited by the \textit{anisotropy} issue where the hidden representations are distributed into a narrow cone in the vector space. To address this issue, we present ContraGen, a novel contrastive learning framework to improve the representation with better uniformity and discrimination. We assess ContraGen on a wide range of downstream tasks in natural and programming languages. We show that ContraGen can effectively enhance both uniformity and discrimination of the representations and lead to the desired improvement on various language understanding tasks where discriminative representations are crucial for attaining good performance. Specifically, we attain $44\%$ relative improvement on the Semantic Textual Similarity tasks and $34\%$ on Code-to-Code Search tasks. Furthermore, by improving the expressiveness of the representations, ContraGen also boosts the source code generation capability with $9\%$ relative improvement on execution accuracy on the HumanEval benchmark.
대규모 언어 생성의 흥미진진한 발전에도 불구하고, 표현의 표현성은 에 의해 심각하게 제한된다. 숨겨진 표현이 분포하는 \textit{anisotropy} 문제 벡터 공간의 좁은 원뿔 이 문제를 해결하기 위해 ContraGen을 소개합니다. 와의 표현을 개선하기 위한 새로운 대조적 학습 프레임워크 더 나은 균일성과 차별. 우리는 광범위한 범위의 ContraGen을 평가한다. 자연어 및 프로그래밍 언어로 된 다운스트림 작업 우리는 ContraGen을 보여준다. 균일성과 차별성을 효과적으로 향상시킬 수 있다. 다양한 언어에 대한 표현과 바람직한 개선으로 이어지다. 차별적 표현이 중요한 작업 이해 좋은 성적을 거두다 구체적으로, 우리는 $44\%$의 상대적 개선을 달성한다. 의미론적 텍스트 유사성 작업 및 코드 대 코드 검색에서 $34\%$에 대해 과제. 나아가 표현의 표현력을 향상시킴으로써, 또한 ContraGen은 $9\%$ 상대적인 소스코드 생성 기능을 향상시킵니다. HumanEval 벤치마크의 실행 정확도 향상.
A Study on the Efficiency and Generalization of Light Hybrid Retrievers
Existing hybrid retrievers which integrate sparse and dense retrievers, are indexing-heavy, limiting their applicability in real-world on-devices settings. We ask the question "Is it possible to reduce the indexing memory of hybrid retrievers without sacrificing performance?" Driven by this question, we leverage an indexing-efficient dense retriever (i.e. DrBoost) to obtain a light hybrid retriever. Moreover, to further reduce the memory, we introduce a lighter dense retriever (LITE) which is jointly trained on contrastive learning and knowledge distillation from DrBoost. Compared to previous heavy hybrid retrievers, our Hybrid-LITE retriever saves 13 memory while maintaining 98.0 performance. In addition, we study the generalization of light hybrid retrievers along two dimensions, out-of-domain (OOD) generalization and robustness against adversarial attacks. We evaluate models on two existing OOD benchmarks and create six adversarial attack sets for robustness evaluation. Experiments show that our light hybrid retrievers achieve better robustness performance than both sparse and dense retrievers. Nevertheless there is a large room to improve the robustness of retrievers, and our datasets can aid future research.
희소 및 고밀도 검색기를 통합하는 기존 하이브리드 검색기는 인덱싱을 많이 사용하여 실제 온사이트 설정에서 적용 가능성을 제한합니다. 우리는 "하이브리드 인덱싱 메모리를 줄이는 것이 가능합니까?"라는 질문을 던집니다. 성능 저하 없이 검색기를 사용할 수 있습니까?" 이 질문에 의해, 우리는 인덱싱 효율적인 고밀도 검색기(DrBoost)를 활용하여 조명 확보 하이브리드 리트리버 게다가, 우리는 메모리를 더 줄이기 위해, 대조 학습에 대해 공동으로 훈련되는 LITE(light dense retriver) 그리고 닥터부스트의 지식 증류. 기존 헤비 하이브리드 대비 Retrivers, 우리의 Hybrid-LITE Retriver는 98.0을 유지하면서 13개의 메모리를 절약한다. 성능. 또한, 우리는 두 가지를 따라 가벼운 하이브리드 리트리버의 일반화를 연구한다. 치수, 도메인 외(OOD) 일반화 및 에 대한 견고성 적대적인 공격 우리는 두 가지 기존 OOD 벤치마크에서 모델을 평가한다. 견고성 평가를 위해 6개의 적대적 공격 세트를 만듭니다. 실험 결과 우리의 라이트 하이브리드 리트리버가 보다 더 나은 견고성 성능을 달성한다는 것. 희박하고 조밀한 검색기 둘 다. 그럼에도 불구하고 개선해야 할 큰 여지가 있다. 검색기의 견고성과 데이터 세트는 향후 연구에 도움이 될 수 있습니다.
A Data-Driven Study of Commonsense Knowledge using the ConceptNet Knowledge Base
Acquiring commonsense knowledge and reasoning is recognized as an important frontier in achieving general Artificial Intelligence (AI). Recent research in the Natural Language Processing (NLP) community has demonstrated significant progress in this problem setting. Despite this progress, which is mainly on multiple-choice question answering tasks in limited settings, there is still a lack of understanding (especially at scale) of the nature of commonsense knowledge itself. In this paper, we propose and conduct a systematic study to enable a deeper understanding of commonsense knowledge by doing an empirical and structural analysis of the ConceptNet knowledge base. ConceptNet is a freely available knowledge base containing millions of commonsense assertions presented in natural language. Detailed experimental results on three carefully designed research questions, using state-of-the-art unsupervised graph representation learning ('embedding') and clustering techniques, reveal deep substructures in ConceptNet relations, allowing us to make data-driven and computational claims about the meaning of phenomena such as 'context' that are traditionally discussed only in qualitative terms. Furthermore, our methodology provides a case study in how to use data-science and computational methodologies for understanding the nature of an everyday (yet complex) psychological phenomenon that is an essential feature of human intelligence.
상식적인 지식과 추리를 습득하는 것은 중요한 것으로 인식된다. 일반 인공지능(AI)을 달성하는 데 있어 개척자. 에 대한 최근 연구 NLP(Natural Language Processing) 커뮤니티는 중요한 것을 입증했습니다. 이 문제 설정의 진행 상황. 이러한 진보에도 불구하고, 그것은 주로 제한된 설정에서 객관식 질문 답변 작업, 여전히 존재한다. 상식의 본질에 대한 이해 부족(특히 규모) 지식 그 자체 본 논문에서, 우리는 다음과 같은 체계적인 연구를 제안하고 수행한다. 경험적으로 상식적인 지식을 더 깊이 이해할 수 있게 하다. 그리고 ConceptNet 지식 기반의 구조 분석. ConceptNet은 수백만 가지의 상식적인 주장을 담은 자유롭게 이용할 수 있는 지식 기반 자연어로 표현된 세 가지에 대한 자세한 실험 결과 최첨단 비지도 그래프를 사용하여 설계된 연구 질문 표현 학습('실현') 및 클러스터링 기술, 심층 공개 ConceptNet 관계의 하위 구조, 데이터 중심 및 다음과 같은 '예'와 같은 현상의 의미에 대한 계산적 주장. 전통적으로 질적인 용어로만 논의되었다. 게다가, 우리의 방법론은 데이터 과학 및 계산 사용 방법에 대한 사례 연구를 제공합니다. 일상(복잡하지만 복잡한)의 본질을 이해하기 위한 방법론 인간 지능의 본질적인 특징인 심리적 현상
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-10-07] 오늘의 자연어처리 (0) | 2022.10.07 |
---|---|
[2022-10-06] 오늘의 자연어처리 (1) | 2022.10.06 |
[2022-10-05] 오늘의 자연어처리 (0) | 2022.10.05 |
[2022-10-04] 오늘의 자연어처리 (0) | 2022.10.04 |
[2022-10-03] 오늘의 자연어처리 (0) | 2022.10.03 |
댓글