본문 바로가기
오늘의 자연어 처리

[2023-10-01] 오늘의 자연어처리

by 지환이아빠 2023. 10. 1.
반응형

Augmenting transformers with recursively composed multi-grained representations

 

Abstract:We present ReCAT, a recursive composition augmented Transformer that is able to explicitly model hierarchical syntactic structures of raw texts without relying on gold trees during both learning and inference. Existing research along this line restricts data to follow a hierarchical tree structure and thus lacks inter-span communications. To overcome the problem, we propose a novel contextual inside-outside (CIO) layer that learns contextualized representations of spans through bottom-up and top-down passes, where a bottom-up pass forms representations of high-level spans by composing low-level spans, while a top-down pass combines information inside and outside a span. By stacking several CIO layers between the embedding layer and the attention layers in Transformer, the ReCAT model can perform both deep intra-span and deep inter-span interactions, and thus generate multi-grained representations fully contextualized with other spans. Moreover, the CIO layers can be jointly pre-trained with Transformers, making ReCAT enjoy scaling ability, strong performance, and interpretability at the same time. We conduct experiments on various sentence-level and span-level tasks. Evaluation results indicate that ReCAT can significantly outperform vanilla Transformer models on all span-level tasks and baselines that combine recursive networks with Transformers on natural language inference tasks. More interestingly, the hierarchical structures induced by ReCAT exhibit strong consistency with human-annotated syntactic trees, indicating good interpretability brought by the CIO layers.

 

초록:우리는 학습과 추론 모두 동안 골드 트리에 의존하지 않고 원시 텍스트의 계층적 구문 구조를 명시적으로 모델링할 수 있는 재귀적 구성 증강 트랜스포머(ReCAT)를 제시한다. 이 선을 따르는 기존의 연구는 데이터가 계층적 트리 구조를 따르도록 제한하기 때문에 스팬 간 통신이 부족하다. 문제를 극복하기 위해 상향식 및 하향식 패스를 통해 스팬의 맥락화된 표현을 학습하는 새로운 CIO(Contextual Inside Outside) 계층을 제안한다. 상향식 패스는 낮은 수준의 스팬을 구성하여 높은 수준의 스팬의 표현을 형성하는 반면 하향식 패스는 스팬 내부 및 외부의 정보를 결합한다. ReCAT 모델은 Transformer의 임베딩 레이어와 주의 레이어 사이에 여러 CIO 레이어를 쌓음으로써 깊은 스팬 내 상호 작용과 깊은 스팬 간 상호 작용을 모두 수행할 수 있으며, 따라서 다른 스팬과 완전히 맥락화된 다중 세분화된 표현을 생성할 수 있다. 또한 CIO 계층은 Transformers와 공동으로 사전 교육을 받을 수 있으므로 ReCAT는 확장 기능, 강력한 성능 및 해석 가능성을 동시에 누릴 수 있습니다. 우리는 다양한 문장 수준 및 스팬 수준 작업에 대한 실험을 수행한다. 평가 결과에 따르면 ReCAT는 모든 스팬 수준 작업에서 바닐라 트랜스포머 모델을 크게 능가할 수 있으며 자연어 추론 작업에서 재귀적 네트워크를 트랜스포머와 결합하는 기준선을 제공한다. 더욱 흥미로운 것은 ReCAT에 의해 유도된 계층 구조가 사람이 주석을 단 구문 트리와 강한 일관성을 보여 CIO 계층이 가져온 좋은 해석 가능성을 보여준다. 

 

 

Controllable Text Generation with Residual Memory Transformer

 

Abstract:Large-scale Causal Language Models (CLMs), e.g., GPT3 and ChatGPT, have brought great success in text generation. However, it is still an open challenge to control the generation process of CLM while balancing flexibility, control granularity, and generation efficiency. In this paper, we provide a new alternative for controllable text generation (CTG), by designing a non-intrusive, lightweight control plugin to accompany the generation of CLM at arbitrary time steps. The proposed control plugin, namely Residual Memory Transformer (RMT), has an encoder-decoder setup, which can accept any types of control conditions and cooperate with CLM through a residual learning paradigm, to achieve a more flexible, general, and efficient CTG. Extensive experiments are carried out on various control tasks, in the form of both automatic and human evaluations. The results show the superiority of RMT over a range of state-of-the-art approaches, proving the effectiveness and versatility of our approach.

 

초록:대규모 인과 언어 모델(CLM), 예를 들어 GPT3 및 ChatGPT은 텍스트 생성에서 큰 성공을 가져왔다. 그러나, 유연성, 제어 입도 및 생성 효율의 균형을 유지하면서 CLM의 생성 프로세스를 제어하는 것은 여전히 공개된 과제이다. 본 논문에서는 임의의 시간 단계에서 CLM의 생성에 수반되는 비침입적 경량 제어 플러그인을 설계함으로써 제어 가능한 텍스트 생성(CTG)을 위한 새로운 대안을 제공한다. 제안된 제어 플러그인, 즉 RMT(Residual Memory Transformer)는 인코더-디코더 설정을 가지고 있으며, 이는 임의의 유형의 제어 조건을 수용하고 잔차 학습 패러다임을 통해 CLM과 협력하여 보다 유연하고 일반적이며 효율적인 CTG를 달성할 수 있다. 다양한 제어 작업에 대한 광범위한 실험이 자동 및 인간 평가의 형태로 수행된다. 결과는 다양한 최첨단 접근 방식에 비해 RMT의 우수성을 보여주며, 우리 접근 방식의 효과와 범용성을 입증한다. 

 

 

Human Feedback is not Gold Standard

 

Abstract:Human feedback has become the de facto standard for evaluating the performance of Large Language Models, and is increasingly being used as a training objective. However, it is not clear which properties of a generated output this single `preference' score captures. We hypothesise that preference scores are subjective and open to undesirable biases. We critically analyse the use of human feedback for both training and evaluation, to verify whether it fully captures a range of crucial error criteria. We find that while preference scores have fairly good coverage, they under-represent important aspects like factuality. We further hypothesise that both preference scores and error annotation may be affected by confounders, and leverage instruction-tuned models to generate outputs that vary along two possible confounding dimensions: assertiveness and complexity. We find that the assertiveness of an output skews the perceived rate of factuality errors, indicating that human annotations are not a fully reliable evaluation metric or training objective. Finally, we offer preliminary evidence that using human feedback as a training objective disproportionately increases the assertiveness of model outputs. We encourage future work to carefully consider whether preference scores are well aligned with the desired objective.

 

초록:인적 피드백은 Large Language Models의 성능을 평가하는 사실상의 기준이 되었고, 점점 더 훈련 목적으로 사용되고 있다. 그러나 이 단일 '선호도' 점수가 생성된 출력의 어떤 속성을 포착하는지는 명확하지 않다. 우리는 선호도 점수가 주관적이고 바람직하지 않은 편견에 열려 있다고 가정한다. 우리는 훈련과 평가 모두에 대한 인간 피드백의 사용을 비판적으로 분석하여 중요한 오류 기준 범위를 완전히 포착하는지 검증한다. 선호도 점수는 상당히 우수한 범위를 가지고 있지만 사실성과 같은 중요한 측면을 과소 대표한다는 것을 발견했다. 또한 선호도 점수와 오류 주석 모두 교란 요인의 영향을 받을 수 있다고 가정하고 명령 조정 모델을 활용하여 두 가지 가능한 교란 요인 차원인 주장과 복잡성을 따라 변화하는 출력을 생성한다. 우리는 출력의 주장이 사실성 오류의 인지된 비율을 왜곡한다는 것을 발견했으며, 이는 인간 주석이 완전히 신뢰할 수 있는 평가 지표나 훈련 목표가 아니라는 것을 나타낸다. 마지막으로, 우리는 훈련 목표로 인간 피드백을 사용하면 모델 출력의 주장력이 불균형적으로 증가한다는 예비 증거를 제공한다. 향후 작업에서는 선호도 점수가 원하는 목표와 잘 일치하는지 신중하게 검토할 것을 권장합니다. 

 

 

반응형

댓글