본문 바로가기
오늘의 자연어 처리

[2023-06-05] 오늘의 자연어처리

by 지환이아빠 2023. 6. 5.
반응형

Boosting the Performance of Transformer Architectures for Semantic Textual Similarity

 

Semantic textual similarity is the task of estimating the similarity between the meaning of two texts. In this paper, we fine-tune transformer architectures for semantic textual similarity on the Semantic Textual Similarity Benchmark by tuning the model partially and then end-to-end. We experiment with BERT, RoBERTa, and DeBERTaV3 cross-encoders by approaching the problem as a binary classification task or a regression task. We combine the outputs of the transformer models and use handmade features as inputs for boosting algorithms. Due to worse test set results coupled with improvements on the validation set, we experiment with different dataset splits to further investigate this occurrence. We also provide an error analysis, focused on the edges of the prediction range.

 

의미론적 텍스트 유사성은 사이의 유사성을 추정하는 작업이다 두 텍스트의 의미. 본 논문에서는 변압기 아키텍처를 미세 조정합니다 의미론적 텍스트 유사성 벤치마크에서 의미론적 텍스트 유사성을 위해 모델을 부분적으로 튜닝한 다음 엔드 투 엔드로 튜닝합니다. 우리는 BERT로 실험하고, 문제를 이진법으로 접근하여 Roberta 및 DeBERTaV3 교차 인코더 분류 작업 또는 회귀 작업입니다. 우리는 그들의 출력을 결합한다 변압기 모델을 만들고 알고리즘을 강화하기 위한 입력으로 핸드메이드 기능을 사용한다. 더 나쁜 테스트 세트 결과와 검증 세트의 개선으로 인해, 우리는 이것을 추가로 조사하기 위해 다양한 데이터 세트 분할을 실험한다 발생. 우리는 또한 가장자리에 초점을 맞춘 오류 분석을 제공한다 예측 범위입니다. 

 

 

Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play Multi-Character Belief Tracker

 

Theory of Mind (ToM)$\unicode{x2014}$the ability to reason about the mental states of other people$\unicode{x2014}$is a key element of our social intelligence. Yet, despite their ever more impressive performance, large-scale neural language models still lack basic theory of mind capabilities out-of-the-box. We posit that simply scaling up models will not imbue them with theory of mind due to the inherently symbolic and implicit nature of the phenomenon, and instead investigate an alternative: can we design a decoding-time algorithm that enhances theory of mind of off-the-shelf neural language models without explicit supervision? We present SymbolicToM, a plug-and-play approach to reason about the belief states of multiple characters in reading comprehension tasks via explicit symbolic representation. More concretely, our approach tracks each entity's beliefs, their estimation of other entities' beliefs, and higher-order levels of reasoning, all through graphical representations, allowing for more precise and interpretable reasoning than previous approaches. Empirical results on the well-known ToMi benchmark (Le et al., 2019) demonstrate that SymbolicToM dramatically enhances off-the-shelf neural networks' theory of mind in a zero-shot setting while showing robust out-of-distribution performance compared to supervised baselines. Our work also reveals spurious patterns in existing theory of mind benchmarks, emphasizing the importance of out-of-distribution evaluation and methods that do not overfit a particular dataset.

 

마음의 이론(ToM)$\unicode{x2014}$ 정신에 대해 추론하는 능력 다른 사람들의 상태는 우리 사회의 핵심 요소이다 지성. 그러나 그 어느 때보다 인상적인 성능에도 불구하고 대규모의 신경 언어 모델은 여전히 마음의 능력에 대한 기본 이론이 부족하다 기성품의. 우리는 단순히 모델을 확장하는 것이 그들에게 영향을 미치지 않을 것이라고 주장한다 본질적으로 상징적이고 암묵적인 성격 때문에 마음의 이론 현상, 그리고 대신 대안을 조사한다: 우리가 설계할 수 있는가 기성 신경의 마음 이론을 향상시키는 디코딩 시간 알고리즘 명확한 감독 없이 언어 모델? 우리는 심볼릭 ToM, a를 제시한다 여러 캐릭터의 신념 상태에 대한 추론에 대한 플러그 앤 플레이 접근법 명확한 상징적 표현을 통해 이해 과제를 읽을 때. 더 구체적으로, 우리의 접근 방식은 각 주체의 신념, 그들의 추정을 추적한다 다른 실체의 믿음, 그리고 고차적인 수준의 추론, 모든 것 보다 정확하고 해석 가능한 그래픽 표현 이전 접근 방식보다 추론. 잘 알려진 TMI에 대한 경험적 결과 벤치마크(Le et al., 2019)는 SymbolicToM이 극적으로 향상된다는 것을 보여준다 제로샷 환경에서 기성 신경망의 마음 이론은 반면에 감독된 것과 비교하여 강력한 유통 외 성과를 보여줍니다 기준선. 우리의 연구는 또한 기존의 마음 이론에서 거짓된 패턴을 드러낸다 유통 외 평가의 중요성을 강조하는 벤치마크 특정 데이터 집합에 지나치게 적합하지 않은 방법. 

 

 

Differentiable Tree Operations Promote Compositional Generalization

 

In the context of structure-to-structure transformation tasks, learning sequences of discrete symbolic operations poses significant challenges due to their non-differentiability. To facilitate the learning of these symbolic sequences, we introduce a differentiable tree interpreter that compiles high-level symbolic tree operations into subsymbolic matrix operations on tensors. We present a novel Differentiable Tree Machine (DTM) architecture that integrates our interpreter with an external memory and an agent that learns to sequentially select tree operations to execute the target transformation in an end-to-end manner. With respect to out-of-distribution compositional generalization on synthetic semantic parsing and language generation tasks, DTM achieves 100% while existing baselines such as Transformer, Tree Transformer, LSTM, and Tree2Tree LSTM achieve less than 30%. DTM remains highly interpretable in addition to its perfect performance.

 

구조 대 구조 변환 과제의 맥락에서, 학습 이산 기호 작업의 시퀀스는 다음과 같은 중요한 과제를 제기한다 그들의 비차별성. 이러한 상징성의 학습을 용이하게 하기 위해 시퀀스, 우리는 컴파일하는 차별화 가능한 트리 인터프리터를 소개한다 하위 심볼릭 매트릭스 연산에 대한 높은 수준의 심볼릭 트리 연산 텐서. 우리는 다음과 같은 새로운 DTM(Differentable Tree Machine) 아키텍처를 제시한다 우리의 통역기를 외부 메모리와 통합하고, 그것을 배우는 에이전트 대상 변환을 실행할 트리 작업을 순차적으로 선택합니다 철저한 태도. 분포 외 성분과 관련하여 합성 의미 구문 분석 및 언어 생성 작업에 대한 일반화, DTM Transformer, Tree Transformer, Tree Transformer와 같은 기존 기준선을 사용하여 100% 달성, LSTM 및 Tree2Tree LSTM은 30% 미만을 달성하며 DTM은 높은 수준을 유지합니다 완벽한 성능에 더해 해석이 가능합니다. 

 

 

반응형

댓글