본문 바로가기
오늘의 자연어 처리

[2023-08-29] 오늘의 자연어처리

by 지환이아빠 2023. 8. 29.
반응형

Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers

 

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers swells quadratically with the input sequence length. To alleviate the complexity of long-sequence processing, we propose a simple framework to enable the offthe-shelf pre-trained transformers to process much longer sequences, while the computation and memory costs remain growing linearly with the input sequence lengths. More specifically, our method divides each long-sequence input into a batch of chunks, then aligns the interchunk information during the encoding steps, and finally selects the most representative hidden states from the encoder for the decoding process. To extract inter-chunk semantic information, we align the start and end token embeddings among chunks in each encoding transformer block. To learn an effective hidden selection policy, we design a dual updating scheme inspired by reinforcement learning, which regards the decoders of transformers as environments, and the downstream performance metrics as the rewards to evaluate the hidden selection actions. Our empirical results on real-world long-text summarization and reading comprehension tasks demonstrate effective improvements compared to prior longsequence processing baselines.

 

자연어 처리에서는 지배적이지만, 트랜스포머 기반 모델 긴 시퀀스 처리 작업으로 인해 여전히 도전을 받고 있습니다 변압기에서 자가 주의 작동의 계산 비용 증가 입력 시퀀스 길이를 사용하여 2차적으로 입력합니다. 의 복잡성을 완화하기 위해 긴 시퀀스 처리, 우리는 다음을 가능하게 하는 간단한 프레임워크를 제안한다 훨씬 더 긴 시퀀스를 처리하기 위해 기성품에서 미리 훈련된 변압기 계산 및 메모리 비용은 입력에 따라 선형적으로 증가합니다 수열 길이. 보다 구체적으로, 우리의 방법은 각 긴 시퀀스를 분할한다 한 묶음의 청크에 입력한 다음, 청크 사이의 정보를 정렬합니다 인코딩 단계, 그리고 최종적으로 가장 대표적인 숨겨진 상태를 선택한다 디코딩 프로세스의 인코더입니다. 청크 간 시맨틱을 추출하는 방법 정보, 우리는 각 청크의 시작과 끝 토큰 임베딩을 정렬한다 암호화 변환기 블록입니다. 효과적인 숨겨진 선택 정책을 배우기 위해, 우리는 강화 학습에 의해 영감을 받은 이중 업데이트 계획을 설계한다 환경으로서의 트랜스포머의 디코더와 다운스트림 성능 메트릭은 숨겨진 선택 작업을 평가하는 보상입니다. 우리의 경험적인 실제 장문 텍스트 요약 및 읽기 이해 과제에 대한 결과 이전의 긴 시퀀스 처리에 비해 효과적인 개선 입증 기준선. 

 

 

Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers

 

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers swells quadratically with the input sequence length. To alleviate the complexity of long-sequence processing, we propose a simple framework to enable the offthe-shelf pre-trained transformers to process much longer sequences, while the computation and memory costs remain growing linearly with the input sequence lengths. More specifically, our method divides each long-sequence input into a batch of chunks, then aligns the interchunk information during the encoding steps, and finally selects the most representative hidden states from the encoder for the decoding process. To extract inter-chunk semantic information, we align the start and end token embeddings among chunks in each encoding transformer block. To learn an effective hidden selection policy, we design a dual updating scheme inspired by reinforcement learning, which regards the decoders of transformers as environments, and the downstream performance metrics as the rewards to evaluate the hidden selection actions. Our empirical results on real-world long-text summarization and reading comprehension tasks demonstrate effective improvements compared to prior longsequence processing baselines.

 

자연어 처리에서는 지배적이지만, 트랜스포머 기반 모델 긴 시퀀스 처리 작업으로 인해 여전히 도전을 받고 있습니다 변압기에서 자가 주의 작동의 계산 비용 증가 입력 시퀀스 길이를 사용하여 2차적으로 입력합니다. 의 복잡성을 완화하기 위해 긴 시퀀스 처리, 우리는 다음을 가능하게 하는 간단한 프레임워크를 제안한다 훨씬 더 긴 시퀀스를 처리하기 위해 기성품에서 미리 훈련된 변압기 계산 및 메모리 비용은 입력에 따라 선형적으로 증가합니다 수열 길이. 보다 구체적으로, 우리의 방법은 각 긴 시퀀스를 분할한다 한 묶음의 청크에 입력한 다음, 청크 사이의 정보를 정렬합니다 인코딩 단계, 그리고 최종적으로 가장 대표적인 숨겨진 상태를 선택한다 디코딩 프로세스의 인코더입니다. 청크 간 시맨틱을 추출하는 방법 정보, 우리는 각 청크의 시작과 끝 토큰 임베딩을 정렬한다 암호화 변환기 블록입니다. 효과적인 숨겨진 선택 정책을 배우기 위해, 우리는 강화 학습에 의해 영감을 받은 이중 업데이트 계획을 설계한다 환경으로서의 트랜스포머의 디코더와 다운스트림 성능 메트릭은 숨겨진 선택 작업을 평가하는 보상입니다. 우리의 경험적인 실제 장문 텍스트 요약 및 읽기 이해 과제에 대한 결과 이전의 긴 시퀀스 처리에 비해 효과적인 개선 입증 기준선. 

 

 

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research

 

Recently, there has been growing interest in using Large Language Models (LLMs) for scientific research. Numerous benchmarks have been proposed to evaluate the ability of LLMs for scientific research. However, current benchmarks are mostly based on pre-collected objective questions. This design suffers from data leakage problem and lacks the evaluation of subjective Q/A ability. In this paper, we propose SciEval, a comprehensive and multi-disciplinary evaluation benchmark to address these issues. Based on Bloom's taxonomy, SciEval covers four dimensions to systematically evaluate scientific research ability. In particular, we design a "dynamic" subset based on scientific principles to prevent evaluation from potential data leakage. Both objective and subjective questions are included in SciEval. These characteristics make SciEval a more effective benchmark for scientific research ability evaluation of LLMs. Comprehensive experiments on most advanced LLMs show that, although GPT-4 achieves SOTA performance compared to other LLMs, there is still substantial room for improvement, especially for dynamic questions. The data and codes are now publicly available.

 

최근에, 큰 언어 모델을 사용하는 것에 대한 관심이 증가하고 있다 과학적 연구를 위해 (LLMs). 수많은 벤치마크가 제안되었습니다 과학 연구를 위한 LLM의 능력을 평가한다. 그러나 현재 벤치마크는 대부분 사전 진단된 객관적 질문에 기초한다. 이 디자인 데이터 유출 문제가 있고 주관적인 Q/A 평가가 부족합니다 능력. 본 논문에서, 우리는 종합적인 그리고 이러한 문제를 해결하기 위한 다양한 분야의 평가 벤치마크. 에 기반을 둔 Bloom의 분류 체계인 SciEval은 체계적으로 평가하기 위해 4가지 차원을 다룬다 과학적 연구 능력. 특히, 우리는 "동적인" 부분 집합을 기반으로 설계한다 잠재적인 데이터 유출로부터 평가를 방지하기 위한 과학적 원칙에 대해 설명합니다. SciEval에는 객관적인 질문과 주관적인 질문이 모두 포함되어 있습니다. 이것들 특성이 SciEval을 과학 연구의 보다 효과적인 벤치마크로 만든다 LLM의 능력 평가. 대부분의 고급 LLM에 대한 종합적인 실험 GPT-4가 다른 LLM에 비해 SOTA 성능을 달성하지만, 특히 역동성을 위해 여전히 상당한 개선의 여지가 있다 문의사항. 데이터와 코드는 이제 공개적으로 사용할 수 있습니다. 

 

 

반응형

댓글