본문 바로가기
오늘의 자연어 처리

[2023-07-05] 오늘의 자연어처리

by 지환이아빠 2023. 7. 5.
반응형

Analyzing Multiple-Choice Reading and Listening Comprehension Tests

 

Multiple-choice reading and listening comprehension tests are an important part of language assessment. Content creators for standard educational tests need to carefully curate questions that assess the comprehension abilities of candidates taking the tests. However, recent work has shown that a large number of questions in general multiple-choice reading comprehension datasets can be answered without comprehension, by leveraging world knowledge instead. This work investigates how much of a contextual passage needs to be read in multiple-choice reading based on conversation transcriptions and listening comprehension tests to be able to work out the correct answer. We find that automated reading comprehension systems can perform significantly better than random with partial or even no access to the context passage. These findings offer an approach for content creators to automatically capture the trade-off between comprehension and world knowledge required for their proposed questions.

 

객관식 독해와 듣기 시험은 중요하다 언어 평가의 일부. 표준 교육 테스트를 위한 콘텐츠 작성자 이해 능력을 평가하는 질문을 신중하게 큐레이팅할 필요가 있다 시험을 보는 지원자들. 그러나 최근의 연구는 많은 수가 일반적인 객관식 읽기 이해 데이터 세트의 질문 중에서 다음과 같은 것이 될 수 있다 대신에 세계 지식을 활용함으로써 이해하지 못한 채 대답했다. 이것. 작업은 문맥적인 구절을 얼마나 읽어야 하는지 조사한다 대화 기록과 듣기에 기초한 객관식 읽기 정답을 맞출 수 있는 이해력 테스트. 우리는 그것을 발견한다 자동 독해 시스템은 훨씬 더 잘 수행할 수 있다 문맥 통로에 부분적으로 또는 심지어 접근하지 않는 무작위. 이러한 결과 콘텐츠 제작자가 자동으로 절충점을 포착할 수 있는 접근 방식을 제공합니다 그들의 제안에 필요한 이해와 세계 지식 사이에서 문의사항. 

 

 

TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on the Tensor-Train Decomposition

 

High-dimensional token embeddings underpin Large Language Models (LLMs), as they can capture subtle semantic information and significantly enhance the modelling of complex language patterns. However, the associated high dimensionality also introduces considerable model parameters, and a prohibitively high model storage. To address this issue, this work proposes an approach based on the Tensor-Train Decomposition (TTD), where each token embedding is treated as a Matrix Product State (MPS) that can be efficiently computed in a distributed manner. The experimental results on GPT-2 demonstrate that, through our approach, the embedding layer can be compressed by a factor of up to 38.40 times, and when the compression factor is 3.31 times, even produced a better performance than the original GPT-2 model.

 

고차원 토큰 임베딩은 LLM(Large Language Models)을 뒷받침합니다 그들은 미묘한 의미 정보를 포착할 수 있고 현저하게 향상시킬 수 있다 복잡한 언어 패턴의 모델링. 그러나, 관련 높은 수치 차원성은 또한 상당한 모델 매개변수를 도입하고 엄청나게 높은 모델 스토리지. 이 문제를 해결하기 위해, 이 연구는 다음을 제안한다 텐서-트레인 분해(TTD)에 기반한 접근법, 여기서 각 토큰 임베딩은 효율적으로 처리될 수 있는 MPS(Matrix Product State)로 처리됩니다 분산 방식으로 계산됩니다. GPT-2에 대한 실험 결과는 다음과 같다 우리의 접근법을 통해, 임베딩 레이어는 요인에 의해 압축될 수 있다 최대 38.40배, 압축 계수가 3.31배일 때 조차도 기존의 GPT-2 모델보다 더 나은 성능을 생산했다. 

 

 

Mining Clues from Incomplete Utterance: A Query-enhanced Network for Incomplete Utterance Rewriting

 

Incomplete utterance rewriting has recently raised wide attention. However, previous works do not consider the semantic structural information between incomplete utterance and rewritten utterance or model the semantic structure implicitly and insufficiently. To address this problem, we propose a QUEry-Enhanced Network (QUEEN). Firstly, our proposed query template explicitly brings guided semantic structural knowledge between the incomplete utterance and the rewritten utterance making model perceive where to refer back to or recover omitted tokens. Then, we adopt a fast and effective edit operation scoring network to model the relation between two tokens. Benefiting from proposed query template and the well-designed edit operation scoring network, QUEEN achieves state-of-the-art performance on several public datasets.

 

불완전한 발화 개서는 최근에 광범위한 관심을 불러일으켰다. 하지만, 이전 연구들은 사이의 의미론적 구조 정보를 고려하지 않는다 불완전한 발화 및 재작성된 발화 또는 의미 구조 모델링 암묵적으로나 불충분하게. 이 문제를 해결하기 위해, 우리는 다음을 제안한다 QUEST-향상된 네트워크(QUEEN). 먼저, 우리가 제안한 쿼리 템플릿은 명시적으로 불완전한 발화 사이에 안내된 의미론적 구조 지식을 가져온다 그리고 다시 작성된 발화 모델은 어디를 다시 참조해야 하는지 인식하게 하거나 누락된 토큰을 회수하다. 그런 다음 빠르고 효과적인 편집 작업을 채택합니다 두 토큰 간의 관계를 모델링하는 스코어링 네트워크. 혜택 받기 제안된 쿼리 템플릿과 잘 설계된 편집 작업 채점 네트워크, QUEEN은 여러 공개 데이터 세트에서 최첨단 성능을 달성한다. 

 

 

반응형

댓글