본문 바로가기
오늘의 자연어 처리

[2023-06-18] 오늘의 자연어처리

by 지환이아빠 2023. 6. 18.
반응형

CMMLU: Measuring massive multitask language understanding in Chinese

 

As the capabilities of large language models (LLMs) continue to advance, evaluating their performance becomes increasingly crucial and challenging. This paper aims to bridge this gap by introducing CMMLU, a comprehensive Chinese benchmark that covers various subjects, including natural science, social sciences, engineering, and humanities. We conduct a thorough evaluation of 18 advanced multilingual- and Chinese-oriented LLMs, assessing their performance across different subjects and settings. The results reveal that most existing LLMs struggle to achieve an average accuracy of 50%, even when provided with in-context examples and chain-of-thought prompts, whereas the random baseline stands at 25%. This highlights significant room for improvement in LLMs. Additionally, we conduct extensive experiments to identify factors impacting the models' performance and propose directions for enhancing LLMs. CMMLU fills the gap in evaluating the knowledge and reasoning capabilities of large language models within the Chinese context.

 

대형 언어 모델(LLM)의 기능이 계속 발전함에 따라, 그들의 성과를 평가하는 것은 점점 더 중요해지고 도전적이 된다. 이것. 논문은 포괄적인 중국어인 CMMLU를 도입함으로써 이러한 격차를 줄이는 것을 목표로 한다 자연과학, 사회과학을 포함한 다양한 주제를 다루는 벤치마크 과학, 공학, 인문학. 우리는 18에 대한 철저한 평가를 실시한다 고급 다국어 및 중국어 지향 LLM, 성능 평가 다양한 주제와 설정에 걸쳐. 결과는 대부분의 존재가 LLM은 제공되는 경우에도 평균 50%의 정확도를 달성하기 위해 노력합니다 무작위 기준선이 존재하는 반면, 실제 사례와 생각의 연쇄 프롬프트 25%입니다. 이는 LLM의 상당한 개선 여지를 강조한다. 또한 영향을 미치는 요인을 식별하기 위해 광범위한 실험을 수행한다 모델의 성능 및 LLM 개선을 위한 제안 방향. CMMLU 주입 대규모의 지식과 추론 능력을 평가할 때의 격차 중국어 문맥 내의 언어 모델. 

 

 

Relational Temporal Graph Reasoning for Dual-task Dialogue Language Understanding

 

Dual-task dialog language understanding aims to tackle two correlative dialog language understanding tasks simultaneously via leveraging their inherent correlations. In this paper, we put forward a new framework, whose core is relational temporal graph reasoning.We propose a speaker-aware temporal graph (SATG) and a dual-task relational temporal graph (DRTG) to facilitate relational temporal modeling in dialog understanding and dual-task reasoning. Besides, different from previous works that only achieve implicit semantics-level interactions, we propose to model the explicit dependencies via integrating prediction-level interactions. To implement our framework, we first propose a novel model Dual-tAsk temporal Relational rEcurrent Reasoning network (DARER), which first generates the context-, speaker- and temporal-sensitive utterance representations through relational temporal modeling of SATG, then conducts recurrent dual-task relational temporal graph reasoning on DRTG, in which process the estimated label distributions act as key clues in prediction-level interactions. And the relational temporal modeling in DARER is achieved by relational convolutional networks (RGCNs). Then we further propose Relational Temporal Transformer (ReTeFormer), which achieves fine-grained relational temporal modeling via Relation- and Structure-aware Disentangled Multi-head Attention. Accordingly, we propose DARER with ReTeFormer (DARER2), which adopts two variants of ReTeFormer to achieve the relational temporal modeling of SATG and DTRG, respectively. The extensive experiments on different scenarios verify that our models outperform state-of-the-art models by a large margin. Remarkably, on the dialog sentiment classification task in the Mastodon dataset, DARER and DARER2 gain relative improvements of about 28% and 34% over the previous best model in terms of F1.

 

이중 작업 대화 언어 이해는 두 개의 상관 대화를 다루는 것을 목표로 한다 고유한 기능을 활용하여 동시에 언어 이해 작업을 수행합니다 상관 관계. 이 논문에서, 우리는 핵심이 되는 새로운 프레임워크를 제시했다 관계형 시간 그래프 추론.우리는 화자 인식 시간 그래프를 제안한다 SATG(SATG) 및 DRTG(이중 작업 관계형 시간 그래프)를 사용하면 대화 이해 및 이중 작업 추론에서 관계형 시간 모델링. 게다가, 암시적으로만 성취하는 이전의 작품들과는 다르다 의미론 수준의 상호 작용, 우리는 명시적 의존성을 모델링할 것을 제안한다 예측 수준 교호작용을 통합합니다. 우리의 프레임워크를 구현하기 위해, 우리는 먼저 새로운 모델 이중 작업 시간 관계적 reCurrent 추론 네트워크를 제안한다 (DARARER)는 먼저 문맥, 화자 및 시간에 민감한 정보를 생성한다 SATG의 관계형 시간 모델링을 통한 발화 표현, 그 다음 DRTG에서 반복적인 이중 작업 관계형 시간 그래프 추론을 수행한다 추정된 라벨 분포가 핵심 단서로 작용하는 프로세스 예측 수준 교호작용입니다. 그리고 DARER의 관계적 시간 모델링은 관계형 컨볼루션 네트워크(RGCN)에 의해 달성된다. 그런 다음 우리는 더 제안한다 세분화를 달성하는 관계형 시간 변환기(ReTeFormer) 관계 인식 및 구조 인식 분리를 통한 관계 시간 모델링 다중 헤드 주의. 따라서, 우리는 ReTeFormer(DARER2)와 함께 DARER를 제안한다, 관계적 시간을 달성하기 위해 ReTeFormer의 두 가지 변형을 채택한다 각각 SATG와 DTRG의 모델링. 서로 다른 것에 대한 광범위한 실험 시나리오는 우리 모델이 최첨단 모델보다 성능이 뛰어나다는 것을 검증한다 마진. 놀랍게도, 마스토돈의 대화 감정 분류 작업에서 데이터 세트, DARER 및 DARER2는 약 28% 및 34%의 상대적 개선 효과를 얻는다 F1 면에서 이전 최고의 모델. 

 

 

Mapping Researcher Activity based on Publication Data by means of Transformers

 

Modern performance on several natural language processing (NLP) tasks has been enhanced thanks to the Transformer-based pre-trained language model BERT. We employ this concept to investigate a local publication database. Research papers are encoded and clustered to form a landscape view of the scientific topics, in which research is active. Authors working on similar topics can be identified by calculating the similarity between their papers. Based on this, we define a similarity metric between authors. Additionally we introduce the concept of self-similarity to indicate the topical variety of authors.

 

여러 자연어 처리(NLP) 작업에 대한 현대적인 성능은 다음과 같다 트랜스포머 기반의 사전 훈련된 언어 모델 BERT 덕분에 향상되었다. 우리는 지역 출판 데이터베이스를 조사하기 위해 이 개념을 사용한다. 조사. 논문들은 과학의 경관을 형성하기 위해 암호화되고 군집화된다 연구가 활발한 주제들. 유사한 주제로 작업하는 저자는 다음과 같을 수 있다 그들의 논문들 사이의 유사성을 계산함으로써 식별된다. 이것을 바탕으로, 우리는 저자들 사이의 유사성 메트릭을 정의한다. 추가로 우리는 그것을 소개한다 저자의 주제적 다양성을 나타내는 자기 유사성의 개념. 

 

 

반응형

댓글