본문 바로가기
오늘의 자연어 처리

[2023-06-07] 오늘의 자연어처리

by 지환이아빠 2023. 6. 7.
반응형

Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset

 

Recent advancements in large language models (LLMs) have transformed the field of question answering (QA). However, evaluating LLMs in the medical field is challenging due to the lack of standardized and comprehensive datasets. To address this gap, we introduce CMExam, sourced from the Chinese National Medical Licensing Examination. CMExam consists of 60K+ multiple-choice questions for standardized and objective evaluations, as well as solution explanations for model reasoning evaluation in an open-ended manner. For in-depth analyses of LLMs, we invited medical professionals to label five additional question-wise annotations, including disease groups, clinical departments, medical disciplines, areas of competency, and question difficulty levels. Alongside the dataset, we further conducted thorough experiments with representative LLMs and QA algorithms on CMExam. The results show that GPT-4 had the best accuracy of 61.5% and a weighted F1 score of 0.616. These results highlight a great disparity when compared to human accuracy, which stood at 71.6%. For explanation tasks, while LLMs could generate relevant reasoning and demonstrate improved performance after finetuning, they fall short of a desired standard, indicating ample room for improvement. To the best of our knowledge, CMExam is the first Chinese medical exam dataset to provide comprehensive medical annotations. The experiments and findings of LLM evaluation also provide valuable insights into the challenges and potential solutions in developing Chinese medical QA systems and LLM evaluation pipelines. The dataset and relevant code are available at this https URL.

 

최근 대형 언어 모델(LLM)의 발전은 다음과 같은 변화를 가져왔다 질문 답변(QA) 필드입니다. 단, 의료분야에서의 LLM 평가 표준화되고 포괄적인 데이터셋이 없기 때문에 어려운 문제입니다. 로. 이 격차를 해결하기 위해, 우리는 중국 국립에서 제공하는 CME 시험을 소개한다 의료 면허 시험. CME 시험은 60K 이상의 선다형으로 구성됩니다 표준화되고 객관적인 평가와 솔루션을 위한 질문 개방형 방식의 모델 추론 평가를 위한 설명. 위해서 LLM에 대한 심층 분석, 우리는 의료 전문가들을 초대하여 라벨 5를 지정했다 질병 그룹, 임상 기록을 포함한 추가 질문별 주석 부서, 의학 분야, 역량 영역 및 질문 난이도 데이터 세트와 함께, 우리는 더 철저한 실험을 수행했다 CME 시험의 대표적인 LLM 및 QA 알고리즘. 결과는 GPT-4가 61.5%의 최고 정확도와 0.616의 가중 F1 점수를 받았다. 이 결과들 인간의 정확성과 비교했을 때 큰 차이를 강조하다 71.6%. 설명 과제의 경우 LLM은 관련 추론을 생성할 수 있으며 미세 조정 후 향상된 성능을 보여주며, 원하는 성능에 미치지 못합니다 표준, 개선의 여지가 충분함을 나타냅니다. 우리가 아는 한, CMEx는 종합적으로 제공하는 최초의 중국 의학 검사 데이터 세트입니다 의학 주석. LLM 평가의 실험과 결과 또한 의 도전과 잠재적인 해결책에 대한 귀중한 통찰력을 제공한다 중국 의료 QA 시스템 및 LLM 평가 파이프라인 개발. 데이터 세트 및 관련 코드는 이 https URL에서 확인할 수 있습니다. 

 

 

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

 

We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike previous vision- LLMs that focus on static image comprehensions such as MiniGPT-4~\citep{zhu2023minigpt} and LLaVA~\citep{liu2023visualit}, Video-LLaMA tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. For the first challenge, we propose Video Q-former to extend the pre-trained image encoder to a video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind~\citep{girdhar2023imagebind} as the pre-trained audio encoder which performs exceptionally well in aligning different modalities to a common embedding space. And then introduce an Audio Q-former to learn auditory query tokens. To align the output of both visual \& audio encoder with LLM's embedding space, we train Video-LLaMA on a large-scale vision caption dataset and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information present in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants. Our code, pre-trained model, and demo are available at \url{this https URL}.

 

우리는 Large Language를 강화하는 다중 모드 프레임워크인 Video-LLAMA를 제시한다 시각 및 청각을 모두 이해할 수 있는 모델(LLM) 영상에 있는 내용. Video-LLAMA 부트스트랩 교차 모달 교육 동결된 사전 훈련된 시각적 \& 오디오 인코더와 동결된 LLM. 와는 달리 이전 비전 - 다음과 같은 정적 이미지 이해에 초점을 맞춘 LLM MiniGPT-4~\citep{zhu2023minigpt} 및 LLaVA~\citep{liu2023 visualit}, Video-LLAMA 비디오 이해의 두 가지 과제를 해결한다: (1) 시간적 캡처 시각적 장면의 변화, (2) 시청각 신호 통합. 처음으로 도전, 우리는 사전 훈련된 이미지 인코더를 확장하기 위해 비디오 Q-former를 제안한다 비디오 인코더 및 학습할 비디오-텍스트 생성 작업 소개 영상 언어 통신. 두 번째 과제는 다음과 같습니다 ImageBind ~\citep{girdhar2023 imagebind}를 사전 훈련된 오디오 인코더로 사용합니다 서로 다른 양식을 공통된 양식에 맞추는 데 있어 탁월한 성능을 발휘합니다 매립 공간. 그런 다음 오디오 Q-former를 소개하여 청각 쿼리를 학습합니다 토큰. 시각적 \& 오디오 인코더의 출력을 LLM의 출력에 맞추려면 공간을 포함하여 대규모 비전 캡션 데이터 세트에서 Video-LLAMA를 훈련한다 그리고 높은 수준의 비전-명령-튜닝 데이터 세트. Video-LLAMA를 찾았습니다 비디오 콘텐츠를 인식하고 이해하는 능력을 보여주며, 생성한다 시각 및 청각 정보에 근거한 의미 있는 응답 영상으로 보여줍니다. 이것은 Video-LLAMA의 가능성을 강조한다 시청각 AI 비서들을 위한 유망한 프로토타입. 우리의 코드는, 우리의 코드 모델 및 데모는 다음 사이트에서 사용할 수 있습니다 \url{이 https URL}. 

 

 

Enhancing Language Representation with Constructional Information for Natural Language Understanding

 

Natural language understanding (NLU) is an essential branch of natural language processing, which relies on representations generated by pre-trained language models (PLMs). However, PLMs primarily focus on acquiring lexico-semantic information, while they may be unable to adequately handle the meaning of constructions. To address this issue, we introduce construction grammar (CxG), which highlights the pairings of form and meaning, to enrich language representation. We adopt usage-based construction grammar as the basis of our work, which is highly compatible with statistical models such as PLMs. Then a HyCxG framework is proposed to enhance language representation through a three-stage solution. First, all constructions are extracted from sentences via a slot-constraints approach. As constructions can overlap with each other, bringing redundancy and imbalance, we formulate the conditional max coverage problem for selecting the discriminative constructions. Finally, we propose a relational hypergraph attention network to acquire representation from constructional information by capturing high-order word interactions among constructions. Extensive experiments demonstrate the superiority of the proposed model on a variety of NLU tasks.

 

자연어 이해(NLU)는 자연의 필수적인 부분이다 사전 훈련을 통해 생성된 표현에 의존하는 언어 처리 언어 모델(PLM). 그러나 PLM은 주로 데이터 수집에 중점을 둡니다 사전 편집 정보는 적절하게 처리할 수 없지만 구조의 의미. 이 문제를 해결하기 위해, 우리는 건설을 소개한다 문법(CxG)은 형태와 의미의 쌍을 강조하여 풍부하게 한다 언어 표현. 우리는 사용 기반 구성 문법을 기본으로 채택한다 PLM과 같은 통계 모델과 매우 호환되는 우리 작업의. 그런 다음 HyCxG 프레임워크는 다음을 통해 언어 표현을 향상시키기 위해 제안된다 삼단 용액. 첫째, 모든 구문은 다음을 통해 문장에서 추출된다 슬롯 제약 접근법. 건축물이 서로 겹칠 수 있기 때문에, 중복성과 불균형을 가져오며, 우리는 조건부 최대 적용 범위를 공식화한다 차별적 구조를 선택하기 위한 문제. 마지막으로, 우리는 제안한다 관계형 하이퍼그래프 주의 네트워크에서 표현을 획득합니다 사이의 고차 단어 상호 작용을 캡처하여 구조 정보 건축물. 광범위한 실험들은 그것의 우수성을 증명한다 다양한 NLU 작업에 대해 제안된 모델. 

 

 

반응형

댓글