본문 바로가기
오늘의 자연어 처리

[2023-01-01] 오늘의 자연어처리

by 지환이아빠 2023. 1. 1.
반응형

TextBox 2.0: A Text Generation Library with Pre-trained Language Models

 

To facilitate research on text generation, this paper presents a comprehensive and unified library, TextBox 2.0, focusing on the use of pre-trained language models (PLMs). To be comprehensive, our library covers $13$ common text generation tasks and their corresponding $83$ datasets and further incorporates $45$ PLMs covering general, translation, Chinese, dialogue, controllable, distilled, prompting, and lightweight PLMs. We also implement $4$ efficient training strategies and provide $4$ generation objectives for pre-training new PLMs from scratch. To be unified, we design the interfaces to support the entire research pipeline (from data loading to training and evaluation), ensuring that each step can be fulfilled in a unified way. Despite the rich functionality, it is easy to use our library, either through the friendly Python API or command line. To validate the effectiveness of our library, we conduct extensive experiments and exemplify four types of research scenarios. The project is released at the link: this https URL.

 

텍스트 생성에 대한 연구를 용이하게 하기 위해, 이 논문은 다음을 제시한다. 포괄적이고 통합된 라이브러리, TextBox 2.0, 사용에 초점을 맞춥니다. 사전 훈련된 언어 모델(PLM) 종합적으로 말하자면, 우리 도서관은 $13$ 공통 텍스트 생성 작업과 해당 $83$ 데이터 세트 및 추가로 일반, 번역, 중국어를 포함하는 $45$ PLM을 통합합니다. 대화, 제어 가능, 증류, 프롬프트 및 경량 PLM. 우리는 $4$개의 효율적인 교육 전략을 구현하고 $4$개의 세대를 제공합니다. 새로운 PLM을 처음부터 사전 교육하기 위한 목표. 통합하기 위해, 우리는 전체 연구 파이프라인을 지원하는 인터페이스(데이터 로드에서 교육 및 평가), 각 단계가 통합된 환경에서 수행될 수 있는지 확인합니다. 방법. 풍부한 기능에도 불구하고, 우리의 도서관을 사용하는 것은 또한 쉽다. Python API 또는 명령줄을 사용합니다. 효과를 검증하기 우리의 도서관에서, 우리는 광범위한 실험을 수행하고 4가지 유형의 예를 든다. 연구 시나리오 프로젝트는 다음 링크에서 릴리스됩니다. 이 https URL. 

 

 

Large Language Models Encode Clinical Knowledge

 

Large language models (LLMs) have demonstrated impressive capabilities in natural language understanding and generation, but the quality bar for medical and clinical applications is high. Today, attempts to assess models' clinical knowledge typically rely on automated evaluations on limited benchmarks. There is no standard to evaluate model predictions and reasoning across a breadth of tasks. To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias. In addition, we evaluate PaLM (a 540-billion parameter LLM) and its instruction-tuned variant, Flan-PaLM, on MultiMedQA. Using a combination of prompting strategies, Flan-PaLM achieves state-of-the-art accuracy on every MultiMedQA multiple-choice dataset (MedQA, MedMCQA, PubMedQA, MMLU clinical topics), including 67.6% accuracy on MedQA (US Medical License Exam questions), surpassing prior state-of-the-art by over 17%. However, human evaluation reveals key gaps in Flan-PaLM responses. To resolve this we introduce instruction prompt tuning, a parameter-efficient approach for aligning LLMs to new domains using a few exemplars. The resulting model, Med-PaLM, performs encouragingly, but remains inferior to clinicians. We show that comprehension, recall of knowledge, and medical reasoning improve with model scale and instruction prompt tuning, suggesting the potential utility of LLMs in medicine. Our human evaluations reveal important limitations of today's models, reinforcing the importance of both evaluation frameworks and method development in creating safe, helpful LLM models for clinical applications.

 

LLM(대규모 언어 모델)은 다음과 같은 분야에서 인상적인 기능을 보여주었습니다. 자연어 이해와 생성, 그러나 의료의 질적 기준. 임상적 적용이 높습니다. 오늘날, 모델의 임상을 평가하려는 시도는 지식은 일반적으로 제한된 벤치마크에 대한 자동화된 평가에 의존한다. 거기. 모델 예측과 추론을 평가하기 위한 표준이 아니다. 이 문제를 해결하기 위해, 우리는 6가지를 결합한 벤치마크인 MultiMedQA를 제시한다. 전문적인 의료 검사에 걸친 기존의 공개 질문 답변 데이터 세트, 연구 및 소비자 쿼리, 그리고 새로운 자유 응답 데이터 세트인 HealthSearchQA 온라인에서 검색된 의학적 질문의 수. 우리는 인간을 위한 틀을 제안한다. 사실성을 포함한 여러 축을 따른 모델 답변의 평가 정밀도, 잠재적 위해 및 편향. 또한 PaLM(a)을 평가합니다. 5400억 매개변수 LLM)과 명령어 조정 변종인 플란-PaLM은 다음과 같다. MultiMedQA. 프롬프트 전략의 조합을 사용하여 Flan-PaLM은 달성한다. 모든 MultiMedQA 객관식 데이터 세트(MedQA, MedQA에 대한 67.6%의 정확도를 포함하여 MedMCQA, PubMedQA, MMLU 임상 주제 의료 면허 시험 문제), 이전의 최신 기술을 17% 이상 능가합니다. 그러나 인간 평가는 Flan-PaLM 응답의 주요 격차를 보여준다. 해결하려면 이를 위해 매개 변수 효율적인 접근법인 명령 프롬프트 튜닝을 소개한다. 몇 가지 예를 사용하여 LLM을 새 도메인에 정렬한다. 결과 모델, Med-PaLM은 고무적으로 수행되지만 임상의에 비해 열세입니다. 우리는 보여준다 그 이해, 지식의 회상, 그리고 의학적 추론이 함께 향상된다. 모델 스케일 및 명령 프롬프트 튜닝, 잠재적 유용성 제안 의학의 LLM. 우리의 인간적 평가는 오늘날의 중요한 한계를 드러낸다. 평가 프레임워크와 방법의 중요성을 강화하는 모델 임상 애플리케이션을 위한 안전하고 유용한 LLM 모델을 만드는 개발. 

 

 

The URW-KG: a Resource for Tackling the Underrepresentation of non-Western Writers

 

Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.

 

디지털 미디어는 전례 없는 문학적 지식에 대한 접근을 가능하게 했다. 작가, 독자, 학자들은 이제 증가하는 것을 발견하고 공유할 수 있다. 책과 그 저자들에 대한 정보의 양 그럼에도 불구하고 디지털 기록 보관소는 여전히 불균형하다: 비서구 국가의 작가들은 덜하다. 대표되고, 그러한 조건은 오래된 형태의 영구화로 이어진다. 차별 이 논문에서, 우리는 과소 대표 작가들을 제시한다. 지식 그래프(URW-KG), 탐색 및 수정을 위해 설계된 리소스 작품에 대한 정보를 수집하고 매핑함으로써 이러한 대표성의 부족 Wikidata 및 기타 세 가지 출처: 라이브러리, 좋은 읽기 및 Google Books. KG 임베딩을 기반으로 한 실험은 통합된 것을 보여주었다. 그래프에 암호화된 정보는 학자들과 사용자들이 더 쉽게 할 수 있게 해준다. 위키데이터와 관련하여 서양 이외의 문학작품과 작가들에게 노출된. 단독으로. 이것은 작가를 위한 더 공정하고 효과적인 도구의 개발에 열려있다. 발견과 탐험 

 

 

반응형

댓글