본문 바로가기
오늘의 자연어 처리

[2023-04-03] 오늘의 자연어처리

by 지환이아빠 2023. 4. 3.
반응형

DERA: Enhancing Large Language Model Completions with Dialog-Enabled Resolving Agents

 

Large language models (LLMs) have emerged as valuable tools for many natural language understanding tasks. In safety-critical applications such as healthcare, the utility of these models is governed by their ability to generate outputs that are factually accurate and complete. In this work, we present dialog-enabled resolving agents (DERA). DERA is a paradigm made possible by the increased conversational abilities of LLMs, namely GPT-4. It provides a simple, interpretable forum for models to communicate feedback and iteratively improve output. We frame our dialog as a discussion between two agent types - a Researcher, who processes information and identifies crucial problem components, and a Decider, who has the autonomy to integrate the Researcher's information and makes judgments on the final output. We test DERA against three clinically-focused tasks. For medical conversation summarization and care plan generation, DERA shows significant improvement over the base GPT-4 performance in both human expert preference evaluations and quantitative metrics. In a new finding, we also show that GPT-4's performance (70%) on an open-ended version of the MedQA question-answering (QA) dataset (Jin et al. 2021, USMLE) is well above the passing level (60%), with DERA showing similar performance. We release the open-ended MEDQA dataset at this https URL.

 

대규모 언어 모델(LLM)은 많은 자연인을 위한 귀중한 도구로 등장했다 언어 이해 작업. 다음과 같은 안전에 중요한 애플리케이션에서 의료, 이러한 모델의 효용성은 그들의 능력에 의해 통제된다 실제로 정확하고 완전한 출력을 생성합니다. 이 작품에서 우리는 대화 상자 지원 해결 에이전트(DERA)를 제공합니다. DERA는 만들어진 패러다임이다 LLM의 증가된 대화 능력, 즉 GPT-4에 의해 가능하다. 그것 모델이 피드백을 전달할 수 있도록 단순하고 해석 가능한 포럼을 제공합니다 생산량을 반복적으로 개선하다. 우리는 우리의 대화를 둘 사이의 토론으로 구성한다 에이전트 유형 - 정보를 처리하고 중요한 정보를 식별하는 연구자 문제 구성 요소, 그리고 통합을 위한 자율권을 가진 결정자 연구자의 정보와 최종 산출물에 대한 판단을 내린다. 우리는 DERA를 임상적으로 초점을 맞춘 세 가지 작업에 대해 테스트한다. 의학적인 대화를 위해 요약 및 관리 계획 생성, DERA는 다음에 비해 상당한 개선을 보여준다 인간 전문가 선호도 평가에서 기본 GPT-4 성능 정량적 측정 기준. 새로운 발견에서, 우리는 또한 GPT-4의 성능이 MedQA 질의응답(QA) 데이터 세트의 개방형 버전에서 (70%) (진 외 2021, USMLE)은 DERA와 함께 합격 수준(60%)을 훨씬 상회한다 유사한 성능을 보여줍니다. 우리는 오픈 엔드 MEDQA 데이터 세트를 다음에서 공개한다 이 https URL. 

 

 

Language Models can Solve Computer Tasks

 

Agents capable of carrying out general tasks on a computer can improve efficiency and productivity by automating repetitive tasks and assisting in complex problem-solving. Ideally, such agents should be able to solve new computer tasks presented to them through natural language commands. However, previous approaches to this problem require large amounts of expert demonstrations and task-specific reward functions, both of which are impractical for new tasks. In this work, we show that a pre-trained large language model (LLM) agent can execute computer tasks guided by natural language using a simple prompting scheme where the agent recursively criticizes and improves its output (RCI). The RCI approach significantly outperforms existing LLM methods for automating computer tasks and surpasses supervised learning (SL) and reinforcement learning (RL) approaches on the MiniWoB++ benchmark. RCI is competitive with the state-of-the-art SL+RL method, using only a handful of demonstrations per task rather than tens of thousands, and without a task-specific reward function. Furthermore, we demonstrate RCI prompting's effectiveness in enhancing LLMs' reasoning abilities on a suite of natural language reasoning tasks, outperforming chain of thought (CoT) prompting. We find that RCI combined with CoT performs better than either separately.

 

컴퓨터에서 일반적인 작업을 수행할 수 있는 에이전트는 개선할 수 있습니다 반복 작업을 자동화하고 지원함으로써 효율성과 생산성을 높입니다 복잡한 문제 해결. 이상적으로, 그러한 에이전트는 새로운 문제를 해결할 수 있어야 한다 자연어 명령을 통해 그들에게 제시된 컴퓨터 작업. 하지만, 이 문제에 대한 이전의 접근법은 많은 양의 전문가를 필요로 한다 시연 및 작업별 보상 기능, 둘 다 새로운 작업에는 실용적이지 않습니다. 이 작업에서, 우리는 사전 훈련된 대규모가 언어 모델(LLM) 에이전트는 자연스럽게 안내되는 컴퓨터 작업을 실행할 수 있습니다 에이전트가 재귀적으로 비판하는 간단한 프롬프트 방식을 사용하는 언어 출력(RCI)을 향상시킵니다. RCI 접근 방식이 성능을 크게 능가합니다 컴퓨터 작업을 자동화하기 위한 기존의 LLM 방법과 감독을 능가한다 MiniWoB++에서 학습(SL) 및 강화 학습(RL) 접근 방식 기준으로 삼다. RCI는 최첨단 SL+RL 방법과 경쟁력이 있다 작업당 수만 개가 아닌 소수의 데모만 수행할 수 있습니다 작업별 보상 기능이 없습니다. 게다가, 우리는 RCI를 증명한다 일련의 LLM에서 LLM의 추론 능력을 향상시키는 데 있어 프롬프트의 효과 자연어 추론 작업, 우수한 사고 체계(CoT) 재촉하는. 우리는 CoT와 결합된 RCI가 어느 것보다 더 나은 성능을 보인다는 것을 발견했다 따로따로. 

 

 

Multimodal Image-Text Matching Improves Retrieval-based Chest X-Ray Report Generation

 

Automated generation of clinically accurate radiology reports can improve patient care. Previous report generation methods that rely on image captioning models often generate incoherent and incorrect text due to their lack of relevant domain knowledge, while retrieval-based attempts frequently retrieve reports that are irrelevant to the input image. In this work, we propose Contrastive X-Ray REport Match (X-REM), a novel retrieval-based radiology report generation module that uses an image-text matching score to measure the similarity of a chest X-ray image and radiology report for report retrieval. We observe that computing the image-text matching score with a language-image model can effectively capture the fine-grained interaction between image and text that is often lost when using cosine similarity. X-REM outperforms multiple prior radiology report generation modules in terms of both natural language and clinical metrics. Human evaluation of the generated reports suggests that X-REM increased the number of zero-error reports and decreased the average error severity compared to the baseline retrieval approach. Our code is available at: this https URL

 

임상적으로 정확한 방사선 보고서의 자동 생성으로 개선 가능 환자의 치료. 이미지 캡션에 의존하는 이전 보고서 생성 방법 모델은 종종 그들의 부족으로 인해 일관성이 없고 부정확한 텍스트를 생성한다 검색 기반 시도가 자주 검색되는 동안 관련 도메인 지식 입력 이미지와 관련이 없는 보고서입니다. 이 작업에서, 우리는 제안한다 새로운 검색 기반 방사선학인 대조 X-Ray 보고서 일치(X-REM) 이미지 텍스트 일치 점수를 사용하여 측정하는 보고서 생성 모듈 보고서 검색을 위한 흉부 X선 영상과 방사선 보고서의 유사성. 우리가 언어 이미지를 사용하여 이미지 텍스트 일치 점수를 계산하는 것을 관찰합니다 모델은 이미지와 이미지 사이의 미세한 상호작용을 효과적으로 포착할 수 있다 코사인 유사성을 사용할 때 종종 손실되는 텍스트. X-REM이 성능을 능가합니다 자연적인 측면에서 여러 개의 사전 방사선 보고서 생성 모듈 언어 및 임상 지표. 생성된 보고서에 대한 인적 평가 X-REM은 제로 오류 보고서의 수를 증가시키고 감소시켰음을 시사한다 기준 검색 접근 방식과 비교한 평균 오류 심각도. 우리들의 코드 사용 가능 위치: 이 https URL 

 

 

반응형

댓글