본문 바로가기
오늘의 자연어 처리

[2023-05-03] 오늘의 자연어처리

by 지환이아빠 2023. 5. 3.
반응형

Automated Paper Screening for Clinical Reviews Using Large Language Models

 

Objective: To assess the performance of the OpenAI GPT API in accurately and efficiently identifying relevant titles and abstracts from real-world clinical review datasets and compare its performance against ground truth labelling by two independent human reviewers. Methods: We introduce a novel workflow using the OpenAI GPT API for screening titles and abstracts in clinical reviews. A Python script was created to make calls to the GPT API with the screening criteria in natural language and a corpus of title and abstract datasets that have been filtered by a minimum of two human reviewers. We compared the performance of our model against human-reviewed papers across six review papers, screening over 24,000 titles and abstracts. Results: Our results show an accuracy of 0.91, a sensitivity of excluded papers of 0.91, and a sensitivity of included papers of 0.76. On a randomly selected subset of papers, the GPT API demonstrated the ability to provide reasoning for its decisions and corrected its initial decision upon being asked to explain its reasoning for a subset of incorrect classifications. Conclusion: The GPT API has the potential to streamline the clinical review process, save valuable time and effort for researchers, and contribute to the overall quality of clinical reviews. By prioritizing the workflow and acting as an aid rather than a replacement for researchers and reviewers, the GPT API can enhance efficiency and lead to more accurate and reliable conclusions in medical research.

 

목표: OpenAI GPT API의 성능을 부정확하게 평가하기 위해 실제 임상에서 관련 제목과 요약을 효율적으로 식별 데이터 세트를 검토하고 그 성능을 실제 라벨링과 비교한다 두 명의 독립적인 인간 평론가. 방법: 선별을 위해 OpenAI GPT API를 사용하는 새로운 워크플로우를 소개한다 임상 검토에서 제목과 요약. Python 스크립트는 다음을 만들기 위해 만들어졌다 자연어로 된 심사 기준과 함께 GPT API에 대한 호출 및 최소로 필터링된 제목 및 추상 데이터 세트의 코퍼스 인간 평론가 두 사람. 우리는 우리 모델의 성능을 비교했다 6개의 리뷰 논문에 걸쳐 24,000개 이상의 제목을 선별하여 인간이 만든 논문 그리고 추상화. 결과: 우리의 결과는 0.91의 정확도, 제외된 민감도를 보여준다 0.91의 논문과 0.76의 논문을 포함한 논문의 민감도. 무작위로 선택된 논문의 하위 집합, GPT API는 제공하는 능력을 보여주었다 그것의 결정에 대한 추론과 요청을 받자마자 그것의 초기 결정을 수정했다 잘못된 분류의 하위 집합에 대한 추론을 설명한다. 결론: GPT API는 임상 검토를 간소화할 수 있는 잠재력을 가지고 있다 과정, 연구자들을 위한 귀중한 시간과 노력을 절약하고, 그리고 기여한다 임상 검토의 전반적인 품질. 워크플로우의 우선순위를 지정하고 다음과 같은 작업을 수행합니다 GPT API는 연구자와 검토자를 대체하는 것이 아니라 도움이 될 수 있다 효율성을 향상시키고 보다 정확하고 신뢰할 수 있는 결론으로 이끈다 의학 연구. 

 

 

Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding

 

We propose an effective prompting approach that integrates self-evaluation guidance through stochastic beam search. Our approach explores the reasoning search space using a well-calibrated automatic criterion. This enables an efficient search to produce higher-quality final predictions. With the self-evaluation guided stochastic beam search, we also balance the quality--diversity trade-off in the generation of reasoning chains. This allows our approach to adapt well with majority voting and surpass the corresponding Codex-backboned baselines by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQUA, and StrategyQA benchmarks, respectively, in few-shot accuracy. Analysis of our decompositional reasoning finds it pinpoints logic failures and leads to higher consistency and robustness.

 

우리는 자체 평가를 통합하는 효과적인 촉진 접근 방식을 제안한다 확률적 빔 탐색을 통한 안내. 우리의 접근 방식은 추론을 탐구한다 잘 설명된 자동 기준을 사용하여 공간을 검색합니다. 이렇게 하면 다음을 가능하게 됩니다 효율적인 검색을 통해 고품질의 최종 예측을 생성할 수 있습니다. 와 함께 자체 평가 안내 확률적 빔 검색, 우리는 또한 균형을 맞춘다 품질--추론 체인 생성에서 균형을 유지합니다. 이것은 허용된다 다수결로 잘 적응하고 그에 상응하는 것을 능가하는 우리의 접근법 Codex는 GSM8K에서 $6.34\%, $9.56\%, $5.46\% 기준을 기반으로 한다, AQUA 및 전략각각 퓨샷 정확도의 QA 벤치마크. 분석. 우리의 분해적 추론의 그것이 논리적 실패를 꼬집고 유도한다는 것을 발견했다 더 높은 일관성과 견고성. 

 

 

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds

 

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries, and the accompanying CryCeleb 2023 task - a public speaker verification challenge based on infant cry sounds. We release for academic usage more than 6 hours of manually segmented cry sounds from 786 newborns to encourage research in infant cry analysis.

 

이 논문은 Ubenwa CryCeleb 데이터 세트에 대해 설명한다 - 레이블이 지정된 모음 유아 울음소리, 그리고 그에 수반되는 CryCeleb 2023 과제 - 공개 연사 유아 울음소리를 기반으로 한 검증 문제. 우리는 학업을 위해 석방한다 786명의 신생아부터 6시간 이상 수동으로 분할된 울음소리 사용 유아 울음소리 분석 연구를 장려하다. 

 

 

반응형

댓글