Overview of the BioLaySumm 2023 Shared Task on Lay Summarization of Biomedical Research Articles
Abstract:This paper presents the results of the shared task on Lay Summarisation of Biomedical Research Articles (BioLaySumm), hosted at the BioNLP Workshop at ACL 2023. The goal of this shared task is to develop abstractive summarisation models capable of generating "lay summaries" (i.e., summaries that are comprehensible to non-technical audiences) in both a controllable and non-controllable setting. There are two subtasks: 1) Lay Summarisation, where the goal is for participants to build models for lay summary generation only, given the full article text and the corresponding abstract as input; and 2) Readability-controlled Summarisation, where the goal is for participants to train models to generate both the technical abstract and the lay summary, given an article's main text as input. In addition to overall results, we report on the setup and insights from the BioLaySumm shared task, which attracted a total of 20 participating teams across both subtasks.
초록:이 논문은 ACL 2023의 BioNLP 워크샵에서 주최된 생물의학 연구 기사(BioLaySumm)의 레이 요약에 대한 공유 과제의 결과를 제시한다. 이 공유 과제의 목표는 통제 가능한 환경과 통제 불가능한 환경 모두에서 "일반 요약"(즉, 비기술 수용자가 이해할 수 있는 요약)을 생성할 수 있는 추상적 요약 모델을 개발하는 것이다. 두 가지 하위 작업이 있습니다. 1) 단계 요약(Lay Summary). 여기서 참가자는 전체 기사 텍스트와 해당 초록을 입력으로 하여 단계 요약 생성만을 위한 모델을 구축하는 것을 목표로 합니다. 2) 가독성 제어 요약(Readability-controlled Summary). 여기서 참가자는 기술 초록과 단계를 모두 생성하기 위해 모델을 훈련시키는 것을 목표로 합니다요약, 기사의 주요 텍스트를 입력으로 제공합니다. 전반적인 결과 외에도 두 하위 작업에 걸쳐 총 20개의 참여 팀이 참여한 BioLaySum 공유 작업의 설정 및 통찰력에 대해 보고한다.
LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Games
Abstract:There is a growing interest in using Large Language Models (LLMs) as agents to tackle real-world tasks that may require assessing complex situations. Yet, we have a limited understanding of LLMs' reasoning and decision-making capabilities, partly stemming from a lack of dedicated evaluation benchmarks. As negotiating and compromising are key aspects of our everyday communication and collaboration, we propose using scorable negotiation games as a new evaluation framework for LLMs. We create a testbed of diverse text-based, multi-agent, multi-issue, semantically rich negotiation games, with easily tunable difficulty. To solve the challenge, agents need to have strong arithmetic, inference, exploration, and planning capabilities, while seamlessly integrating them. Via a systematic zero-shot Chain-of-Thought prompting (CoT), we show that agents can negotiate and consistently reach successful deals. We quantify the performance with multiple metrics and observe a large gap between GPT-4 and earlier models. Importantly, we test the generalization to new games and setups. Finally, we show that these games can help evaluate other critical aspects, such as the interaction dynamics between agents in the presence of greedy and adversarial players.
초록:복잡한 상황을 평가해야 할 수 있는 실제 작업을 해결하기 위해 Large Language Models(LLM)를 대리인으로 사용하는 것에 대한 관심이 높아지고 있다. 그러나 우리는 LLM의 추론 및 의사 결정 능력에 대해 제한적으로 이해하고 있으며, 이는 부분적으로 전용 평가 벤치마크의 부족에서 비롯된다. 협상과 타협은 우리의 일상적인 의사소통과 협업의 핵심 측면이기 때문에, 우리는 점수 있는 협상 게임을 LLM의 새로운 평가 프레임워크로 사용할 것을 제안한다. 우리는 쉽게 조정할 수 있는 난이도를 가진 다양한 텍스트 기반, 다중 에이전트, 다중 이슈, 의미론적으로 풍부한 협상 게임의 테스트베드를 만든다. 문제를 해결하기 위해서는 에이전트가 강력한 산술, 추론, 탐색 및 계획 능력을 갖추고 동시에 이를 원활하게 통합해야 한다. 체계적인 제로 샷 사고 사슬 촉진(CoT)을 통해 에이전트가 협상하고 지속적으로 성공적인 거래에 도달할 수 있음을 보여준다. 우리는 여러 메트릭으로 성능을 정량화하고 GPT-4와 이전 모델 사이의 큰 격차를 관찰한다. 중요한 것은 새로운 게임과 설정에 대한 일반화를 테스트하는 것이다. 마지막으로, 우리는 이러한 게임이 탐욕스러운 플레이어와 적대적인 플레이어가 있는 상태에서 에이전트 간의 상호 작용 역학과 같은 다른 중요한 측면을 평가하는 데 도움이 될 수 있음을 보여준다.
Using Large Language Models for Qualitative Analysis can Introduce Serious Bias
Abstract:Large Language Models (LLMs) are quickly becoming ubiquitous, but the implications for social science research are not yet well understood. This paper asks whether LLMs can help us analyse large-N qualitative data from open-ended interviews, with an application to transcripts of interviews with Rohingya refugees in Cox's Bazaar, Bangladesh. We find that a great deal of caution is needed in using LLMs to annotate text as there is a risk of introducing biases that can lead to misleading inferences. We here mean bias in the technical sense, that the errors that LLMs make in annotating interview transcripts are not random with respect to the characteristics of the interview subjects. Training simpler supervised models on high-quality human annotations with flexible coding leads to less measurement error and bias than LLM annotations. Therefore, given that some high quality annotations are necessary in order to asses whether an LLM introduces bias, we argue that it is probably preferable to train a bespoke model on these annotations than it is to use an LLM for annotation.
초록:대형언어모델(Large Language Models, LLM)은 빠르게 유비쿼터스화되고 있지만, 사회과학 연구에 대한 시사점은 아직 잘 이해되지 않고 있다. 이 논문은 방글라데시 콕스 바자의 로힝야 난민 인터뷰 녹취록에 적용하여 LLM이 개방형 인터뷰의 대규모 N 질적 데이터를 분석하는 데 도움이 될 수 있는지 묻는다. 오해를 불러일으킬 수 있는 편견을 도입할 위험이 있기 때문에 LLM을 사용하여 텍스트에 주석을 다는 데 상당한 주의가 필요하다는 것을 발견했다. 여기서 우리는 LLM이 인터뷰 녹취록에 주석을 달 때 발생하는 오류가 인터뷰 대상자의 특성과 관련하여 무작위적이지 않다는 기술적 의미의 편향을 의미한다. 유연한 코딩으로 고품질 인간 주석에 대한 더 간단한 감독 모델을 훈련하면 LLM 주석보다 측정 오류와 편향이 적다. 따라서 LLM이 편향을 도입하는지 여부를 평가하기 위해 일부 고품질 주석이 필요하므로 주석에 LLM을 사용하는 것보다 이러한 주석에 맞춤형 모델을 훈련하는 것이 아마도 더 낫다고 주장한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-10-05] 오늘의 자연어처리 (0) | 2023.10.05 |
---|---|
[2023-10-04] 오늘의 자연어처리 (0) | 2023.10.04 |
[2023-10-02] 오늘의 자연어처리 (1) | 2023.10.02 |
[2023-10-01] 오늘의 자연어처리 (1) | 2023.10.01 |
[2023-09-30] 오늘의 자연어처리 (0) | 2023.09.30 |
댓글