본문 바로가기
오늘의 자연어 처리

[2023-06-13] 오늘의 자연어처리

by 지환이아빠 2023. 6. 13.
반응형

Trapping LLM Hallucinations Using Tagged Context Prompts

 

Recent advances in large language models (LLMs), such as ChatGPT, have led to highly sophisticated conversation agents. However, these models suffer from "hallucinations," where the model generates false or fabricated information. Addressing this challenge is crucial, particularly with AI-driven platforms being adopted across various sectors. In this paper, we propose a novel method to recognize and flag instances when LLMs perform outside their domain knowledge, and ensuring users receive accurate information. We find that the use of context combined with embedded tags can successfully combat hallucinations within generative language models. To do this, we baseline hallucination frequency in no-context prompt-response pairs using generated URLs as easily-tested indicators of fabricated data. We observed a significant reduction in overall hallucination when context was supplied along with question prompts for tested generative engines. Lastly, we evaluated how placing tags within contexts impacted model responses and were able to eliminate hallucinations in responses with 98.88% effectiveness.

 

ChatGPT와 같은 대형 언어 모델(LLM)의 최근 발전은 다음과 같은 결과를 가져왔다 매우 정교한 대화 요원들. 그러나 이 모델들은 다음과 같은 문제를 겪고 있다 모델이 거짓 또는 조작된 정보를 생성하는 "예측". 특히 AI 기반 플랫폼에서 이 과제를 해결하는 것이 중요하다 다양한 분야에 걸쳐 채택되고 있습니다. 이 논문에서, 우리는 새로운 방법을 제안한다 LLM이 도메인 외부에서 수행할 때 인스턴스를 인식하고 플래그를 지정합니다 사용자가 정확한 정보를 받을 수 있도록 보장합니다. 우리는 내장된 태그와 결합된 컨텍스트 사용이 성공적으로 가능하다는 것을 발견했다 생성 언어 모델 내의 환각과 싸웁니다. 이를 위해, 우리는 기준 환각 빈도는 무반응 프롬프트-응답 쌍에서 사용한다 생성된 URL은 쉽게 테스트할 수 있는 조작된 데이터의 지표입니다. 우리는 관찰했다 맥락이 제공될 때 전체 환각의 상당한 감소 테스트된 생성 엔진에 대한 질문 프롬프트가 표시됩니다. 마지막으로, 우리는 어떻게 컨텍스트 내에 태그를 배치하는 것은 모델 반응에 영향을 미쳤고 할 수 있었다 98.88%의 효과로 응답에서 환각을 제거합니다. 

 

 

Good, but not always Fair: An Evaluation of Gender Bias for three commercial Machine Translation Systems

 

Machine Translation (MT) continues to make significant strides in quality and is increasingly adopted on a larger scale. Consequently, analyses have been redirected to more nuanced aspects, intricate phenomena, as well as potential risks that may arise from the widespread use of MT tools. Along this line, this paper offers a meticulous assessment of three commercial MT systems - Google Translate, DeepL, and Modern MT - with a specific focus on gender translation and bias. For three language pairs (English/Spanish, English/Italian, and English/French), we scrutinize the behavior of such systems at several levels of granularity and on a variety of naturally occurring gender phenomena in translation. Our study takes stock of the current state of online MT tools, by revealing significant discrepancies in the gender translation of the three systems, with each system displaying varying degrees of bias despite their overall translation quality.

 

MT(Machine Translation)는 품질 면에서 지속적으로 상당한 발전을 이루고 있다 점점 더 큰 규모로 채택되고 있다. 결과적으로, 분석은 다음과 같다 더 미묘한 측면, 복잡한 현상 및 잠재력으로 리디렉션됩니다 MT 도구의 광범위한 사용으로 인해 발생할 수 있는 위험. 이 선을 따라서, 이것은 논문은 세 가지 상용 MT 시스템 - 구글에 대한 꼼꼼한 평가를 제공한다 번역, DeepL 및 Modern MT - 성별 번역에 중점을 둡니다 그리고 편견. 3개 언어 쌍(영어/스페인어, 영어/이탈리아어 및 영어/프랑스어), 우리는 몇 가지 수준에서 그러한 시스템의 행동을 면밀히 조사한다 세분화되고 자연적으로 발생하는 다양한 성별 현상에 대해 번역. 우리의 연구는 온라인 MT 도구의 현재 상태를 고려한다 세 가지의 성별 번역에서 상당한 차이를 드러내기 시스템, 각 시스템은 그들의 시스템에도 불구하고 다양한 정도의 편향을 보여준다 전반적인 번역 품질. 

 

 

Towards the Exploitation of LLM-based Chatbot for Providing Legal Support to Palestinian Cooperatives

 

With the ever-increasing utilization of natural language processing (NLP), we started to witness over the past few years a significant transformation in our interaction with legal texts. This technology has advanced the analysis and enhanced the understanding of complex legal terminology and contexts. The development of recent large language models (LLMs), particularly ChatGPT, has also introduced a revolutionary contribution to the way that legal texts can be processed and comprehended. In this paper, we present our work on a cooperative-legal question-answering LLM-based chatbot, where we developed a set of legal questions about Palestinian cooperatives, associated with their regulations and compared the auto-generated answers by the chatbot to their correspondences that are designed by a legal expert. To evaluate the proposed chatbot, we have used 50 queries generated by the legal expert and compared the answers produced by the chart to their relevance judgments. Finding demonstrated that an overall accuracy rate of 82% has been achieved when answering the queries, while exhibiting an F1 score equivalent to 79%.

 

자연어 처리(NLP)의 활용도가 계속 증가함에 따라, 우리는 지난 몇 년 동안 우리의 중요한 변화를 목격하기 시작했다 법률 문서와의 상호 작용. 이 기술은 분석을 발전시켰고 복잡한 법률 용어와 맥락에 대한 이해를 높였습니다. 그 최근의 대형 언어 모델의 개발, 특히 ChatGPT은 또한 법률 텍스트가 될 수 있는 방법에 혁명적인 기여를 도입했다 처리되고 이해된. 이 논문에서, 우리는 다음에 대한 우리의 연구를 제시한다 협력적이고 법적인 질문-응답 LLM 기반 챗봇을 개발했다 그들과 관련된 팔레스타인 협동조합에 대한 일련의 법적 질문들 규정과 챗봇이 자동으로 생성한 답변을 그들의 것과 비교했다 법률 전문가가 작성한 서신. 제안된 내용을 평가하려면 챗봇, 우리는 법률 전문가가 생성한 50개의 쿼리를 사용했고 비교했다 관련성 판단에 대한 차트의 답변. 찾기 다음의 경우 82%의 전체 정확도가 달성되었음을 입증했다 79%에 해당하는 F1 점수를 보여주면서 쿼리에 응답합니다. 

 

 

반응형

댓글