본문 바로가기
오늘의 자연어 처리

[2023-11-11] 오늘의 자연어처리

by 지환이아빠 2023. 11. 11.
반응형

Quranic Conversations: Developing a Semantic Search tool for the Quran using Arabic NLP Techniques

 

Abstract:The Holy Book of Quran is believed to be the literal word of God (Allah) as revealed to the Prophet Muhammad (PBUH) over a period of approximately 23 years. It is the book where God provides guidance on how to live a righteous and just life, emphasizing principles like honesty, compassion, charity and justice, as well as providing rules for personal conduct, family matters, business ethics and much more. However, due to constraints related to the language and the Quran organization, it is challenging for Muslims to get all relevant ayahs (verses) pertaining to a matter or inquiry of interest. Hence, we developed a Quran semantic search tool which finds the verses pertaining to the user inquiry or prompt. To achieve this, we trained several models on a large dataset of over 30 tafsirs, where typically each tafsir corresponds to one verse in the Quran and, using cosine similarity, obtained the tafsir tensor which is most similar to the prompt tensor of interest, which was then used to index for the corresponding ayah in the Quran. Using the SNxLM model, we were able to achieve a cosine similarity score as high as 0.97 which corresponds to the abdu tafsir for a verse relating to financial matters.

 

초록:코란의 성서는 예언자 무함마드(PBUH)에게 대략 23년의 기간 동안 드러나는 신(알라)의 문자 그대로의 말로 여겨진다. 이 책은 하나님께서 정직, 연민, 자선, 정의와 같은 원칙을 강조하고 개인적 행위, 가정 문제, 기업 윤리 등에 대한 규칙을 제시하면서 의롭고 정의로운 삶을 사는 방법에 대한 지침을 제공하는 책이다. 그러나 무슬림들은 언어와 코란 조직의 한계로 인해 관심사나 탐구와 관련된 모든 아야(시절)를 얻기 어렵다. 따라서 사용자 문의 또는 프롬프트와 관련된 구절을 찾는 코란 의미 검색 도구를 개발하였다. 이를 달성하기 위해 30개 이상의 타프시르로 구성된 대규모 데이터 세트에서 여러 모델을 훈련시켰는데, 일반적으로 각 타프시르는 코란의 한 구절에 해당하며 코사인 유사성을 사용하여 관심 있는 신속 텐서와 가장 유사한 타프시르 텐서를 얻었고, 이 텐서는 코란의 해당 아야를 색인하는 데 사용되었다. SNxLM모형을 이용하여 재정적인 문제와 관련된 절에 대하여 abdutafsir에 해당하는 0.97만큼 높은 코사인 유사도 점수를 얻을 수 있었다. 

 

 

Removing RLHF Protections in GPT-4 via Fine-Tuning

 

Abstract:As large language models (LLMs) have increased in their capabilities, so does their potential for dual use. To reduce harmful outputs, produces and vendors of LLMs have used reinforcement learning with human feedback (RLHF). In tandem, LLM vendors have been increasingly enabling fine-tuning of their most powerful models. However, concurrent work has shown that fine-tuning can remove RLHF protections. We may expect that the most powerful models currently available (GPT-4) are less susceptible to fine-tuning attacks. In this work, we show the contrary: fine-tuning allows attackers to remove RLHF protections with as few as 340 examples and a 95% success rate. These training examples can be automatically generated with weaker models. We further show that removing RLHF protections does not decrease usefulness on non-censored outputs, providing evidence that our fine-tuning strategy does not decrease usefulness despite using weaker models to generate training data. Our results show the need for further research on protections on LLMs.

 

초록:대형 언어 모델(LLM)의 성능이 향상됨에 따라 이중 사용 가능성도 증가하고 있다. 유해 산출물을 줄이기 위해 LLM의 생산 및 공급업체는 인간 피드백(RLHF)을 통한 강화 학습을 사용했다. 이와 함께 LLM 공급업체들은 점점 더 강력한 모델의 미세 조정을 가능하게 하고 있습니다. 그러나 동시 작업은 미세 조정이 RLHF 보호를 제거할 수 있음을 보여주었다. 현재 사용 가능한 가장 강력한 모델(GPT-4)은 미세 조정 공격에 덜 취약할 것으로 예상할 수 있다. 본 연구에서는 반대의 결과를 보여준다. 미세 조정을 통해 공격자는 340개의 예제와 95%의 성공률로 RLHF 보호를 제거할 수 있다. 이러한 훈련 예제는 더 약한 모델로 자동으로 생성될 수 있다. 우리는 또한 RLHF 보호를 제거하는 것이 검열되지 않은 출력에서 유용성을 감소시키지 않는다는 것을 보여주며, 훈련 데이터를 생성하기 위해 더 약한 모델을 사용함에도 불구하고 미세 조정 전략이 유용성을 감소시키지 않는다는 증거를 제공한다. 우리의 결과는 LLM에 대한 보호에 대한 추가 연구의 필요성을 보여준다. 

 

 

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

 

Abstract:The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

 

초록:대규모 언어 모델(LLM)의 등장은 자연어 처리(NLP)에서 중요한 돌파구를 열었으며, 텍스트 이해 및 생성에서 놀라운 발전을 이끌었다. 그럼에도 불구하고, 이러한 진보와 함께, LLM들은 환각을 발생시키는 중대한 경향을 나타내어, 실제 사실 또는 사용자 입력과 일치하지 않는 콘텐츠를 초래한다. 이러한 현상은 실제 배치에 상당한 문제를 제기하고 실제 시나리오에서 LLM의 신뢰성에 대한 우려를 불러일으키며, 이러한 환각을 감지하고 완화하기 위해 점점 더 많은 관심을 끌고 있다. 본 조사에서는 LLM 환각 분야의 최근 발전에 대한 철저하고 심도 있는 개요를 제공하고자 한다. 우리는 LLM 환각에 대한 혁신적인 분류법으로 시작해서, 환각에 기여하는 요인들을 조사한다. 이어서 환각 검출 방법과 벤치마크에 대한 포괄적인 개요를 제시한다. 또한 환각을 완화하기 위해 고안된 대표적인 방법들이 이에 따라 소개된다. 마지막으로, 우리는 LLM의 환각에 대한 향후 연구를 위한 경로를 설명하기 위해 현재의 한계를 강조하고 개방형 질문을 공식화하는 과제를 분석한다. 

 

 

반응형

댓글