본문 바로가기
오늘의 자연어 처리

[2023-04-26] 오늘의 자연어처리

by 지환이아빠 2023. 4. 26.
반응형

AMR Parsing with Instruction Fine-tuned Pre-trained Language Models

 

Instruction fine-tuned language models on a collection of instruction annotated datasets (FLAN) have shown highly effective to improve model performance and generalization to unseen tasks. However, a majority of standard parsing tasks including abstract meaning representation (AMR), universal dependency (UD), semantic role labeling (SRL) has been excluded from the FLAN collections for both model training and evaluations. In this paper, we take one of such instruction fine-tuned pre-trained language models, i.e. FLAN-T5, and fine-tune them for AMR parsing. Our extensive experiments on various AMR parsing tasks including AMR2.0, AMR3.0 and BioAMR indicate that FLAN-T5 fine-tuned models out-perform previous state-of-the-art models across all tasks. In addition, full fine-tuning followed by the parameter efficient fine-tuning, LoRA, further improves the model performances, setting new state-of-the-arts in Smatch on AMR2.0 (86.4), AMR3.0 (84.9) and BioAMR (82.3).

 

명령 모음에서 미세 조정된 언어 모델 명령 주석이 달린 데이터 세트(FLAN)는 모델을 개선하는 데 매우 효과적인 것으로 나타났다 보이지 않는 작업에 대한 성능 및 일반화. 그러나, 다수의 표준의 AMR(추상적 의미 표현)을 포함한 구문 분석 작업, 범용 의존성(UD), 의미론적 역할 라벨링(SRL)은 FLAN에서 제외되었다 모델 교육 및 평가를 위한 컬렉션입니다. 이 논문에서, 우리는 하나를 취한다 그러한 지침의 미세 조정된 사전 훈련된 언어 모델, 즉 FLAN-T5 및 AMR 구문 분석을 위해 미세 조정합니다. 다양한 AMR에 대한 광범위한 실험 AMR2.0, AMR3.0, BioAMR을 포함한 파싱 작업은 FLAN-T5를 나타낸다 미세 조정된 모델은 이전의 최첨단 모델보다 성능이 뛰어납니다 작업. 추가적으로, 완전한 미세 조정 후 매개 변수 효율적 미세 조정, LoRA, 모델 성능을 더욱 향상시키고, 새로운 설정 AMR 2.0(86.4), AMR 3.0(84.9) 및 BioAMR(82.3)의 최신 기술을 사용할 수 있습니다. 

 

 

"Genlangs" and Zipf's Law: Do languages generated by ChatGPT statistically look human?

 

OpenAI's GPT-4 is a Large Language Model (LLM) that can generate coherent constructed languages, or "conlangs," which we propose be called "genlangs" when generated by Artificial Intelligence (AI). The genlangs created by ChatGPT for this research (Voxphera, Vivenzia, and Lumivoxa) each have unique features, appear facially coherent, and plausibly "translate" into English. This study investigates whether genlangs created by ChatGPT follow Zipf's law. Zipf's law approximately holds across all natural and artificially constructed human languages. According to Zipf's law, the word frequencies in a text corpus are inversely proportional to their rank in the frequency table. This means that the most frequent word appears about twice as often as the second most frequent word, three times as often as the third most frequent word, and so on. We hypothesize that Zipf's law will hold for genlangs because (1) genlangs created by ChatGPT fundamentally operate in the same way as human language with respect to the semantic usefulness of certain tokens, and (2) ChatGPT has been trained on a corpora of text that includes many different languages, all of which exhibit Zipf's law to varying degrees. Through statistical linguistics, we aim to understand if LLM-based languages statistically look human. Our findings indicate that genlangs adhere closely to Zipf's law, supporting the hypothesis that genlangs created by ChatGPT exhibit similar statistical properties to natural and artificial human languages. We also conclude that with human assistance, AI is already capable of creating the world's first fully-functional genlang, and we call for its development.

 

OpenAI의 GPT-4는 일관성 있게 생성할 수 있는 LLM(Large Language Model)입니다 우리가 "젠랑그"라고 부르는 인공 언어, 또는 "콘랑그" 인공지능(AI)에 의해 생성될 때. ChatGPT에 의해 만들어진 젠랑그들 이 연구(복스페라, 비벤치아, 루미복사)는 각각 독특한 특징을 가지고 있다, 표면적으로 일관성이 있어 보이고, 그럴듯하게 영어로 "번역"한다. 이 연구 ChatGPT에서 생성된 젠랑이 Zipf의 법칙을 따르는지 여부를 조사합니다. 집프의 법칙 대략 모든 자연적이고 인공적으로 만들어진 인간에 걸쳐 있다 언어들. Zipf의 법칙에 따르면, 텍스트 말뭉치의 단어 빈도는 다음과 같다 주파수 표에서 그들의 순위에 반비례한다. 이것은 의미한다 가장 빈도가 높은 단어는 두 번째 빈도보다 약 두 배 더 자주 나타난다 단어, 세 번째로 가장 빈번한 단어보다 세 배 더 자주, 등등. 우리가 (1) genlang이 만들어졌기 때문에 Zipf의 법칙이 genlang에 대해 유지될 것이라는 가설 ChatGPT는 근본적으로 인간의 언어와 같은 방식으로 존중하며 작동한다 특정 토큰의 의미론적 유용성, 그리고 (2) ChatGPT은 훈련되었다 많은 다양한 언어를 포함하는 텍스트의 말뭉치, 모든 것 지프의 법칙을 다양한 정도로 나타내다. 통계언어학을 통해, 우리는 목표로 한다 LLM 기반 언어가 통계적으로 인간처럼 보이는지 이해하기 위해. 우리의 조사결과 젠랑어가 지프의 법칙을 밀접하게 준수하고 가설을 뒷받침함을 나타낸다 ChatGPT에 의해 생성된 젠랑은 유사한 통계적 특성을 나타낸다 자연어와 인공어. 우리는 또한 인간과 함께 그것을 결론짓는다 보조, 인공지능은 이미 세계 최초를 만들 수 있다 Genlang의 완전한 기능, 그리고 우리는 그것의 발전을 요구한다. 

 

 

Generating Topic Pages for Scientific Concepts Using Scientific Publications

 

In this paper, we describe Topic Pages, an inventory of scientific concepts and information around them extracted from a large collection of scientific books and journals. The main aim of Topic Pages is to provide all the necessary information to the readers to understand scientific concepts they come across while reading scholarly content in any scientific domain. Topic Pages are a collection of automatically generated information pages using NLP and ML, each corresponding to a scientific concept. Each page contains three pieces of information: a definition, related concepts, and the most relevant snippets, all extracted from scientific peer-reviewed publications. In this paper, we discuss the details of different components to extract each of these elements. The collection of pages in production contains over 360,000 Topic Pages across 20 different scientific domains with an average of 23 million unique visits per month, constituting it a popular source for scientific information.

 

이 논문에서, 우리는 과학적 개념의 목록인 주제 페이지에 대해 설명한다 그리고 많은 과학적 수집으로부터 추출된 그들 주변의 정보 서적과 잡지. 주제 페이지의 주요 목적은 필요한 모든 것을 제공하는 것입니다 독자들이 접하게 되는 과학적 개념을 이해하기 위한 정보 과학적인 영역에서 학술적인 내용을 읽는 동안. 주제 페이지 영역 각각 NLP 및 ML을 사용하여 자동으로 생성된 정보 페이지 모음 과학적 개념에 상응하는. 각 페이지는 3개의 조각을 포함한다 정보: 정의, 관련 개념 및 가장 관련성이 높은 스니펫, 과학적인 동료 평가 출판물에서 발췌한 모든 것. 이 논문에서 우리는 각 요소를 추출하기 위해 다양한 구성 요소의 세부 사항을 논의합니다. 운영 중인 페이지 모음에는 총 360,000개 이상의 주제 페이지가 포함되어 있습니다 20개의 서로 다른 과학 분야에서 평균 2,300만 번의 고유 방문 횟수 과학적 정보의 인기 있는 원천을 구성하는 달. 

 

 

반응형

댓글