본문 바로가기
오늘의 자연어 처리

[2023-01-20] 오늘의 자연어처리

by 지환이아빠 2023. 1. 20.
반응형

Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing

 

The task of text-to-SQL parsing, which aims at converting natural language questions into executable SQL queries, has garnered increasing attention in recent years, as it can assist end users in efficiently extracting vital information from databases without the need for technical background. One of the major challenges in text-to-SQL parsing is domain generalization, i.e., how to generalize well to unseen databases. Recently, the pre-trained text-to-text transformer model, namely T5, though not specialized for text-to-SQL parsing, has achieved state-of-the-art performance on standard benchmarks targeting domain generalization. In this work, we explore ways to further augment the pre-trained T5 model with specialized components for text-to-SQL parsing. Such components are expected to introduce structural inductive bias into text-to-SQL parsers thus improving model's capacity on (potentially multi-hop) reasoning, which is critical for generating structure-rich SQLs. To this end, we propose a new architecture GRAPHIX-T5, a mixed model with the standard pre-trained transformer model augmented by some specially-designed graph-aware layers. Extensive experiments and analysis demonstrate the effectiveness of GRAPHIX-T5 across four text-to-SQL benchmarks: SPIDER, SYN, REALISTIC and DK. GRAPHIX-T5 surpass all other T5-based parsers with a significant margin, achieving new state-of-the-art performance. Notably, GRAPHIX-T5-large reach performance superior to the original T5-large by 5.7% on exact match (EM) accuracy and 6.6% on execution accuracy (EX). This even outperforms the T5-3B by 1.2% on EM and 1.5% on EX.

 

자연어 변환을 목표로 하는 텍스트-to-SQL 구문 분석 작업 실행 가능한 SQL 쿼리에 대한 질문은 에서 점점 더 많은 관심을 끌었다 최근 몇 년 동안, 그것은 최종 사용자가 중요한 것을 효율적으로 추출하는 것을 도울 수 있기 때문이다 데이터베이스에서 정보를 수집할 수 있습니다. 중 하나 텍스트-to-SQL 구문 분석의 주요 과제는 도메인 일반화이다 보이지 않는 데이터베이스로 잘 일반화할 수 있습니다. 최근에, 미리 훈련된 텍스트 대 텍스트 변환기 모델, 즉 T5는 텍스트-to-SQL 구문 분석에 특화되지 않았지만, 목표로 하는 표준 벤치마크에서 최첨단 성능을 달성했습니다 도메인 일반화. 이 작업에서, 우리는 다음을 더욱 강화하는 방법을 탐구한다 텍스트-SQL 구문 분석을 위한 특수 구성 요소를 갖춘 사전 훈련된 T5 모델. 그런 구성 요소는 텍스트-to-SQL에 구조적 귀납적 편향을 도입할 것으로 예상된다 따라서 파서는 (아마도 멀티홉) 추론에 대한 모델의 용량을 향상시킨다, 이는 구조가 풍부한 SQL을 생성하는 데 중요합니다. 이를 위해, 우리는 다음을 제안한다 새로운 아키텍처 GRAPIX-T5, 사전 훈련된 표준 혼합 모델 일부 특수 설계된 그래프 인식 계층에 의해 증강된 변압기 모델. 광범위한 실험과 분석은 GRAPIX-T5의 효과를 입증한다 SPIDER, SYN, REALICAL 및 DK의 네 가지 텍스트-to-SQL 벤치마크에 걸쳐. GRAPIX-T5 다른 모든 T5 기반 파서를 상당한 마진으로 능가하여 새로운 것을 달성합니다 최첨단 공연. 특히 GRAPIX-T5-대형 리치 성능 원래 T5보다 5.7% 더 크고 정확한 일치(EM) 정확도가 6.6% 더 높습니다 실행 정확도(EX). 이는 심지어 전자파에서 T5-3B를 1.2% 능가한다 EX에 1.5%. 

 

 

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection

 

The introduction of ChatGPT has garnered widespread attention in both academic and industrial communities. ChatGPT is able to respond effectively to a wide range of human questions, providing fluent and comprehensive answers that significantly surpass previous public chatbots in terms of security and usefulness. On one hand, people are curious about how ChatGPT is able to achieve such strength and how far it is from human experts. On the other hand, people are starting to worry about the potential negative impacts that large language models (LLMs) like ChatGPT could have on society, such as fake news, plagiarism, and social security issues. In this work, we collected tens of thousands of comparison responses from both human experts and ChatGPT, with questions ranging from open-domain, financial, medical, legal, and psychological areas. We call the collected dataset the Human ChatGPT Comparison Corpus (HC3). Based on the HC3 dataset, we study the characteristics of ChatGPT's responses, the differences and gaps from human experts, and future directions for LLMs. We conducted comprehensive human evaluations and linguistic analyses of ChatGPT-generated content compared with that of humans, where many interesting results are revealed. After that, we conduct extensive experiments on how to effectively detect whether a certain text is generated by ChatGPT or humans. We build three different detection systems, explore several key factors that influence their effectiveness, and evaluate them in different scenarios. The dataset, code, and models are all publicly available at this https URL.

 

채팅 GPT의 도입은 두 가지 모두에서 광범위한 관심을 끌었다 학계와 산업계. 채팅 GPT는 효과적으로 대응할 수 있다 유창하고 포괄적인 답변을 제공하는 광범위한 인간 질문 보안 측면에서 이전의 공개 챗봇을 크게 능가한다 유용성. 한편, 사람들은 채팅 GPT가 어떻게 할 수 있는지 궁금해한다 그런 힘을 얻고 그것이 인간 전문가들로부터 얼마나 멀리 떨어져 있는가. 반면에, 사람들은 그렇게 큰 잠재적인 부정적 영향에 대해 걱정하기 시작했다 채팅 GPT와 같은 언어 모델(LLM)은 가짜 뉴스와 같은 사회에 영향을 미칠 수 있다, 표절, 그리고 사회 보장 문제. 이 작업에서, 우리는 수십 개의 인간 전문가들과 채팅 GPT의 수천 개의 비교 응답들, 그리고 오픈 도메인, 금융, 의료, 법률, 그리고 다양한 질문들 심리학 분야. 우리는 수집된 데이터 세트를 인간 채팅 GPT 비교라고 부른다 말뭉치(HC3). HC3 데이터 세트를 기반으로, 우리는 다음의 특징을 연구한다 채팅 GPT의 반응, 인간 전문가와의 차이점과 차이, 그리고 미래 LLM에 대한 방향. 우리는 포괄적인 인간 평가를 수행했고 인간의 그것과 비교하여 ChatGPT 생성 콘텐츠의 언어적 분석, 많은 흥미로운 결과들이 드러나는 곳. 그 후에, 우리는 광범위하게 수행한다 특정 텍스트가 생성되는지 여부를 효과적으로 감지하는 방법에 대한 실험 채팅 GPT 또는 인간. 우리는 세 가지 다른 탐지 시스템을 구축하고, 여러 가지를 탐색합니다 효과에 영향을 미치는 핵심 요소를 평가하고 다른 방식으로 평가합니다 시나리오를 보여줍니다. 데이터 세트, 코드 및 모델은 모두 다음 사이트에서 공개적으로 사용할 수 있습니다 이 https URL. 

 

 

Adapting Multilingual Speech Representation Model for a New, Underresourced Language through Multilingual Fine-tuning and Continued Pretraining

 

In recent years, neural models learned through self-supervised pretraining on large scale multilingual text or speech data have exhibited promising results for underresourced languages, especially when a relatively large amount of data from related language(s) is available. While the technology has a potential for facilitating tasks carried out in language documentation projects, such as speech transcription, pretraining a multilingual model from scratch for every new language would be highly impractical. We investigate the possibility for adapting an existing multilingual wav2vec 2.0 model for a new language, focusing on actual fieldwork data from a critically endangered tongue: Ainu. Specifically, we (i) examine the feasibility of leveraging data from similar languages also in fine-tuning; (ii) verify whether the model's performance can be improved by further pretraining on target language data. Our results show that continued pretraining is the most effective method to adapt a wav2vec 2.0 model for a new language and leads to considerable reduction in error rates. Furthermore, we find that if a model pretrained on a related speech variety or an unrelated language with similar phonological characteristics is available, multilingual fine-tuning using additional data from that language can have positive impact on speech recognition performance when there is very little labeled data in the target language.

 

최근 몇 년 동안, 신경 모델은 자기 지도 사전 훈련을 통해 학습되었다 대규모 다국어 텍스트 또는 음성 데이터는 유망한 결과를 보여주었다 특히 비교적 많은 양의 데이터가 있는 경우 리소스 부족 언어의 경우 관련 언어를 사용할 수 있습니다. 이 기술은 다음과 같은 잠재력을 가지고 있습니다 다음과 같은 언어 문서화 프로젝트에서 수행되는 작업을 촉진합니다 음성 전사, 모든 언어에 대한 다국어 모델을 처음부터 사전 교육 새로운 언어는 매우 비현실적일 것이다. 우리는 의 가능성을 조사한다 새로운 언어를 위해 기존의 다국어 wav2vec 2.0 모델을 적용한다, 심각한 멸종 위기에 처한 언어의 실제 현장 연구 데이터에 초점을 맞춥니다: 아이누. 구체적으로, 우리는 (i) 유사한 데이터의 활용 가능성을 조사한다 또한 미세 조정에 사용되는 언어. (ii) 모델의 성능이 가능한지 여부를 확인합니다 대상 언어 데이터에 대한 추가 사전 훈련을 통해 개선된다. 우리의 결과는 보여준다 지속적인 사전 훈련이 wav2vec 2.0을 적용하는 가장 효과적인 방법이라는 것 새로운 언어에 대한 모델과 오류율의 상당한 감소로 이어진다. 또한, 우리는 모델이 관련된 음성 변형에 대해 사전 훈련을 받은 경우 또는 유사한 음운학적 특성을 가진 관련 없는 언어를 사용할 수 있다, 해당 언어의 추가 데이터를 사용한 다국어 미세 조정은 다음을 가질 수 있다 거의 없을 때 음성 인식 성능에 미치는 긍정적인 영향 대상 언어로 레이블이 지정된 데이터. 

 

 

반응형

댓글