Benchmarking and Improving Text-to-SQL Generation under Ambiguity
Abstract:Research in Text-to-SQL conversion has been largely benchmarked against datasets where each text query corresponds to one correct SQL. However, natural language queries over real-life databases frequently involve significant ambiguity about the intended SQL due to overlapping schema names and multiple confusing relationship paths. To bridge this gap, we develop a novel benchmark called AmbiQT with over 3000 examples where each text is interpretable as two plausible SQLs due to lexical and/or structural ambiguity. When faced with ambiguity, an ideal top-$k$ decoder should generate all valid interpretations for possible disambiguation by the user. We evaluate several Text-to-SQL systems and decoding algorithms, including those employing state-of-the-art LLMs, and find them to be far from this ideal. The primary reason is that the prevalent beam search algorithm and its variants, treat SQL queries as a string and produce unhelpful token-level diversity in the top-$k$. We propose LogicalBeam, a new decoding algorithm that navigates the SQL logic space using a blend of plan-based template generation and constrained infilling. Counterfactually generated plans diversify templates while in-filling with a beam-search that branches solely on schema names provides value diversity. LogicalBeam is up to $2.5$ times more effective than state-of-the-art models at generating all candidate SQLs in the top-$k$ ranked outputs. It also enhances the top-$5$ Exact and Execution Match Accuracies on SPIDER and Kaggle DBQA.
초록:Text-to-SQL 변환 연구는 각 텍스트 쿼리가 하나의 올바른 SQL에 해당하는 데이터 세트를 기준으로 크게 벤치마킹되었다. 그러나 실생활 데이터베이스에 대한 자연어 질의는 스키마 이름이 중복되고 여러 개의 혼란스러운 관계 경로로 인해 의도된 SQL에 대한 상당한 모호성을 수반하는 경우가 많다. 이러한 차이를 해소하기 위해 어휘 및/또는 구조적 모호성으로 인해 각 텍스트가 두 개의 그럴듯한 SQL로 해석될 수 있는 3000개 이상의 예제를 가진 AmbiQT라는 새로운 벤치마크를 개발한다. 모호성에 직면했을 때, 이상적인 상위 $k$ 디코더는 사용자에 의해 가능한 모호성을 제거하기 위해 모든 유효한 해석을 생성해야 한다. 우리는 최첨단 LLM을 사용하는 것을 포함하여 여러 Text-to-SQL 시스템 및 디코딩 알고리듬을 평가하고 이 이상과는 거리가 멀다는 것을 발견한다. 주된 이유는 널리 퍼져 있는 빔 검색 알고리듬과 그 변형이 SQL 쿼리를 문자열로 취급하고 상위 $k$에서 도움이 되지 않는 토큰 수준의 다양성을 생성하기 때문이다. 우리는 계획 기반 템플릿 생성과 제한된 채우기의 혼합을 사용하여 SQL 논리 공간을 탐색하는 새로운 디코딩 알고리듬인 LogicalBeam을 제안한다. 반실제로 생성된 계획은 스키마 이름에만 분기되는 빔 검색으로 값 다양성을 제공하는 동시에 템플릿을 다양화한다. 논리 빔은 상위 $k$ 순위의 출력에서 모든 후보 SQL을 생성하는 데 최첨단 모델보다 최대 $2.5$ 더 효과적이다. 또한 SPIDER 및 Kaggle DBQA에서 상위 $5$ 정확도 및 실행 일치 정확도를 향상시킨다.
Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering
Abstract:Despite the impressive growth of the abilities of multilingual language models, such as XLM-R and mT5, it has been shown that they still face difficulties when tackling typologically-distant languages, particularly in the low-resource setting. One obstacle for effective cross-lingual transfer is variability in word-order patterns. It can be potentially mitigated via source- or target-side word reordering, and numerous approaches to reordering have been proposed. However, they rely on language-specific rules, work on the level of POS tags, or only target the main clause, leaving subordinate clauses intact. To address these limitations, we present a new powerful reordering method, defined in terms of Universal Dependencies, that is able to learn fine-grained word-order patterns conditioned on the syntactic context from a small amount of annotated data and can be applied at all levels of the syntactic tree. We conduct experiments on a diverse set of tasks and show that our method consistently outperforms strong baselines over different language pairs and model architectures. This performance advantage holds true in both zero-shot and few-shot scenarios.
초록:XLM-R 및 mT5와 같은 다국어 언어 모델의 능력이 인상적으로 성장했음에도 불구하고, 유형론적으로 먼 언어를 다룰 때, 특히 낮은 리소스 환경에서 여전히 어려움에 직면하는 것으로 나타났다. 효과적인 언어 간 전달을 위한 한 가지 장애물은 어순 패턴의 가변성이다. 소스- 또는 타겟-사이드 워드 순서 변경을 통해 잠재적으로 완화될 수 있으며, 순서 변경에 대한 많은 접근법이 제안되었다. 그러나 이들은 언어별 규칙에 의존하고, POS 태그 수준으로 작업하거나, 하위 절은 그대로 둔 채 주절만을 대상으로 한다. 이러한 한계를 해결하기 위해, 우리는 적은 양의 주석이 달린 데이터에서 구문 맥락에 따라 조정된 세분화된 단어 순서 패턴을 학습할 수 있고 구문 트리의 모든 수준에서 적용할 수 있는 보편적 의존성 측면에서 정의된 새로운 강력한 순서 변경 방법을 제시한다. 우리는 다양한 작업 세트에 대한 실험을 수행하고 우리의 방법이 다른 언어 쌍과 모델 아키텍처에 대해 강력한 기준선을 지속적으로 능가한다는 것을 보여준다. 이러한 성능상의 이점은 제로샷 시나리오와 퓨샷 시나리오 모두에서 그대로 유지됩니다.
Improved Long-Form Spoken Language Translation with Large Language Models
Abstract:A challenge in spoken language translation is that plenty of spoken content is long-form, but short units are necessary for obtaining high-quality translations. To address this mismatch, we fine-tune a general-purpose, large language model to split long ASR transcripts into segments that can be independently translated so as to maximize the overall translation quality. We compare to several segmentation strategies and find that our approach improves BLEU score on three languages by an average of 2.7 BLEU overall compared to an automatic punctuation baseline. Further, we demonstrate the effectiveness of two constrained decoding strategies to improve well-formedness of the model output from above 99% to 100%.
초록:구어 번역에서 과제는 많은 구어 콘텐츠가 긴 형식이지만 양질의 번역을 얻기 위해서는 짧은 단위가 필요하다는 것이다. 이러한 불일치를 해결하기 위해, 우리는 전체 번역 품질을 극대화하기 위해 긴 ASR 스크립트를 독립적으로 번역할 수 있는 세그먼트로 분할하기 위해 범용, 큰 언어 모델을 미세 조정한다. 우리는 여러 분할 전략을 비교하고 우리의 접근 방식이 자동 구두점 기준선에 비해 3개 언어의 BLEU 점수를 전체 평균 2.7 BLEU 향상시킨다는 것을 발견했다. 또한 모델 출력의 양호한 형태를 99% 이상에서 100%로 개선하기 위한 두 가지 제한된 디코딩 전략의 효과를 입증한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-10-26] 오늘의 자연어처리 (1) | 2023.10.26 |
---|---|
[2023-10-25] 오늘의 자연어처리 (0) | 2023.10.25 |
[2023-10-23] 오늘의 자연어처리 (2) | 2023.10.23 |
[2023-10-22] 오늘의 자연어처리 (0) | 2023.10.22 |
[2023-10-21] 오늘의 자연어처리 (0) | 2023.10.21 |
댓글