본문 바로가기
오늘의 자연어 처리

[2022-10-02] 오늘의 자연어처리

by 지환이아빠 2022. 10. 2.
반응형

Generate-and-Retrieve: use your predictions to improve retrieval for semantic parsing

 

A common recent approach to semantic parsing augments sequence-to-sequence models by retrieving and appending a set of training samples, called exemplars. The effectiveness of this recipe is limited by the ability to retrieve informative exemplars that help produce the correct parse, which is especially challenging in low-resource settings. Existing retrieval is commonly based on similarity of query and exemplar inputs. We propose GandR, a retrieval procedure that retrieves exemplars for which outputs are also similar. GandRfirst generates a preliminary prediction with input-based retrieval. Then, it retrieves exemplars with outputs similar to the preliminary prediction which are used to generate a final prediction. GandR sets the state of the art on multiple low-resource semantic parsing tasks.

 

의미론적 파싱에 대한 최근의 일반적인 접근 방식은 시퀀스 대 시퀀스를 증가시킨다. 예제라고 하는 일련의 훈련 샘플을 검색하고 추가함으로써 모델을 만듭니다. 이 레시피의 효과는 검색 능력에 의해 제한된다. 올바른 구문 분석을 생성하는 데 도움이 되는 유용한 예제, 특히 저자원 환경에서 어려운 작업입니다. 기존 검색은 일반적으로 다음을 기반으로 합니다. 쿼리 및 예제 입력의 유사성. 우리는 GandR, 검색어를 제안한다. 출력도 유사한 예제를 검색하는 절차입니다. GandRfirst는 입력 기반 검색으로 예비 예측을 생성한다. 그리고나서, 그것은 예비 예측과 유사한 출력을 가진 예제를 검색한다. 최종 예측을 생성하는 데 사용됩니다. GandR은 최첨단 기술을 설정한다. 여러 개의 저자원 시맨틱 구문 분석 작업. 

 

 

Chandojnanam: A Sanskrit Meter Identification and Utilization System

 

We present Chandojñānam, a web-based Sanskrit meter (Chanda) identification and utilization system. In addition to the core functionality of identifying meters, it sports a friendly user interface to display the scansion, which is a graphical representation of the metrical pattern. The system supports identification of meters from uploaded images by using optical character recognition (OCR) engines in the backend. It is also able to process entire text files at a time. The text can be processed in two modes, either by treating it as a list of individual lines, or as a collection of verses. When a line or a verse does not correspond exactly to a known meter, Chandojñānam is capable of finding fuzzy (i.e., approximate and close) matches based on sequence matching. This opens up the scope of a meter-based correction of erroneous digital corpora. The system is available for use at this https URL, and the source code in the form of a Python library is made available at this https URL.

 

우리는 웹 기반 산스크리트 미터인 Chandojnánam을 제시한다(Chanda). 식별 및 활용 시스템. 의 핵심 기능 외에도 미터 식별, 그것은 표시하기 위한 친근한 사용자 인터페이스를 자랑한다. 스캔, 이것은 미터법 패턴을 그래픽으로 표현한 것입니다. 그 시스템은 광학 장치를 사용하여 업로드된 이미지에서 미터기 식별을 지원합니다. 백엔드의 OCR(문자 인식) 엔진. 또한 처리할 수 있습니다. 한 번에 전체 텍스트 파일. 텍스트는 두 가지 모드로 처리될 수 있습니다. 개별 행의 목록 또는 시 모음으로 취급한다. when a 선 또는 구절이 알려진 미터와 정확히 일치하지 않습니다, 찬도냐남. 에 기초하여 퍼지(즉, 근사 및 근접) 일치 항목을 찾을 수 있다. 시퀀스 매칭 이렇게 하면 미터 기반 보정 범위가 열립니다. 잘못된 디지털 말뭉치 시스템은 다음 위치에서 사용할 수 있습니다. 이 https URL 및 소스 코드는 파이썬 라이브러리의 형태는 다음과 같다. 이 https URL. 

 

 

COMPILING: A Benchmark Dataset for Chinese Complexity Controllable Definition Generation

 

The definition generation task aims to generate a word's definition within a specific context automatically. However, owing to the lack of datasets for different complexities, the definitions produced by models tend to keep the same complexity level. This paper proposes a novel task of generating definitions for a word with controllable complexity levels. Correspondingly, we introduce COMPILING, a dataset given detailed information about Chinese definitions, and each definition is labeled with its complexity levels. The COMPILING dataset includes 74,303 words and 106,882 definitions. To the best of our knowledge, it is the largest dataset of the Chinese definition generation task. We select various representative generation methods as baselines for this task and conduct evaluations, which illustrates that our dataset plays an outstanding role in assisting models in generating different complexity-level definitions. We believe that the COMPILING dataset will benefit further research in complexity controllable definition generation.

 

정의 생성 작업은 단어 정의를 생성하는 것을 목표로 한다. 특정 컨텍스트가 자동으로 나타납니다. 그러나 데이터셋이 부족하기 때문에 다른 복잡성, 모델에 의해 생성된 정의는 유지하는 경향이 있다. 동일한 복잡성 수준. 이 논문은 을 생성하는 새로운 과제를 제안한다. 제어 가능한 복잡성 수준을 가진 단어에 대한 정의입니다. 그에 상응하여, 우리는 중국어에 대한 자세한 정보를 제공하는 데이터 세트인 컴파일(COMPLIGHT)을 소개합니다. 각 정의는 복잡도 수준으로 레이블이 지정됩니다. 그 컴파일 데이터 세트에는 74,303개의 단어와 106,882개의 정의가 포함되어 있다. 최선을 다해서 우리의 지식, 그것은 중국 정의 세대의 가장 큰 데이터 세트이다. 과제. 우리는 이것을 위한 기준선으로 다양한 대표 생성 방법을 선택한다. 작업 및 수행 평가, 이는 우리의 데이터 세트가 다음을 수행한다는 것을 보여준다. 다른 복잡성 수준을 생성하는 데 있어 모델을 지원하는 탁월한 역할 정의들. 우리는 컴파일 데이터 세트가 더 많은 이익을 얻을 것이라고 믿는다. 복잡도 제어 가능한 정의 생성에 대한 연구. 

 

 

반응형

댓글