본문 바로가기
오늘의 자연어 처리

[2023-10-21] 오늘의 자연어처리

by 지환이아빠 2023. 10. 21.
반응형

Representing and Computing Uncertainty in Phonological Reconstruction

 

Abstract:Despite the inherently fuzzy nature of reconstructions in historical linguistics, most scholars do not represent their uncertainty when proposing proto-forms. With the increasing success of recently proposed approaches to automating certain aspects of the traditional comparative method, the formal representation of proto-forms has also improved. This formalization makes it possible to address both the representation and the computation of uncertainty. Building on recent advances in supervised phonological reconstruction, during which an algorithm learns how to reconstruct words in a given proto-language relying on previously annotated data, and inspired by improved methods for automated word prediction from cognate sets, we present a new framework that allows for the representation of uncertainty in linguistic reconstruction and also includes a workflow for the computation of fuzzy reconstructions from linguistic data.

 

초록:역사언어학에서 재구성이 본질적으로 모호함에도 불구하고, 대부분의 학자들은 원형을 제안할 때 불확실성을 나타내지 않는다. 전통적인 비교 방법의 특정 측면을 자동화하기 위한 최근 제안된 접근법의 성공에 따라 프로토폼의 형식적 표현도 개선되었다. 이러한 공식화는 표현과 불확실성 계산을 모두 다루는 것을 가능하게 한다. 알고리즘이 이전에 주석이 달린 데이터에 의존하여 주어진 프로토 언어의 단어를 재구성하는 방법을 학습하고, 코그나트 집합에서 자동화된 단어 예측을 위한 개선된 방법에 영감을 받은 감독 음운 재구성의 최근 발전을 기반으로 한다, 우리는 언어 재구성의 불확실성을 표현할 수 있고 언어 데이터에서 퍼지 재구성 계산을 위한 워크플로우도 포함하는 새로운 프레임워크를 제시한다. 

 

 

Non-Autoregressive Sentence Ordering

 

Abstract:Existing sentence ordering approaches generally employ encoder-decoder frameworks with the pointer net to recover the coherence by recurrently predicting each sentence step-by-step. Such an autoregressive manner only leverages unilateral dependencies during decoding and cannot fully explore the semantic dependency between sentences for ordering. To overcome these limitations, in this paper, we propose a novel Non-Autoregressive Ordering Network, dubbed \textit{NAON}, which explores bilateral dependencies between sentences and predicts the sentence for each position in parallel. We claim that the non-autoregressive manner is not just applicable but also particularly suitable to the sentence ordering task because of two peculiar characteristics of the task: 1) each generation target is in deterministic length, and 2) the sentences and positions should match exclusively. Furthermore, to address the repetition issue of the naive non-autoregressive Transformer, we introduce an exclusive loss to constrain the exclusiveness between positions and sentences. To verify the effectiveness of the proposed model, we conduct extensive experiments on several common-used datasets and the experimental results show that our method outperforms all the autoregressive approaches and yields competitive performance compared with the state-of-the-arts. The codes are available at: \url{this https URL}.

 

초록:기존의 문장 순서화 방법들은 일반적으로 포인터 네트를 갖는 인코더-디코더 프레임워크를 사용하여 각 문장을 단계적으로 반복 예측함으로써 일관성을 회복한다. 이러한 자기 회귀 방식은 디코딩 중에 일방적인 의존성을 활용할 뿐이며 순서화를 위한 문장 간의 의미론적 의존성을 완전히 탐색할 수 없다. 이러한 한계를 극복하기 위해 본 논문에서는 \textit{라는 새로운 비자기회귀 순서 네트워크를 제안한다문장 간의 상호의존성을 탐색하고 각 위치별 문장을 병렬적으로 예측하는 NAON'. 우리는 1) 각 세대 대상이 결정론적 길이에 있고 2) 문장과 위치가 배타적으로 일치해야 한다는 두 가지 작업의 독특한 특성 때문에 비 자기 회귀 방식이 적용 가능할 뿐만 아니라 문장 순서 작업에도 특히 적합하다고 주장한다. 또한 순진한 비 자기 회귀 변환기의 반복 문제를 해결하기 위해 위치와 문장 간의 배타성을 제한하기 위해 배타적 손실을 도입한다. 제안된 모델의 효과를 검증하기 위해 일반적으로 사용되는 여러 데이터 세트에 대해 광범위한 실험을 수행하며 실험 결과는 우리의 방법이 모든 자동 회귀 접근 방식을 능가하고 최첨단과 비교하여 경쟁력 있는 성능을 제공한다는 것을 보여준다. 코드는 \url{this https URL}에서 사용할 수 있습니다. 

 

 

GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents

 

Abstract:Current gesture recognition systems primarily focus on identifying gestures within a predefined set, leaving a gap in connecting these gestures to interactive GUI elements or system functions (e.g., linking a 'thumb-up' gesture to a 'like' button). We introduce GestureGPT, a novel zero-shot gesture understanding and grounding framework leveraging large language models (LLMs). Gesture descriptions are formulated based on hand landmark coordinates from gesture videos and fed into our dual-agent dialogue system. A gesture agent deciphers these descriptions and queries about the interaction context (e.g., interface, history, gaze data), which a context agent organizes and provides. Following iterative exchanges, the gesture agent discerns user intent, grounding it to an interactive function. We validated the gesture description module using public first-view and third-view gesture datasets and tested the whole system in two real-world settings: video streaming and smart home IoT control. The highest zero-shot Top-5 grounding accuracies are 80.11% for video streaming and 90.78% for smart home tasks, showing potential of the new gesture understanding paradigm.

 

초록:현재의 제스처 인식 시스템들은 주로 미리 정의된 세트 내에서 제스처들을 식별하는 것에 초점을 맞추고 있으며, 이러한 제스처들을 대화형 GUI 요소들 또는 시스템 기능들에 연결하는 데에 공백을 남긴다(예컨대, '썸업' 제스처를 '좋아요' 버튼에 연결하는 것). 우리는 대형 언어 모델(LLM)을 활용한 새로운 제로샷 제스처 이해 및 접지 프레임워크인 제스처 GPT를 소개한다. 제스처 설명은 제스처 비디오에서 손 랜드마크 좌표를 기반으로 공식화되며 이중 에이전트 대화 시스템에 입력됩니다. 제스처 에이전트는 이러한 설명들을 해독하고, 컨텍스트 에이전트가 구성하고 제공하는 상호작용 컨텍스트(예를 들어, 인터페이스, 이력, 시선 데이터)에 대한 질의를 수행한다. 반복적인 교환 후, 제스처 에이전트는 사용자 의도를 식별하고, 이를 상호작용 기능에 접지시킨다. 공개 1-뷰 및 3-뷰 제스처 데이터 세트를 사용하여 제스처 설명 모듈을 검증하고 비디오 스트리밍과 스마트 홈 IoT 제어라는 두 가지 실제 설정에서 전체 시스템을 테스트했다. 가장 높은 제로샷 Top-5 접지 정확도는 비디오 스트리밍 80.11%, 스마트 홈 작업 90.78%로 새로운 제스처 이해 패러다임의 가능성을 보여준다. 

 

 

반응형

댓글