본문 바로가기
오늘의 자연어 처리

[2023-04-05] 오늘의 자연어처리

by 지환이아빠 2023. 4. 5.
반응형

MMT: A Multilingual and Multi-Topic Indian Social Media Dataset

 

Social media plays a significant role in cross-cultural communication. A vast amount of this occurs in code-mixed and multilingual form, posing a significant challenge to Natural Language Processing (NLP) tools for processing such information, like language identification, topic modeling, and named-entity recognition. To address this, we introduce a large-scale multilingual, and multi-topic dataset (MMT) collected from Twitter (1.7 million Tweets), encompassing 13 coarse-grained and 63 fine-grained topics in the Indian context. We further annotate a subset of 5,346 tweets from the MMT dataset with various Indian languages and their code-mixed counterparts. Also, we demonstrate that the currently existing tools fail to capture the linguistic diversity in MMT on two downstream tasks, i.e., topic modeling and language identification. To facilitate future research, we will make the anonymized and annotated dataset available in the public domain.

 

소셜 미디어는 이문화적 의사소통에서 중요한 역할을 한다. 광활한 이것의 양은 코드 혼합 및 다국어 형태로 발생하며, 상당한 양을 제시한다 이러한 처리를 위한 자연어 처리(NLP) 도구에 대한 도전 언어 식별, 주제 모델링 및 명명 규칙과 같은 정보 인지도. 이를 해결하기 위해 대규모 다국어를 도입하고 트위터에서 수집된 다중 주제 데이터 세트(MMT)(170만 개의 트윗), 인디언의 13개의 거친 주제와 63개의 고운 주제를 포함한다 맥락. 우리는 MMT 데이터 세트의 5,346개 트윗의 하위 집합에 추가로 주석을 달았다 다양한 인도 언어와 코드가 혼합된 언어들. 그리고 저희가 현재 존재하는 도구가 언어학적 이해에 실패했음을 증명하다 주제 모델링 및 언어와 같은 두 가지 다운스트림 작업에 대한 MMT의 다양성 신분증. 향후 연구를 용이하게 하기 위해, 우리는 익명화하고 주석이 달린 데이터 세트를 공개 도메인에서 사용할 수 있습니다. 

 

 

Multilingual Word Error Rate Estimation: e-WER3

 

The success of the multilingual automatic speech recognition systems empowered many voice-driven applications. However, measuring the performance of such systems remains a major challenge, due to its dependency on manually transcribed speech data in both mono- and multilingual scenarios. In this paper, we propose a novel multilingual framework -- eWER3 -- jointly trained on acoustic and lexical representation to estimate word error rate. We demonstrate the effectiveness of eWER3 to (i) predict WER without using any internal states from the ASR and (ii) use the multilingual shared latent space to push the performance of the close-related languages. We show our proposed multilingual model outperforms the previous monolingual word error rate estimation method (eWER2) by an absolute 9\% increase in Pearson correlation coefficient (PCC), with better overall estimation between the predicted and reference WER.

 

다국어 자동 음성 인식 시스템의 성공 다양한 음성 기반 애플리케이션을 지원합니다. 그러나, 성능 측정 이러한 시스템은 수동에 의존하기 때문에 여전히 주요 과제로 남아 있다 단일 언어 및 다국어 시나리오 모두에서 기록된 음성 데이터. 이 점에서. 논문, 우리는 공동으로 훈련된 새로운 다국어 프레임워크인 eWER3를 제안한다 단어 오류율을 추정하기 위한 음향 및 어휘 표현. 우리는 시범을 보인다 (i) 내부 상태를 사용하지 않고 WER을 예측하기 위한 eWER3의 효과 ASR에서 그리고 (ii) 다중 언어 공유 잠재 공간을 사용하여 밀어냅니다 밀접한 관련이 있는 언어의 성능. 우리는 제안된 다국어를 보여준다 모델은 이전의 단일 언어 단어 오류율 추정 방법을 능가한다 (eWER2) Pearson 상관 계수(PCC)의 절대적인 9\% 증가, 예측된 WER과 기준 WER 사이의 전반적인 추정을 더 잘 수행한다. 

 

 

Design Choices for Crowdsourcing Implicit Discourse Relations: Revealing the Biases Introduced by Task Design

 

Disagreement in natural language annotation has mostly been studied from a perspective of biases introduced by the annotators and the annotation frameworks. Here, we propose to analyze another source of bias: task design bias, which has a particularly strong impact on crowdsourced linguistic annotations where natural language is used to elicit the interpretation of laymen annotators. For this purpose we look at implicit discourse relation annotation, a task that has repeatedly been shown to be difficult due to the relations' ambiguity. We compare the annotations of 1,200 discourse relations obtained using two distinct annotation tasks and quantify the biases of both methods across four different domains. Both methods are natural language annotation tasks designed for crowdsourcing. We show that the task design can push annotators towards certain relations and that some discourse relations senses can be better elicited with one or the other annotation approach. We also conclude that this type of bias should be taken into account when training and testing models.

 

자연어 주석의 불일치는 대부분 다음과 같이 연구되었다 주석자와 주석에 의해 도입된 편향의 관점 골조. 여기서, 우리는 편향의 또 다른 원천인 작업 설계를 분석할 것을 제안한다 크라우드소싱 언어학에 특히 강한 영향을 미치는 편향 자연어가 해석을 이끌어내기 위해 사용되는 주석 평신도 주석자. 이 목적을 위해 우리는 암묵적인 담론 관계를 살펴본다 주석, 반복적으로 어려운 것으로 나타난 작업 관계의 모호성. 우리는 1,200개의 담화 관계의 주석을 비교한다 두 개의 별개의 주석 작업을 사용하여 얻은 것과 두 가지의 편향을 정량화한다 4개의 서로 다른 도메인에 걸친 방법. 두 방법 모두 자연어이다 크라우드소싱을 위해 설계된 주석 작업. 우리는 작업 설계가 가능하다는 것을 보여준다 주석자들을 특정 관계와 일부 담화 관계로 몰아붙이다 감각은 하나 또는 다른 주석 접근법으로 더 잘 도출될 수 있다. 우리가 또한 훈련할 때 이러한 유형의 편견이 고려되어야 한다고 결론짓는다 및 테스트 모델. 

 

 

반응형

댓글