Unifying Data Perspectivism and Personalization: An Application to Social Norms
Instead of using a single ground truth for language processing tasks, several recent studies have examined how to represent and predict the labels of the set of annotators. However, often little or no information about annotators is known, or the set of annotators is small. In this work, we examine a corpus of social media posts about conflict from a set of 13k annotators and 210k judgements of social norms. We provide a novel experimental setup that applies personalization methods to the modeling of annotators and compare their effectiveness for predicting the perception of social norms. We further provide an analysis of performance across subsets of social situations that vary by the closeness of the relationship between parties in conflict, and assess where personalization helps the most.
언어 처리 작업을 위해 단일 실측 정보를 사용하는 대신, 여러 개의 실측 정보를 사용할 수 있다. 최근의 연구는 세트의 라벨을 어떻게 표현하고 예측하는지를 조사했다. 주석자의. 그러나, 종종 주석자에 대한 정보가 거의 또는 전혀 없다. 알 수 있거나 주석자 집합이 작습니다. 이 연구에서, 우리는 말뭉치를 조사한다. 13,000명의 주석자와 210,000명의 의견 충돌에 대한 소셜 미디어 게시물. 사회 규범에 대한 판단 적용 가능한 새로운 실험 설정을 제공합니다. 주석자 모델링에 대한 개인화 방법 및 비교 사회 규범에 대한 인식을 예측하는 효과 우리는 추가로 제공한다. 사회적 상황의 하위 집합에 걸친 성과 분석. 분쟁 당사자들 간의 관계의 긴밀성 및 평가 개인화가 가장 도움이 됩니다.
A practical method for occupational skills detection in Vietnamese job listings
Vietnamese labor market has been under an imbalanced development. The number of university graduates is growing, but so is the unemployment rate. This situation is often caused by the lack of accurate and timely labor market information, which leads to skill miss-matches between worker supply and the actual market demands. To build a data monitoring and analytic platform for the labor market, one of the main challenges is to be able to automatically detect occupational skills from labor-related data, such as resumes and job listings. Traditional approaches rely on existing taxonomy and/or large annotated data to build Named Entity Recognition (NER) models. They are expensive and require huge manual efforts. In this paper, we propose a practical methodology for skill detection in Vietnamese job listings. Rather than viewing the task as a NER task, we consider the task as a ranking problem. We propose a pipeline in which phrases are first extracted and ranked in semantic similarity with the phrases' contexts. Then we employ a final classification to detect skill phrases. We collected three datasets and conducted extensive experiments. The results demonstrated that our methodology achieved better performance than a NER model in scarce datasets.
베트남 노동시장은 불균형한 발전을 해왔다. 갯수 대학 졸업자의 수는 증가하고 있지만, 실업률도 증가하고 있다. 이것. 상황은 종종 정확하고 시기 적절한 노동 시장의 부족에 의해 야기된다. 정보, 이는 근로자 공급과 기술 불일치로 이어진다. 실제 시장 수요 데이터 모니터링 및 분석 플랫폼을 구축하려면 노동 시장, 주요 과제 중 하나는 자동으로 감지할 수 있는 것이다. 이력서나 직업 목록과 같은 노동 관련 데이터에서 얻은 직업 기술 기존 접근 방식은 기존 분류법 및/또는 대규모 주석이 달린 데이터에 의존하여 명명된 엔티티 인식(NER) 모델을 구축합니다. 그것들은 비싸고 필요하다. 엄청난 수작업 본 논문에서, 우리는 다음을 위한 실용적인 방법론을 제안한다. 베트남 취업자 명단에서 기술 탐지. 태스크를 다음과 같이 보기보다는 NER 과제, 우리는 과제를 순위 문제로 간주한다. 에 파이프라인을 제안합니다. 어떤 구절이 먼저 추출되고 의미론적 유사성에서 순위가 매겨지는가. 어구의 문맥 그런 다음 기술을 탐지하기 위해 최종 분류를 사용합니다. 구. 우리는 세 개의 데이터 세트를 수집하고 광범위한 실험을 수행했다. 그 결과는 우리의 방법론이 a보다 더 나은 성능을 달성했다는 것을 보여주었다. 희소 데이터 세트의 NER 모델.
Improving Speech-to-Speech Translation Through Unlabeled Text
Direct speech-to-speech translation (S2ST) is among the most challenging problems in the translation paradigm due to the significant scarcity of S2ST data. While effort has been made to increase the data size from unlabeled speech by cascading pretrained speech recognition (ASR), machine translation (MT) and text-to-speech (TTS) models; unlabeled text has remained relatively under-utilized to improve S2ST. We propose an effective way to utilize the massive existing unlabeled text from different languages to create a large amount of S2ST data to improve S2ST performance by applying various acoustic effects to the generated synthetic data. Empirically our method outperforms the state of the art in Spanish-English translation by up to 2 BLEU. Significant gains by the proposed method are demonstrated in extremely low-resource settings for both Spanish-English and Russian-English translations.
직접 음성 대 음성 번역(S2ST)은 가장 어려운 것 중 하나이다. S2의 상당한 희소성으로 인한 번역 패러다임의 문제들세인트 데이터. 라벨이 부착되지 않은 데이터 크기를 늘리기 위해 노력해왔다. 사전 훈련된 음성 인식(ASR), 기계 번역 (MT) 및 TTS(Text-to-Speech) 모델. 레이블이 지정되지 않은 텍스트가 상대적으로 남아 있음 S2ST를 개선하기 위해 충분히 활용되지 않습니다. 우리는 그것을 활용하는 효과적인 방법을 제안한다. 여러 언어의 레이블이 지정되지 않은 기존 텍스트를 대량으로 생성 다양한 어쿠스틱을 적용하여 S2ST 성능을 향상시키기 위한 S2ST 데이터의 양 생성된 합성 데이터에 대한 영향. 경험적으로 우리의 방법은 다음을 능가한다. 스페인어-영어 번역의 최신 기술 (최대 2 BLEU).의미 제안된 방법에 의한 이득은 극도로 낮은 자원에서 입증된다. 스페인어-영어 및 러시아어-영어 번역 설정.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-10-30] 오늘의 자연어처리 (0) | 2022.10.30 |
---|---|
[2022-10-29] 오늘의 자연어처리 (0) | 2022.10.29 |
[2022-10-27] 오늘의 자연어처리 (0) | 2022.10.27 |
[2022-10-26] 오늘의 자연어처리 (0) | 2022.10.26 |
[2022-10-25] 오늘의 자연어처리 (0) | 2022.10.25 |
댓글