본문 바로가기
오늘의 자연어 처리

[2023-05-25] 오늘의 자연어처리

by 지환이아빠 2023. 5. 25.
반응형

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language

 

Empowering language is important in many real-world contexts, from education to workplace dynamics to healthcare. Though language technologies are growing more prevalent in these contexts, empowerment has not been studied in NLP, and moreover, it is inherently challenging to operationalize because of its subtle, implicit nature. This work presents the first computational exploration of empowering language. We first define empowerment detection as a new task, grounding it in linguistic and social psychology literature. We then crowdsource a novel dataset of Reddit posts labeled for empowerment, reasons why these posts are empowering to readers, and the social relationships between posters and readers. Our preliminary analyses show that this dataset, which we call TalkUp, can be used to train language models that capture empowering and disempowering language. More broadly, as it is rich with the ambiguities and diverse interpretations of real-world language, TalkUp provides an avenue to explore implication, presuppositions, and how social context influences the meaning of language.

 

언어에 권한을 부여하는 것은 교육에서 많은 실제 상황에서 중요하다 의료 서비스에 대한 직장 역학 관계. 언어 기술이 성장하고 있지만 이러한 맥락에서 더 일반적인 권한 부여는 NLP에서 연구되지 않았다 게다가, 그것은 본질적으로 미묘하기 때문에 운영하기 어렵다, 암묵적인 성질. 이 작업은 최초의 컴퓨터 탐사를 제시한다 힘을 실어주는 언어. 먼저 권한 부여 탐지를 새로운 작업으로 정의합니다, 언어 및 사회 심리학 문헌에서 그것을 기초로 한다. 그럼 우리는 크라우드 소스 권한 부여, 이유로 레이블이 지정된 레딧 게시물의 새로운 데이터 세트 왜 이 게시물들이 독자들에게 힘을 실어주고 있는지, 그리고 사이의 사회적 관계 포스터와 독자들. 우리의 예비 분석에 따르면 이 데이터 세트는, 우리가 Call TalkUp은 권한 부여 및 기능 강화를 캡처하는 언어 모델을 훈련하는 데 사용할 수 있습니다 힘없는 말. 더 광범위하게, 그것은 모호성과 풍부하기 때문에 실제 언어의 다양한 해석, TalkUp은 다음과 같은 방법을 제공한다 시사점, 전제, 그리고 사회적 맥락이 어떻게 영향을 미치는지 탐구한다 언어의 의미. 

 

 

Empowering LLM-based Machine Translation with Cultural Awareness

 

Traditional neural machine translation (NMT) systems often fail to translate sentences that contain culturally specific information. Most previous NMT methods have incorporated external cultural knowledge during training, which requires fine-tuning on low-frequency items specific to the culture. Recent in-context learning utilizes lightweight prompts to guide large language models (LLMs) to perform machine translation, however, whether such an approach works in terms of injecting culture awareness into machine translation remains unclear. To this end, we introduce a new data curation pipeline to construct a culturally relevant parallel corpus, enriched with annotations of cultural-specific entities. Additionally, we design simple but effective prompting strategies to assist this LLM-based translation. Extensive experiments show that our approaches can largely help incorporate cultural knowledge into LLM-based machine translation, outperforming traditional NMT systems in translating cultural-specific sentences.

 

전통적인 신경 기계 번역(NMT) 시스템은 종종 번역에 실패한다 문화적으로 구체적인 정보를 담고 있는 문장들. 가장 이전 NMT 방법은 훈련 동안 외부 문화 지식을 통합했다 문화에 특화된 저주파 항목을 미세 조정해야 합니다. 최근. 대규모 언어 모델을 안내하기 위해 경량 프롬프트를 활용하는 학습 기계 번역을 수행하기 위해 (LLMs), 그러나 그러한 접근 방식이 작동하는지 여부 기계 번역에 문화 인식을 주입하는 측면에서 남아있다 불명확한. 이를 위해, 우리는 새로운 데이터 큐레이션 파이프라인을 도입하여 다음을 구성한다 문화적으로 관련된 병렬 말뭉치, 주석으로 풍부함 문화적 특수성. 또한, 우리는 단순하지만 효과적인 디자인을 한다 이 LLM 기반 번역을 지원하기 위한 전략을 요청합니다. 광범위한 실험은 우리의 접근법이 문화를 통합하는 데 크게 도움이 될 수 있다는 것을 보여준다 LLM 기반 기계 번역에 대한 지식, 기존 NMT를 능가하는 성능 문화적 특정 문장을 번역하는 시스템. 

 

 

Evaluating and Modeling Attribution for Cross-Lingual Question Answering

 

Trustworthy answer content is abundant in many high-resource languages and is instantly accessible through question answering systems, yet this content can be hard to access for those that do not speak these languages. The leap forward in cross-lingual modeling quality offered by generative language models offers much promise, yet their raw generations often fall short in factuality. To improve trustworthiness in these systems, a promising direction is to attribute the answer to a retrieved source, possibly in a content-rich language different from the query. Our work is the first to study attribution for cross-lingual question answering. First, we collect data in 5 languages to assess the attribution level of a state-of-the-art cross-lingual QA system. To our surprise, we find that a substantial portion of the answers is not attributable to any retrieved passages (up to 50% of answers exactly matching a gold reference) despite the system being able to attend directly to the retrieved text. Second, to address this poor attribution level, we experiment with a wide range of attribution detection techniques. We find that Natural Language Inference models and PaLM 2 fine-tuned on a very small amount of attribution data can accurately detect attribution. Based on these models, we improve the attribution level of a cross-lingual question-answering system. Overall, we show that current academic generative cross-lingual QA systems have substantial shortcomings in attribution and we build tooling to mitigate these issues.

 

신뢰할 수 있는 답변 내용은 많은 고자원 언어로 풍부하며 질문 답변 시스템을 통해 즉시 접근할 수 있지만, 이 콘텐츠는 할 수 있다 이 언어들을 사용하지 않는 사람들은 접근하기 어렵다. 도약 생성 언어 모델이 제공하는 교차 언어 모델링 품질 많은 가능성이 있지만, 그들의 원시 세대는 종종 현실에 미치지 못한다. 로. 이러한 시스템의 신뢰성을 향상시키는 것, 유망한 방향은 속성을 부여하는 것이다 검색된 출처에 대한 답, 아마도 다른 내용이 풍부한 언어로 조회에서. 우리의 연구는 교차 언어의 속성을 연구한 최초의 것이다 질문에 답하다. 먼저, 우리는 5개 언어로 된 데이터를 수집하여 평가한다 최첨단 교차 언어 QA 시스템의 귀속 수준. 우리에게 놀랍게도, 우리는 대답의 상당 부분이 귀책이 아니라는 것을 발견했다 검색된 지문(최대 50%의 답변이 정확히 일치함) 참조) 시스템이 검색된 항목에 직접 참여할 수 있음에도 불구하고 텍스트. 둘째, 이러한 낮은 귀인 수준을 해결하기 위해, 우리는 광범위한 실험을 한다 다양한 귀인 감지 기술. 우리는 자연어를 발견한다 추론 모델과 PaLM2는 매우 적은 양의 속성으로 미세 조정되었다 데이터는 정확하게 속성을 탐지할 수 있습니다. 이 모델들을 기반으로, 우리는 개선한다 다국어 질문-응답 시스템의 귀인 수준. 전체적으로 저희가 현재 학술적 생성 언어 간 QA 시스템이 상당한 수준을 가지고 있음을 보여준다 귀인의 단점과 이러한 문제를 완화하기 위한 툴링을 구축합니다. 

 

 

반응형

댓글