본문 바로가기
오늘의 자연어 처리

[2023-03-10] 오늘의 자연어처리

by 지환이아빠 2023. 3. 10.
반응형

CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization

 

Cross-lingual summarization (CLS) has attracted increasing interest in recent years due to the availability of large-scale web-mined datasets and the advancements of multilingual language models. However, given the rareness of naturally occurring CLS resources, the majority of datasets are forced to rely on translation which can contain overly literal artifacts. This restricts our ability to observe naturally occurring CLS pairs that capture organic diction, including instances of code-switching. This alteration between languages in mid-message is a common phenomenon in multilingual settings yet has been largely overlooked in cross-lingual contexts due to data scarcity. To address this gap, we introduce CroCoSum, a dataset of cross-lingual code-switched summarization of technology news. It consists of over 24,000 English source articles and 18,000 human-curated Chinese news summaries, with more than 92% of the summaries containing code-switched phrases. For reference, we evaluate the performance of existing approaches including pipeline, end-to-end, and zero-shot methods. We show that leveraging existing resources as a pretraining step does not improve performance on CroCoSum, indicating the limited generalizability of existing resources. Finally, we discuss the challenges of evaluating cross-lingual summarizers on code-switched generation through qualitative error analyses. Our collection and code can be accessed at this https URL.

 

언어 간 요약(CLS)은 최근에 점점 더 많은 관심을 끌고 있다 대규모 웹 사이트 데이터 세트의 가용성으로 인해 몇 년 동안 다국어 언어 모델의 발전. 그러나 의 희귀성을 고려할 때 자연적으로 발생하는 CLS 리소스, 대부분의 데이터셋은 의존해야 합니다 지나치게 문자 그대로의 아티팩트를 포함할 수 있는 번역. 이것은 우리를 제한한다 자연적으로 발생하는 CLS 쌍을 관찰하는 능력은 유기적인 단어를 포착한다, 암호 해독 사례를 포함해서요. 에서 언어들 사이의 이러한 변화는 중간 언어는 다국어 환경에서 아직까지 일반적인 현상이다 데이터 부족으로 인해 언어 간 맥락에서 크게 간과되었다. 주소 지정 이 격차, 우리는 교차 언어 코드 교환 데이터 세트인 CroCoSum을 소개한다 기술 뉴스 요약. 그것은 24,000개 이상의 영어 출처로 구성되어 있다 기사와 인간이 큐레이션한 18,000개의 중국 뉴스 요약은 92% 이상이다 암호를 해독하는 구문이 포함된 요약. 참고로, 우리는 다음을 평가한다 기존 접근 방식의 성능(파이프라인, 엔드 투 엔드 및 제로샷 방식. 우리는 기존 리소스를 사전 교육으로 활용한다는 것을 보여줍니다 단계가 CroCoSum의 성능을 향상시키지 못하므로 제한이 있음을 나타냅니다 기존 자원의 일반화 가능성. 마지막으로, 우리는 다음과 같은 과제에 대해 논의한다 코드 변환 생성에 대한 언어 간 요약자 평가 정성적 오류 분석. 우리의 컬렉션과 코드는 다음 사이트에서 액세스할 수 있습니다 이 https URL. 

 

 

How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding

 

While the successes of transformers across many domains are indisputable, accurate understanding of the learning mechanics is still largely lacking. Their capabilities have been probed on benchmarks which include a variety of structured and reasoning tasks -- but mathematical understanding is lagging substantially behind. Recent lines of work have begun studying representational aspects of this question: that is, the size/depth/complexity of attention-based networks to perform certain tasks. However, there is no guarantee the learning dynamics will converge to the constructions proposed. In our paper, we provide fine-grained mechanistic understanding of how transformers learn "semantic structure", understood as capturing co-occurrence structure of words. Precisely, we show, through a combination of experiments on synthetic data modeled by Latent Dirichlet Allocation (LDA), Wikipedia data, and mathematical analysis that the embedding layer and the self-attention layer encode the topical structure. In the former case, this manifests as higher average inner product of embeddings between same-topic words. In the latter, it manifests as higher average pairwise attention between same-topic words. The mathematical results involve several assumptions to make the analysis tractable, which we verify on data, and might be of independent interest as well.

 

많은 영역에 걸친 변압기의 성공은 논란의 여지가 없지만, 학습 역학에 대한 정확한 이해는 여전히 크게 부족하다. 그들의 능력은 다양한 벤치마크에서 조사되었다 체계적이고 추론적인 과제 - 그러나 수학적 이해는 뒤쳐져 있다 상당히 뒤떨어져. 최근의 일들은 대표성을 연구하기 시작했다 이 질문의 측면: 즉, 주의 기반의 크기/깊이/복잡성 특정 작업을 수행하기 위한 네트워크입니다. 그러나 학습을 보장하는 것은 아니다 역학은 제안된 구성으로 수렴될 것이다. 우리의 논문에서, 우리는 트랜스포머가 "학습"하는 방법에 대한 세분화된 기계적 이해 structure", 단어의 동시 발생 구조를 캡처하는 것으로 이해된다. 정확하게, 우리는 합성 데이터에 대한 실험의 조합을 통해 보여준다 잠재 디리클레 할당(LDA), 위키백과 데이터 및 수학에 의해 모델링되었다 임베딩 레이어와 자기 주의 레이어가 암호화한다는 분석 국소 구조. 전자의 경우, 이것은 더 높은 평균 내부로 나타난다 동일한 단어 사이에 삽입된 결과. 후자에서는 다음과 같이 나타난다 동일한 단어 사이의 더 높은 평균 쌍별 주의. 수학적인 것 결과는 분석을 다루기 쉽게 만들기 위한 몇 가지 가정을 포함한다 데이터를 검증하고 독립적으로 관심을 가질 수도 있습니다. 

 

 

SemEval-2023 Task 10: Explainable Detection of Online Sexism

 

Online sexism is a widespread and harmful phenomenon. Automated tools can assist the detection of sexism at scale. Binary detection, however, disregards the diversity of sexist content, and fails to provide clear explanations for why something is sexist. To address this issue, we introduce SemEval Task 10 on the Explainable Detection of Online Sexism (EDOS). We make three main contributions: i) a novel hierarchical taxonomy of sexist content, which includes granular vectors of sexism to aid explainability; ii) a new dataset of 20,000 social media comments with fine-grained labels, along with larger unlabelled datasets for model adaptation; and iii) baseline models as well as an analysis of the methods, results and errors for participant submissions to our task.

 

온라인 성차별은 널리 퍼져있고 해로운 현상이다. 자동화된 도구를 통해 규모에 따라 성차별을 발견하는 데 도움이 되다. 그러나 이진 탐지는 무시합니다 성차별적인 내용의 다양성, 그리고 명확한 설명을 제공하는 데 실패한다 왜 무언가가 성차별적인지. 이 문제를 해결하기 위해 SemEval Task 10을 소개합니다 온라인 성차별에 대한 설명 가능한 탐지(EDOS). 우리는 3개의 메인을 만든다 기여: i) 성차별적 내용에 대한 새로운 계층적 분류법 설명 가능성을 돕기 위해 성차별의 세분화된 벡터를 포함한다; ii)의 새로운 데이터 세트 세분화된 레이블과 더 큰 레이블이 있는 20,000개의 소셜 미디어 댓글 모델 적응을 위한 레이블이 없는 데이터 세트 및 iii) 기준 모델 참가자 제출 방법, 결과 및 오류 분석 우리의 임무. 

 

 

반응형

댓글