본문 바로가기
오늘의 자연어 처리

[2022-09-21] 오늘의 자연어처리

by 지환이아빠 2022. 9. 21.
반응형

ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification

 

Lexical simplification (LS) is the task of automatically replacing complex words for easier ones making texts more accessible to various target populations (e.g. individuals with low literacy, individuals with learning disabilities, second language learners). To train and test models, LS systems usually require corpora that feature complex words in context along with their candidate substitutions. To continue improving the performance of LS systems we introduce ALEXSIS-PT, a novel multi-candidate dataset for Brazilian Portuguese LS containing 9,605 candidate substitutions for 387 complex words. ALEXSIS-PT has been compiled following the ALEXSIS protocol for Spanish opening exciting new avenues for cross-lingual models. ALEXSIS-PT is the first LS multi-candidate dataset that contains Brazilian newspaper articles. We evaluated four models for substitute generation on this dataset, namely mDistilBERT, mBERT, XLM-R, and BERTimbau. BERTimbau achieved the highest performance across all evaluation metrics.

 

어휘 단순화(LS)는 복합체를 자동으로 대체하는 작업이다. 텍스트를 다양한 대상에 보다 쉽게 접근할 수 있도록 하기 위한 단어 인구(예: 문맹률이 낮은 개인, 학습 능력이 있는 개인) 장애, 제2외국어 학습자). 모델, LS 시스템을 교육하고 테스트합니다. 보통 그들의 문맥과 함께 복잡한 단어를 특징으로 하는 말뭉치를 요구한다. 후보 교체 LS 시스템의 성능을 지속적으로 개선하기 위해 브라질 포르투갈어를 위한 새로운 다중 후보 데이터 세트인 ALEXSIS-PT를 소개합니다. LS는 387개의 복잡한 단어에 대한 9,605개의 후보 치환을 포함한다. 알렉시스-PT 스페인 오프닝 익사이팅에 대한 ALEXSIS 프로토콜에 따라 컴파일되었습니다. 다국어 모델을 위한 새로운 방법 ALEXSIS-PT는 첫 번째 LS입니다. 브라질 신문 기사를 포함하는 다중 후보 데이터 세트 우리가 이 데이터 세트에서 대체 생성을 위한 네 가지 모델을 평가했습니다. mDistilBERT, mBERT, XLM-R 및 BERTimbau. BERTimbau는 최고를 달성했습니다. 모든 평가 지표의 성능. 

 

 

LED down the rabbit hole: exploring the potential of global attention for biomedical multi-document summarisation

 

In this paper we report on our submission to the Multidocument Summarisation for Literature Review (MSLR) shared task. Specifically, we adapt PRIMERA (Xiao et al., 2022) to the biomedical domain by placing global attention on important biomedical entities in several ways. We analyse the outputs of the 23 resulting models, and report patterns in the results related to the presence of additional global attention, number of training steps, and the input configuration.

 

본 문서에서는 다중 문서 요약에 대한 제출에 대해 보고합니다. MSLR(Literature Review) 공유 작업. 구체적으로, 우리는 PRIMERA(샤오)를 채택한다. 전 세계적인 관심을 중요성에 두어 생물 의학 분야에 대한 연구. 외, 2022) 여러 가지 면에서 생물의학 실체. 우리는 결과 23개의 출력을 분석한다. 모델 및 보고서 패턴의 존재와 관련된 결과 추가 글로벌 주의, 교육 단계 수 및 입력 배열. 

 

 

Unsupervised Lexical Substitution with Decontextualised Embeddings

 

We propose a new unsupervised method for lexical substitution using pre-trained language models. Compared to previous approaches that use the generative capability of language models to predict substitutes, our method retrieves substitutes based on the similarity of contextualised and decontextualised word embeddings, i.e. the average contextual representation of a word in multiple contexts. We conduct experiments in English and Italian, and show that our method substantially outperforms strong baselines and establishes a new state-of-the-art without any explicit supervision or fine-tuning. We further show that our method performs particularly well at predicting low-frequency substitutes, and also generates a diverse list of substitute candidates, reducing morphophonetic or morphosyntactic biases induced by article-noun agreement.

 

우리는 다음을 사용하여 어휘 대체를 위한 새로운 감독되지 않은 방법을 제안한다. 사전 훈련된 언어 모델 기존 접근 방식에 비해 대체물을 예측하는 언어 모델의 생성 능력, 우리의 방법 문맥화된 와의 유사성에 기초하여 대체물을 검색한다. 비문맥화된 단어 임베딩, 즉 평균 문맥 표현 여러 문맥의 단어 우리는 영어와 이탈리아어로 실험을 하고, 우리의 방법이 강력한 기준선을 크게 능가하고 확립된다는 것을 보여준다. 명확한 감독이나 미세 조정 없이 새로운 최첨단 기술 우리가 또한 우리의 방법이 특히 예측에 뛰어나다는 것을 보여준다. 저주파 대체물, 그리고 또한 다양한 대체물의 목록을 생성한다. 후보, 에 의해 유도된 형태음성 또는 형태합성학적 편견을 감소시킨다. 물품 인도 협정 

 

 

반응형

댓글