본문 바로가기
오늘의 자연어 처리

[2023-06-12] 오늘의 자연어처리

by 지환이아빠 2023. 6. 12.
반응형

Extensive Evaluation of Transformer-based Architectures for Adverse Drug Events Extraction

 

Adverse Event (ADE) extraction is one of the core tasks in digital pharmacovigilance, especially when applied to informal texts. This task has been addressed by the Natural Language Processing community using large pre-trained language models, such as BERT. Despite the great number of Transformer-based architectures used in the literature, it is unclear which of them has better performances and why. Therefore, in this paper we perform an extensive evaluation and analysis of 19 Transformer-based models for ADE extraction on informal texts. We compare the performance of all the considered models on two datasets with increasing levels of informality (forums posts and tweets). We also combine the purely Transformer-based models with two commonly-used additional processing layers (CRF and LSTM), and analyze their effect on the models performance. Furthermore, we use a well-established feature importance technique (SHAP) to correlate the performance of the models with a set of features that describe them: model category (AutoEncoding, AutoRegressive, Text-to-Text), pretraining domain, training from scratch, and model size in number of parameters. At the end of our analyses, we identify a list of take-home messages that can be derived from the experimental data.

 

유해 이벤트(ADE) 추출은 디지털의 핵심 작업 중 하나이다 특히 비공식적인 텍스트에 적용될 때 약의 경계. 이 작업은 다음과 같습니다 대규모를 사용하는 자연어 처리 커뮤니티에 의해 처리되었다 BERT와 같은 사전 훈련된 언어 모델. 많은 수에도 불구하고 문헌에 사용된 변압기 기반 아키텍처 중 어느 것이 불확실하다 그들은 더 나은 성과와 이유를 가지고 있다. 그러므로, 이 논문에서 우리는 다음을 수행한다 19개의 ADE용 Transformer 기반 모델에 대한 광범위한 평가 및 분석 비공식 텍스트의 발췌. 우리는 고려된 모든 것의 성능을 비교한다 두 개의 데이터 세트에 대한 모델을 제공하며, 더 많은 수준의 비공식성을 제공합니다(게시물 및 트윗). 우리는 또한 순수한 트랜스포머 기반 모델을 두 가지와 결합한다 일반적으로 사용되는 추가 처리 계층(CRF 및 LSTM) 및 분석 모델 성능에 미치는 영향. 게다가, 우리는 잘 확립된 것을 사용한다 모델의 성능을 상관시키는 기능 중요도 기법(SHAP) 모델 범주(AutoEncoding, 자동 인코딩, 자동 회귀, 텍스트-텍스트), 사전 교육 도메인, 처음부터 교육 및 모형 크기(파라미터 수)입니다. 분석의 마지막에, 우리는 다음을 확인한다 실험 데이터에서 파생될 수 있는 테이크홈 메시지 목록입니다. 

 

 

Mapping Brains with Language Models: A Survey

 

Over the years, many researchers have seemingly made the same observation: Brain and language model activations exhibit some structural similarities, enabling linear partial mappings between features extracted from neural recordings and computational language models. In an attempt to evaluate how much evidence has been accumulated for this observation, we survey over 30 studies spanning 10 datasets and 8 metrics. How much evidence has been accumulated, and what, if anything, is missing before we can draw conclusions? Our analysis of the evaluation methods used in the literature reveals that some of the metrics are less conservative. We also find that the accumulated evidence, for now, remains ambiguous, but correlations with model size and quality provide grounds for cautious optimism.

 

지난 몇 년간 많은 연구자들이 동일한 관찰을 한 것으로 보인다: 뇌와 언어 모델 활성화는 몇 가지 구조적 유사성을 보여준다, 신경에서 추출된 형상 사이의 선형 부분 매핑 활성화 기록과 컴퓨터 언어 모델. 방법을 평가하기 위한 시도로 이 관찰에 대한 많은 증거가 축적되었다, 우리는 30개 이상의 조사를 했다 10개의 데이터 세트와 8개의 메트릭에 걸친 연구. 얼마나 많은 증거들이 누적되고, 만약 있다면, 우리가 결론을 도출하기 전에 무엇이 누락되었는가? 문헌에 사용된 평가 방법에 대한 우리의 분석은 몇몇이 측정 기준 중에서 덜 보수적입니다. 우리는 또한 누적된 사람들이 증거는, 현재, 모호하게 남아있지만, 모델 크기와의 상관관계와 품질은 신중한 낙관론의 근거를 제공한다. 

 

 

On Search Strategies for Document-Level Neural Machine Translation

 

Compared to sentence-level systems, document-level neural machine translation (NMT) models produce a more consistent output across a document and are able to better resolve ambiguities within the input. There are many works on document-level NMT, mostly focusing on modifying the model architecture or training strategy to better accommodate the additional context-input. On the other hand, in most works, the question on how to perform search with the trained model is scarcely discussed, sometimes not mentioned at all. In this work, we aim to answer the question how to best utilize a context-aware translation model in decoding. We start with the most popular document-level NMT approach and compare different decoding schemes, some from the literature and others proposed by us. In the comparison, we are using both, standard automatic metrics, as well as specific linguistic phenomena on three standard document-level translation benchmarks. We find that most commonly used decoding strategies perform similar to each other and that higher quality context information has the potential to further improve the translation.

 

문장 수준 시스템과 비교하여 문서 수준 신경 기계 번역 (NMT) 모델은 문서 전반에 걸쳐 보다 일관된 출력을 제공하며 다음과 같은 기능을 제공합니다 입력 내의 모호성을 더 잘 해결할 수 있습니다. 에 관한 많은 연구가 있다 문서 수준 NMT, 대부분 모델 아키텍처 수정에 초점을 맞춥니다 추가 컨텍스트 입력을 더 잘 수용하기 위한 교육 전략. 에서 다른 한편으로, 대부분의 작품에서, 어떻게 검색을 수행하는지에 대한 질문 훈련된 모델은 거의 논의되지 않으며, 때때로 전혀 언급되지 않는다. 이 점에서. 작업, 우리는 상황 인식을 가장 잘 활용하는 방법에 대한 질문에 답하는 것을 목표로 한다 디코딩의 번역 모델. 가장 일반적인 문서 레벨부터 시작합니다 NMT 접근 및 비교, 일부는 문헌에서 나온 다양한 디코딩 체계 그리고 우리가 제안한 다른 것들. 이와 비교하여, 우리는 두 가지 표준을 모두 사용하고 있다 3가지 표준에 대한 특정 언어 현상뿐만 아니라 자동 메트릭 문서 수준의 번역 벤치마크. 우리는 가장 일반적으로 사용되는 디코딩이 전략은 서로 유사하고 더 높은 품질의 맥락에서 수행된다 정보는 번역을 더욱 향상시킬 수 있는 잠재력을 가지고 있다. 

 

 

반응형

댓글