본문 바로가기
오늘의 자연어 처리

[2023-03-04] 오늘의 자연어처리

by 지환이아빠 2023. 3. 4.
반응형

Semiparametric Language Models Are Scalable Continual Learners

 

Semiparametric language models (LMs) have shown promise in continuously learning from new text data by combining a parameterized neural LM with a growable non-parametric memory for memorizing new content. However, conventional semiparametric LMs will finally become prohibitive for computing and storing if they are applied to continual learning over streaming data, because the non-parametric memory grows linearly with the amount of data they learn from over time. To address the issue of scalability, we present a simple and intuitive approach called Selective Memorization (SeMem), which only memorizes difficult samples that the model is likely to struggle with. We demonstrate that SeMem improves the scalability of semiparametric LMs for continual learning over streaming data in two ways: (1) data-wise scalability: as the model becomes stronger through continual learning, it will encounter fewer difficult cases that need to be memorized, causing the growth of the non-parametric memory to slow down over time rather than growing at a linear rate with the size of training data; (2) model-wise scalability: SeMem allows a larger model to memorize fewer samples than its smaller counterpart because it is rarer for a larger model to encounter incomprehensible cases, resulting in a non-parametric memory that does not scale linearly with model size. We conduct extensive experiments in language modeling and downstream tasks to test SeMem's results, showing SeMem enables a semiparametric LM to be a scalable continual learner with little forgetting.

 

반모수 언어 모델(LM)은 지속적으로 가능성을 보여주었다 매개 변수화된 신경 LM을 결합하여 새로운 텍스트 데이터로부터 학습합니다 확장 가능한 비모수 메모리를 통해 새로운 콘텐츠를 기억할 수 있습니다. 하지만, 전통적인 반모수 LMs는 마침내 컴퓨팅에서 금지될 것이다 스트리밍 데이터에 대한 지속적인 학습에 적용되는 경우 저장, 비모수 메모리는 데이터의 양에 따라 선형적으로 증가하기 때문입니다 오랜 세월에 걸쳐 배우다. 확장성 문제를 해결하기 위해, 우리는 간단한 것을 제시한다 그리고 선택적 암기(SeMem)라고 불리는 직관적인 접근법, 그것은 오직 모형이 어려움을 겪을 가능성이 있는 어려운 표본을 기억합니다. 우리가 SeMem이 다음에 대한 반모수 LM의 확장성을 향상시킨다는 것을 보여준다 스트리밍 데이터에 대한 지속적인 학습: (1) 데이터별 확장성: 모델이 지속적인 학습을 통해 더 강해질 때, 그것은 마주칠 것이다 기억해야 하는 어려운 사례가 적어져 성장을 유발한다 시간이 지남에 따라 속도가 느려지는 비모수 메모리는 선형으로 증가하지 않습니다 (2) 모델별 확장성: SeMem은 a를 허용한다 작은 상대보다 적은 수의 샘플을 기억하는 더 큰 모델은 그것 때문이다 더 큰 모델이 이해할 수 없는 경우에 직면하는 것은 더 드물다 모델 크기에 따라 선형으로 확장되지 않는 비모수 메모리. 우리는 지휘합니다 SeMem을 테스트하기 위한 언어 모델링 및 다운스트림 작업에 대한 광범위한 실험 결과, SeMem을 보여줌으로써 반모수 LM이 확장 가능한 연속체가 될 수 있다 거의 잊지 않고 배우다. 

 

 

PANACEA: An Automated Misinformation Detection System on COVID-19

 

In this demo, we introduce a web-based misinformation detection system PANACEA on COVID-19 related claims, which has two modules, fact-checking and rumour detection. Our fact-checking module, which is supported by novel natural language inference methods with a self-attention network, outperforms state-of-the-art approaches. It is also able to give automated veracity assessment and ranked supporting evidence with the stance towards the claim to be checked. In addition, PANACEA adapts the bi-directional graph convolutional networks model, which is able to detect rumours based on comment networks of related tweets, instead of relying on the knowledge base. This rumour detection module assists by warning the users in the early stages when a knowledge base may not be available.

 

이 데모에서는 웹 기반 오정보 탐지 시스템을 소개한다 COVID-19 관련 주장에 대한 PANACEA는 사실 확인 및 소문의 발각. 새로운 내추럴이 지원하는 팩트 체크 모듈 자기 주의 네트워크를 통한 언어 추론 방법, 성능을 능가한다 최첨단 접근법. 또한 자동화된 정확성을 제공할 수 있습니다 다음과 같은 주장에 대한 입장을 가진 평가 및 순위 입증 증거 견제를 받다. 또한 PANACEA는 양방향 그래프 컨볼루션을 적용합니다 네트워크 모델, 코멘트 네트워크를 기반으로 소문을 탐지할 수 있다 지식 기반에 의존하는 대신 관련 트윗. 이 소문의 발각 모듈은 기술 자료가 있는 초기 단계에서 사용자에게 경고함으로써 도움이 됩니다 사용할 수 없을 수 있습니다. 

 

 

Almanac: Knowledge-Grounded Language Models for Clinical Medicine

 

Large-language models have recently demonstrated impressive zero-shot capabilities in a variety of natural language tasks such as summarization, dialogue generation, and question-answering. Despite many promising applications in clinical medicine (e.g. medical record documentation, treatment guideline-lookup), adoption of these models in real-world settings has been largely limited by their tendency to generate factually incorrect and sometimes even toxic statements. In this paper we explore the ability of large-language models to facilitate and streamline medical guidelines and recommendation referencing: by enabling these model to access external point-of-care tools in response to physician queries, we demonstrate significantly improved factual grounding, helpfulness, and safety in a variety of clinical scenarios.

 

최근 큰 언어 모델은 인상적인 제로샷을 보여주었다 요약과 같은 다양한 자연어 작업의 능력, 대화 생성 및 질문 교환. 많은 유망함에도 불구하고 임상 의학에서의 응용(예: 의료 기록 문서, 치료) 가이드라인-수정), 실제 환경에서 이러한 모델을 채택해 왔다 사실적으로 부정확하고 때때로 발생하는 그들의 경향에 의해 크게 제한된다 심지어 독이 든 진술도. 이 논문에서 우리는 큰 언어의 능력을 탐구한다 의료 지침 및 권고 사항을 촉진하고 능률화하는 모델 참조: 이 모델이 외부 POS 도구에 액세스할 수 있도록 함으로써 의사의 질문에 대한 응답, 우리는 상당히 개선된 사실을 입증한다 다양한 임상 시나리오에서 접지, 유용성 및 안전성. 

 

 

반응형

댓글