본문 바로가기
오늘의 자연어 처리

[2022-10-13] 오늘의 자연어처리

by 지환이아빠 2022. 10. 13.
반응형

On Text Style Transfer via Style Masked Language Models

 

Text Style Transfer (TST) is performable through approaches such as latent space disentanglement, cycle-consistency losses, prototype editing etc. The prototype editing approach, which is known to be quite successful in TST, involves two key phases a) Masking of source style-associated tokens and b) Reconstruction of this source-style masked sentence conditioned with the target style. We follow a similar transduction method, in which we transpose the more difficult direct source to target TST task to a simpler Style-Masked Language Model (SMLM) Task, wherein, similar to BERT \cite{bert}, the goal of our model is now to reconstruct the source sentence from its style-masked version. We arrive at the SMLM mechanism naturally by formulating prototype editing/ transduction methods in a probabilistic framework, where TST resolves into estimating a hypothetical parallel dataset from a partially observed parallel dataset, wherein each domain is assumed to have a common latent style-masked prior. To generate this style-masked prior, we use "Explainable Attention" as our choice of attribution for a more precise style-masking step and also introduce a cost-effective and accurate "Attribution-Surplus" method of determining the position of masks from any arbitrary attribution model in O(1) time. We empirically show that this non-generational approach well suites the "content preserving" criteria for a task like TST, even for a complex style like Discourse Manipulation. Our model, the Style MLM, outperforms strong TST baselines and is on par with state-of-the-art TST models, which use complex architectures and orders of more parameters.

 

텍스트 스타일 전송(TST)은 잠재 방식과 같은 접근 방식을 통해 수행할 수 있습니다. 공간 분리, 사이클 일관성 손실, 프로토타입 편집 등. 그 TST에서 상당히 성공적인 것으로 알려진 프로토타입 편집 접근법 두 가지 핵심 단계를 포함합니다. a) 소스 스타일 관련 토큰 마스킹 및 b) 대상으로 조건화된 이 소스 스타일 마스크 문장의 재구성 스타일. 우리는 유사한 변환 방법을 따른다. 우리는 더 많은 것을 전치한다. TST 작업을 보다 단순한 스타일 마스크 언어로 타겟팅하기 어려운 직접 소스 모델(SMLM) 과제, 여기서 BERT \cite{bert}와 유사하게, 우리 모델의 목표. 이제 스타일 지정 버전에서 원본 문장을 재구성합니다. 우리가 프로토타입 편집을 공식화함으로써 자연스럽게 SMLM 메커니즘에 도달한다. TST가 분해되는 확률론적 프레임워크의 변환 방법 부분적으로 관측된 병렬에서 가상 병렬 데이터 세트 추정 데이터 세트, 여기서 각 도메인은 공통 잠재 스타일-패턴을 가지고 있다고 가정한다. 이전. 이 스타일로 마스크된 이전을 생성하기 위해 "설명 가능한 주의"를 사용합니다. 보다 정확한 스타일링 단계를 위한 우리의 귀속 선택 그리고 또한. 비용 효율적이고 정확한 "귀속-잉여" 방법을 도입하다. O(1)에서 임의의 귀속 모델에서 마스크 위치 결정 시간. 우리는 경험적으로 이 비세대적 접근법이 다음과 잘 어울린다는 것을 보여준다. 복잡한 스타일의 경우에도 TST와 같은 작업에 대한 "콘텐츠 보존" 기준 '담화 조작'처럼요 우리의 모델인 Style MLM은 강력한 TST를 능가합니다. 복합체를 사용하는 최첨단 TST 모델과 동등합니다. 아키텍처 및 더 많은 매개 변수의 순서. 

 

 

Improving Radiology Report Generation Systems by Removing Hallucinated References to Non-existent Priors

 

Current deep learning models trained to generate radiology reports from chest radiographs are capable of producing clinically accurate, clear, and actionable text that can advance patient care. However, such systems all succumb to the same problem: making hallucinated references to non-existent prior reports. Such hallucinations occur because these models are trained on datasets of real-world patient reports that inherently refer to priors. To this end, we propose two methods to remove references to priors in radiology reports: (1) a GPT-3-based few-shot approach to rewrite medical reports without references to priors; and (2) a BioBERT-based token classification approach to directly remove words referring to priors. We use the aforementioned approaches to modify MIMIC-CXR, a publicly available dataset of chest X-rays and their associated free-text radiology reports; we then retrain CXR-RePaiR, a radiology report generation system, on the adapted MIMIC-CXR dataset. We find that our re-trained model--which we call CXR-ReDonE--outperforms previous report generation methods on clinical metrics, achieving an average BERTScore of 0.2351 (2.57% absolute improvement). We expect our approach to be broadly valuable in enabling current radiology report generation systems to be more directly integrated into clinical pipelines.

 

흉부에서 방사선 보고서를 생성하도록 훈련된 현재 딥 러닝 모델 방사선 사진은 임상적으로 정확하고 명확하며 실행 가능한 것을 생산할 수 있다. 환자 치료를 향상시킬 수 있는 텍스트입니다. 그러나, 그러한 시스템들은 모두 그것에 굴복한다. 동일한 문제: 존재하지 않는 이전 보고서에 환각적인 참조를 만듭니다. 이러한 환각은 이러한 모델이 데이터 세트에 대해 훈련되기 때문에 발생한다. 본질적으로 이전과 관련된 실제 환자 보고서 이를 위해, 우리는 방사선 보고서의 이전 참조를 제거하는 두 가지 방법을 제안한다. (1) a 의료 보고서를 참조 없이 다시 쓰는 GPT-3 기반 퓨샷 접근법 이전 및 (2) 직접에 대한 BioBERT 기반 토큰 분류 접근법 선문을 삭제하다 우리는 앞서 언급한 접근 방식을 사용한다. 흉부 X선 및 흉부 X선의 공개적으로 사용 가능한 데이터 세트인 MIMIC-CXR을 수정합니다. 관련 자유 텍스트 방사선 보고서; 우리는 방사선학인 CXR-RePaiR을 재교육한다. 적응된 MIMIC-CXR 데이터 세트에 대한 보고서 생성 시스템. 우리는 우리의 것을 발견한다. 우리가 CXR-ReDonE라고 부르는 재교육 모델은 이전 보고서를 능가한다. 임상 지표에 대한 생성 방법, 평균 BERTS 점수 달성 0.2351(2.57% 절대 개선). 우리는 우리의 접근 방식이 광범위할 것으로 예상한다. 현재 방사선 보고서 생성 시스템을 보다 효율적으로 만드는 데 도움이 됩니다. 임상 파이프라인에 직접 통합됩니다. 

 

 

Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity

 

Automatic Audio Captioning (AAC) refers to the task of translating an audio sample into a natural language (NL) text that describes the audio events, source of the events and their relationships. Unlike NL text generation tasks, which rely on metrics like BLEU, ROUGE, METEOR based on lexical semantics for evaluation, the AAC evaluation metric requires an ability to map NL text (phrases) that correspond to similar sounds in addition lexical semantics. Current metrics used for evaluation of AAC tasks lack an understanding of the perceived properties of sound represented by text. In this paper, wepropose a novel metric based on Text-to-Audio Grounding (TAG), which is, useful for evaluating cross modal tasks like AAC. Experiments on publicly available AAC data-set shows our evaluation metric to perform better compared to existing metrics used in NL text and image captioning literature.

 

자동 오디오 캡션(AAC)은 오디오를 번역하는 작업을 말합니다. 오디오 이벤트를 설명하는 자연어(NL) 텍스트 샘플, 사건의 출처와 그 관계. NL 텍스트 생성 작업과 달리 어휘 의미론에 기반한 BLEU, ROUGE, METEOR와 같은 메트릭스에 의존합니다. 평가, AAC 평가 메트릭은 NL 텍스트를 매핑하는 기능이 필요합니다. 어휘 의미론에서 유사한 소리에 해당하는 (언어) AAC 작업의 평가에 사용되는 현재 메트릭은 다음을 이해하지 못합니다. 텍스트로 표현되는 소리의 인식된 특성. 이 논문에서, 우리는 텍스트 대 오디오 접지(TAG)를 기반으로 하는 새로운 메트릭, 즉, AAC와 같은 교차 모달 작업을 평가한다. 공개적으로 사용 가능한 AAC에 대한 실험 data-set은 기존보다 더 나은 성능을 발휘할 수 있는 평가 메트릭을 보여줍니다. NL 텍스트 및 이미지 캡션 문헌에 사용되는 메트릭입니다. 

 

 

반응형

댓글