본문 바로가기
오늘의 자연어 처리

[2023-01-28] 오늘의 자연어처리

by 지환이아빠 2023. 1. 28.
반응형

Cross Modal Global Local Representation Learning from Radiology Reports and X-Ray Chest Images

 

Deep learning models can be applied successfully in real-work problems; however, training most of these models requires massive data. Recent methods use language and vision, but unfortunately, they rely on datasets that are not usually publicly available. Here we pave the way for further research in the multimodal language-vision domain for radiology. In this paper, we train a representation learning method that uses local and global representations of the language and vision through an attention mechanism and based on the publicly available Indiana University Radiology Report (IU-RR) dataset. Furthermore, we use the learned representations to diagnose five lung pathologies: atelectasis, cardiomegaly, edema, pleural effusion, and consolidation. Finally, we use both supervised and zero-shot classifications to extensively analyze the performance of the representation learning on the IU-RR dataset. Average Area Under the Curve (AUC) is used to evaluate the accuracy of the classifiers for classifying the five lung pathologies. The average AUC for classifying the five lung pathologies on the IU-RR test set ranged from 0.85 to 0.87 using the different training datasets, namely CheXpert and CheXphoto. These results compare favorably to other studies using UI-RR. Extensive experiments confirm consistent results for classifying lung pathologies using the multimodal global local representations of language and vision information.

 

딥 러닝 모델은 실제 업무 문제에 성공적으로 적용될 수 있다; 그러나 이러한 모델의 대부분을 훈련하려면 방대한 데이터가 필요하다. 최근 방법 언어와 비전을 사용하지만, 불행히도, 그들은 그렇지 않은 데이터 세트에 의존한다 일반적으로 공개적으로 사용할 수 있습니다. 여기서 우리는 더 많은 연구를 위한 길을 닦는다 방사선학을 위한 멀티모달 언어 비전 영역. 이 논문에서, 우리는 훈련한다 표현 학습 방법은 지역적이고 세계적인 표현을 사용한다 주의 메커니즘을 통한 언어와 비전 그리고 기반 공개적으로 사용 가능한 인디애나 대학 방사선 보고서(IU-RR) 데이터 세트. 게다가, 우리는 5개의 폐를 진단하기 위해 학습된 표현을 사용한다 병리학: 무폐, 심근 경색, 부종, 흉수 및 통폐합. 마지막으로, 우리는 감독 분류와 제로샷 분류를 모두 사용하여 다음을 수행한다 IU-RR에 대한 표현 학습의 성능을 광범위하게 분석한다 데이터 집합. AUC(Average Area Under the Curve)는 다음의 정확도를 평가하는 데 사용됩니다 5개의 폐병리를 분류하기 위한 분류기. 다음의 평균 AUC IU-RR 테스트 세트에서 5개의 폐 병리학을 분류하는 것은 0.85에서 0.85까지였다 CheXpert 및 CheXphoto와 같은 서로 다른 교육 데이터 세트를 사용하여 0.87. 이러한 결과는 UI-RR을 사용하는 다른 연구에 비해 유리하다. 광범위한 실험은 폐병리학을 분류하기 위한 일관된 결과를 확인한다 언어 및 비전 정보의 다중 모드 글로벌 로컬 표현. 

 

 

Contextualizing Emerging Trends in Financial News Articles

 

Identifying and exploring emerging trends in the news is becoming more essential than ever with many changes occurring worldwide due to the global health crises. However, most of the recent research has focused mainly on detecting trends in social media, thus, benefiting from social features (e.g. likes and retweets on Twitter) which helped the task as they can be used to measure the engagement and diffusion rate of content. Yet, formal text data, unlike short social media posts, comes with a longer, less restricted writing format, and thus, more challenging. In this paper, we focus our study on emerging trends detection in financial news articles about Microsoft, collected before and during the start of the COVID-19 pandemic (July 2019 to July 2020). We make the dataset accessible and propose a strong baseline (Contextual Leap2Trend) for exploring the dynamics of similarities between pairs of keywords based on topic modelling and term frequency. Finally, we evaluate against a gold standard (Google Trends) and present noteworthy real-world scenarios regarding the influence of the pandemic on Microsoft.

 

뉴스의 새로운 동향을 파악하고 탐색하는 일이 점점 더 많아지고 있습니다 전 세계적으로 많은 변화가 일어나고 있는 그 어느 때보다 필수적이다 건강 위기. 그러나 최근 연구의 대부분은 주로 다음에 초점을 맞추고 있다 따라서 소셜 미디어의 추세를 감지하여 소셜 기능(예. 트위터에서 좋아요와 리트윗)을 통해 작업에 도움이 되었습니다 내용물의 결합 및 확산 속도를 측정한다. 하지만, 공식적인 텍스트 데이터는, 짧은 소셜 미디어 게시물과 달리, 더 길고 덜 제한된 글과 함께 제공됩니다 포맷, 따라서 더 도전적이다. 이 논문에서, 우리는 우리의 연구를 집중한다 마이크로소프트에 대한 금융 뉴스 기사에서 새로운 경향 탐지, 수집 COVID-19 팬데믹(2019년 7월~2020년 7월)이 시작되기 전과 시작되는 동안. 우리는 데이터 세트에 액세스할 수 있도록 하고 강력한 기준을 제안한다(컨텍스트) Leap2Trend)는 쌍 간 유사성의 역학을 탐구하기 위한 것이다 주제 모델링 및 용어 빈도를 기반으로 하는 키워드. 마지막으로, 우리는 평가한다 금본위제(Google Trends)에 대항하여 주목할 만한 현실 세계를 제시합니다 대유행이 마이크로소프트에 미치는 영향에 관한 시나리오. 

 

 

Cross Modal Global Local Representation Learning from Radiology Reports and X-Ray Chest Images

 

Deep learning models can be applied successfully in real-work problems; however, training most of these models requires massive data. Recent methods use language and vision, but unfortunately, they rely on datasets that are not usually publicly available. Here we pave the way for further research in the multimodal language-vision domain for radiology. In this paper, we train a representation learning method that uses local and global representations of the language and vision through an attention mechanism and based on the publicly available Indiana University Radiology Report (IU-RR) dataset. Furthermore, we use the learned representations to diagnose five lung pathologies: atelectasis, cardiomegaly, edema, pleural effusion, and consolidation. Finally, we use both supervised and zero-shot classifications to extensively analyze the performance of the representation learning on the IU-RR dataset. Average Area Under the Curve (AUC) is used to evaluate the accuracy of the classifiers for classifying the five lung pathologies. The average AUC for classifying the five lung pathologies on the IU-RR test set ranged from 0.85 to 0.87 using the different training datasets, namely CheXpert and CheXphoto. These results compare favorably to other studies using UI-RR. Extensive experiments confirm consistent results for classifying lung pathologies using the multimodal global local representations of language and vision information.

 

딥 러닝 모델은 실제 업무 문제에 성공적으로 적용될 수 있다; 그러나 이러한 모델의 대부분을 훈련하려면 방대한 데이터가 필요하다. 최근 방법 언어와 비전을 사용하지만, 불행히도, 그들은 그렇지 않은 데이터 세트에 의존한다 일반적으로 공개적으로 사용할 수 있습니다. 여기서 우리는 더 많은 연구를 위한 길을 닦는다 방사선학을 위한 멀티모달 언어 비전 영역. 이 논문에서, 우리는 훈련한다 표현 학습 방법은 지역적이고 세계적인 표현을 사용한다 주의 메커니즘을 통한 언어와 비전 그리고 기반 공개적으로 사용 가능한 인디애나 대학 방사선 보고서(IU-RR) 데이터 세트. 게다가, 우리는 5개의 폐를 진단하기 위해 학습된 표현을 사용한다 병리학: 무폐, 심근 경색, 부종, 흉수 및 통폐합. 마지막으로, 우리는 감독 분류와 제로샷 분류를 모두 사용하여 다음을 수행한다 IU-RR에 대한 표현 학습의 성능을 광범위하게 분석한다 데이터 집합. AUC(Average Area Under the Curve)는 다음의 정확도를 평가하는 데 사용됩니다 5개의 폐병리를 분류하기 위한 분류기. 다음의 평균 AUC IU-RR 테스트 세트에서 5개의 폐 병리학을 분류하는 것은 0.85에서 0.85까지였다 CheXpert 및 CheXphoto와 같은 서로 다른 교육 데이터 세트를 사용하여 0.87. 이러한 결과는 UI-RR을 사용하는 다른 연구에 비해 유리하다. 광범위한 실험은 폐병리학을 분류하기 위한 일관된 결과를 확인한다 언어 및 비전 정보의 다중 모드 글로벌 로컬 표현. 

 

 

반응형

댓글