본문 바로가기
오늘의 자연어 처리

[2023-08-13] 오늘의 자연어처리

by 지환이아빠 2023. 8. 13.
반응형

Investigating disaster response through social media data and the Susceptible-Infected-Recovered (SIR) model: A case study of 2020 Western U.S. wildfire season

 

Effective disaster response is critical for affected communities. Responders and decision-makers would benefit from reliable, timely measures of the issues impacting their communities during a disaster, and social media offers a potentially rich data source. Social media can reflect public concerns and demands during a disaster, offering valuable insights for decision-makers to understand evolving situations and optimize resource allocation. We used Bidirectional Encoder Representations from Transformers (BERT) topic modeling to cluster topics from Twitter data. Then, we conducted a temporal-spatial analysis to examine the distribution of these topics across different regions during the 2020 western U.S. wildfire season. Our results show that Twitter users mainly focused on three topics:"health impact," "damage," and "evacuation." We used the Susceptible-Infected-Recovered (SIR) theory to explore the magnitude and velocity of topic diffusion on Twitter. The results displayed a clear relationship between topic trends and wildfire propagation patterns. The estimated parameters obtained from the SIR model in selected cities revealed that residents exhibited a high level of several concerns during the wildfire. Our study details how the SIR model and topic modeling using social media data can provide decision-makers with a quantitative approach to measure disaster response and support their decision-making processes.

 

효과적인 재난 대응은 영향을 받는 지역사회에 매우 중요하다. 응답자 그리고 의사 결정권자는 신뢰할 수 있고 시기적절한 문제 조치로부터 이익을 얻을 것이다 재난 동안 그들의 커뮤니티에 영향을 주고 소셜 미디어는 다음을 제공한다 잠재적으로 풍부한 데이터 소스. 소셜 미디어는 대중의 관심사를 반영할 수 있고 재해 발생 시 요구 사항을 고려하여 의사 결정권자에게 중요한 통찰력을 제공합니다 진화하는 상황을 이해하고 리소스 할당을 최적화합니다. 우리는 사용했다 변압기로부터의 양방향 인코더 표현 토픽 모델링 트위터 데이터에서 주제를 클러스터링합니다. 그런 다음, 우리는 시간 공간을 수행했다 여러 지역에 걸쳐 이러한 주제의 분포를 조사하기 위한 분석 2020년 미국 서부 산불 시즌 동안. 우리의 결과는 트위터가 사용자들은 주로 세 가지 주제에 집중했다: "건강 영향", "위험", 그리고 "재앙" 우리는 SIR(Sensible-Infected-Recovered) 이론을 사용하여 트위터에서 주제 확산의 크기와 속도를 탐구한다. 결과 토픽 트렌드와 산불 전파 사이의 명확한 관계를 나타냄 패턴. 선택한 SIR 모델에서 얻은 추정 매개 변수 도시들은 주민들이 몇 가지 우려의 높은 수준을 보였다고 밝혔다 산불 중에. 우리의 연구는 SIR 모델과 토픽 모델링에 대해 자세히 설명한다 소셜 미디어 데이터를 사용하는 것은 의사 결정자들에게 정량적인 정보를 제공할 수 있다 재해 대응을 측정하고 의사 결정을 지원하는 접근 방식 과정. 

 

 

RadGraph2: Modeling Disease Progression in Radiology Reports via Hierarchical Information Extraction

 

We present RadGraph2, a novel dataset for extracting information from radiology reports that focuses on capturing changes in disease state and device placement over time. We introduce a hierarchical schema that organizes entities based on their relationships and show that using this hierarchy during training improves the performance of an information extraction model. Specifically, we propose a modification to the DyGIE++ framework, resulting in our model HGIE, which outperforms previous models in entity and relation extraction tasks. We demonstrate that RadGraph2 enables models to capture a wider variety of findings and perform better at relation extraction compared to those trained on the original RadGraph dataset. Our work provides the foundation for developing automated systems that can track disease progression over time and develop information extraction models that leverage the natural hierarchy of labels in the medical domain.

 

우리는 정보를 추출하기 위한 새로운 데이터 세트인 RadGraph2를 제시한다 질병 상태와 기기의 변화를 포착하는 데 초점을 맞춘 방사선학 보고서 시간에 따른 배치. 엔티티를 구성하는 계층적 스키마를 소개합니다 그들의 관계를 기반으로 하고 훈련 중에 이 계층을 사용하는 것을 보여준다 는 정보 추출 모델의 성능을 향상시킵니다. 구체적으로 저희가 DyGIE++ 프레임워크에 대한 수정을 제안하여 모델 HGIE, 이는 엔티티 및 관계 추출 작업에서 이전 모델을 능가합니다. 우리가 RadGraph2를 통해 모델이 더 다양한 종류의 모델을 포착할 수 있음을 입증합니다 결과를 발견하고 관련 추출을 훈련된 것에 비해 더 잘 수행한다 원래 RadGraph 데이터 세트입니다. 우리의 작업은 개발을 위한 기초를 제공한다 시간 경과에 따른 질병 진행을 추적하고 개발할 수 있는 자동화된 시스템 라벨의 자연 계층을 활용하는 정보 추출 모델 의료 영역. 

 

 

A Novel Self-training Approach for Low-resource Speech Recognition

 

In this paper, we propose a self-training approach for automatic speech recognition (ASR) for low-resource settings. While self-training approaches have been extensively developed and evaluated for high-resource languages such as English, their applications to low-resource languages like Punjabi have been limited, despite the language being spoken by millions globally. The scarcity of annotated data has hindered the development of accurate ASR systems, especially for low-resource languages (e.g., Punjabi and Māori languages). To address this issue, we propose an effective self-training approach that generates highly accurate pseudo-labels for unlabeled low-resource speech. Our experimental analysis demonstrates that our approach significantly improves word error rate, achieving a relative improvement of 14.94% compared to a baseline model across four real speech datasets. Further, our proposed approach reports the best results on the Common Voice Punjabi dataset.

 

본 논문에서는 자동 발화를 위한 자가 훈련 접근법을 제안한다 리소스 부족 설정에 대한 인식(ASR). 자가 훈련이 접근하는 동안 다음과 같은 고 자원 언어에 대해 광범위하게 개발되고 평가되었다 영어로서, 펀자브어와 같은 낮은 자원의 언어에 대한 그들의 적용은 다음과 같다 세계적으로 수백만 명의 사람들이 사용하는 언어임에도 불구하고, 제한적이다. 희소성 주석이 달린 데이터가 정확한 ASR 시스템의 개발을 방해했다, 특히 낮은 자원 언어(예: 펀자브어와 마오리어)의 경우에는 특히 그렇다. 로. 이 문제를 해결하기 위해, 우리는 효과적인 자가 훈련 접근법을 제안한다 레이블이 지정되지 않은 낮은 리소스 음성에 대해 매우 정확한 의사 신호를 생성합니다. 우리들의 실험 분석은 우리의 접근 방식이 상당히 개선된다는 것을 보여준다 단어 오류율, a에 비해 상대적으로 14.94% 향상 4개의 실제 음성 데이터 세트에 걸친 기본 모델입니다. 또한, 우리가 제안한 접근 방식은 에는 공통 음성 펀자브 데이터 세트에 대한 최상의 결과가 나와 있습니다. 

 

 

반응형

댓글