본문 바로가기
오늘의 자연어 처리

[2022-12-11] 오늘의 자연어처리

by 지환이아빠 2022. 12. 11.
반응형

TweetDrought: A Deep-Learning Drought Impacts Recognizer based on Twitter Data

 

Acquiring a better understanding of drought impacts becomes increasingly vital under a warming climate. Traditional drought indices describe mainly biophysical variables and not impacts on social, economic, and environmental systems. We utilized natural language processing and bidirectional encoder representation from Transformers (BERT) based transfer learning to fine-tune the model on the data from the news-based Drought Impact Report (DIR) and then apply it to recognize seven types of drought impacts based on the filtered Twitter data from the United States. Our model achieved a satisfying macro-F1 score of 0.89 on the DIR test set. The model was then applied to California tweets and validated with keyword-based labels. The macro-F1 score was 0.58. However, due to the limitation of keywords, we also spot-checked tweets with controversial labels. 83.5% of BERT labels were correct compared to the keyword labels. Overall, the fine-tuned BERT-based recognizer provided proper predictions and valuable information on drought impacts. The interpretation and analysis of the model were consistent with experiential domain expertise.

 

가뭄 영향에 대한 더 나은 이해를 얻는 것이 점점 더 많아지고 있다. 온난한 기후에서 필수적인 전통적인 가뭄 지수는 주로 다음을 설명한다. 사회, 경제, 환경에 영향을 미치지 않는 생물물리학적 변수 시스템들. 우리는 자연어 처리와 양방향 인코더를 사용했다. 트랜스포머(BERT) 기반 전송 학습을 통한 미세 조정 표현 뉴스 기반 가뭄 영향 보고서(DIR)의 데이터에 대한 모델 및 걸러진 것을 바탕으로 7가지 유형의 가뭄 영향을 인식하기 위해 적용한다. 미국의 트위터 데이터입니다. 우리의 모델은 만족스러운 매크로-F1을 달성했다. DIR 테스트 세트에서 0.89점을 받았습니다. 그 모델은 캘리포니아에 적용되었다. 키워드 기반 레이블로 검증된 트윗. 매크로 F1 점수는 0.58이었다. 그러나 키워드의 한계로 인해, 우리는 또한 다음과 같은 트윗을 스팟 확인했다. 논란의 여지가 있는 라벨. 83.5%의 BERT 라벨이 키워드에 비해 정확했다. 라벨. 전체적으로, 미세 조정된 BERT 기반 인식기는 적절한 것을 제공했다. 가뭄 영향에 대한 예측과 귀중한 정보. 해석과 모델의 분석은 경험적 영역 전문 지식과 일치했다. 

 

 

Robust Speech Recognition via Large-Scale Weak Supervision

 

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.

 

우리는 단순히 다음과 같이 훈련된 음성 처리 시스템의 능력을 연구한다. 인터넷에서 많은 양의 음성 녹취록을 예측한다. 크기 조정 시 680,000시간의 다국어 및 멀티태스킹 감독, 그 결과 모델 표준 벤치마크에 맞게 잘 일반화하고 이전과 경쟁하는 경우가 많습니다. 완전히 감독된 결과이지만 필요 없이 제로샷 전송 설정을 사용할 수 있습니다. 모든 미세 조정에 사용됩니다. 인간과 비교했을 때, 모델들은 그들의 정확성과 견고성. 우리는 다음과 같은 역할을 할 모델과 추론 코드를 발표할 것이다. 강력한 음성 처리에 대한 추가 연구를 위한 기초 

 

 

DialogCC: Large-Scale Multi-Modal Dialogue Dataset

 

As sharing images in an instant message is a crucial factor, there has been active research on learning a image-text multi-modal dialogue model. However, training a well-generalized multi-modal dialogue model is challenging because existing multi-modal dialogue datasets contain a small number of data, limited topics, and a restricted variety of images per dialogue. In this paper, we present a multi-modal dialogue dataset creation pipeline that involves matching large-scale images to dialogues based on CLIP similarity. Using this automatic pipeline, we propose a large-scale multi-modal dialogue dataset, DialogCC, which covers diverse real-world topics and various images per dialogue. With extensive experiments, we demonstrate that training a multi-modal dialogue model with our dataset can improve generalization performance. Additionally, existing models trained with our dataset achieve state-of-the-art performance on image and text retrieval tasks. The source code and the dataset will be released after publication.

 

인스턴트 메시지에서 이미지를 공유하는 것이 중요한 요소이기 때문에, 그 동안 이미지 텍스트 다중 대화 모델 학습에 대한 적극적인 연구 하지만, 잘 일반화된 다단계 대화 모델을 훈련하는 것은 어렵다. 기존의 다단계 대화 데이터 세트는 소수의 데이터를 포함하며, 제한적이다. 주제 및 대화당 제한된 다양한 이미지. 이 논문에서, 우리는 매칭을 포함하는 다중 대화 데이터 세트 생성 파이프라인을 제시한다. CLIP 유사성을 기반으로 대화에 대한 대규모 이미지. 이 자동 사용 파이프라인, 우리는 대규모 다중 모드 대화 데이터 세트인 DialogCC를 제안한다. 다양한 실제 주제와 대화당 다양한 이미지를 다룬다. 와 함께 광범위한 실험을 통해, 우리는 다단계 대화를 훈련한다는 것을 증명한다. 데이터 세트를 사용한 모델은 일반화 성능을 향상시킬 수 있다. 또한. 데이터 세트로 훈련된 기존 모델은 최첨단 성능을 달성한다. 이미지 및 텍스트 검색 작업에 대해 설명합니다. 소스 코드와 데이터 세트는 다음과 같습니다. 출판 후에 발매된 

 

 

반응형

댓글