[2022-08-24] 오늘의 자연어처리

by 지환이아빠 2022. 8. 24.

Generalized Attention Mechanism and Relative Position for Transformer


In this paper, we propose generalized attention mechanism (GAM) by first suggesting a new interpretation for self-attention mechanism of Vaswani et al. . Following the interpretation, we provide description for different variants of attention mechanism which together form GAM. Further, we propose a new relative position representation within the framework of GAM. This representation can be easily utilized for cases in which elements next to each other in input sequence can be at random locations in actual dataset/corpus.


본 논문에서는 먼저 일반화된 주의 메커니즘(GAM)을 제안한다. 바스와니 등의 자기 주의 메커니즘에 대한 새로운 해석을 제안한다. . 해석에 따라 다양한 변형에 대한 설명을 제공합니다. 함께 GAM을 형성하는 주의 메커니즘의. 더 나아가, 우리는 새로운 것을 제안한다. GAM의 프레임워크 내에서 상대적인 위치 표현. 이것. 표현은 각 요소 옆에 있는 경우에 쉽게 사용될 수 있다. other in in 입력 시퀀스는 실제 데이터 세트/데이터베이스의 임의의 위치에 있을 수 있다. 



An Exploratory Study of Tweets about the SARS-CoV-2 Omicron Variant: Insights from Sentiment Analysis, Language Interpretation, Source Tracking, Type Classification, and Embedded URL Detection


This paper presents the findings of an exploratory study on the continuously generating Big Data on Twitter related to the sharing of information, news, views, opinions, ideas, feedback, and experiences about the COVID-19 pandemic, with a specific focus on the Omicron variant, which is the globally dominant variant of SARS-CoV-2 at this time. A total of 12028 tweets about the Omicron variant were studied, and the specific characteristics of tweets that were analyzed include - sentiment, language, source, type, and embedded URLs. The findings of this study are manifold. First, from sentiment analysis, it was observed that 50.5% of tweets had a neutral emotion. The other emotions - bad, good, terrible, and great were found in 15.6%, 14.0%, 12.5%, and 7.5% of the tweets, respectively. Second, the findings of language interpretation showed that 65.9% of the tweets were posted in English. It was followed by Spanish, French, Italian, and other languages. Third, the findings from source tracking showed that Twitter for Android was associated with 35.2% of tweets. It was followed by Twitter Web App, Twitter for iPhone, Twitter for iPad, and other sources. Fourth, studying the type of tweets revealed that retweets accounted for 60.8% of the tweets, it was followed by original tweets and replies that accounted for 19.8% and 19.4% of the tweets, respectively. Fifth, in terms of embedded URL analysis, the most common domain embedded in the tweets was found to be this http URL, which was followed by this http URL, this http URL, and other domains. Finally, to support similar research in this field, we have developed a Twitter dataset that comprises more than 500,000 tweets about the SARS-CoV-2 omicron variant since the first detected case of this variant on November 24, 2021.


이 논문은 지속적인 탐색적 연구의 결과를 제시한다. 트위터에서 정보, 뉴스, 정보의 공유와 관련된 빅 데이터 생성 COVID-19 팬데믹에 대한 견해, 의견, 아이디어, 피드백 및 경험, 세계적으로 지배적인 오미크론 변종에 특정한 초점을 두고. 현재 SARS-CoV-2의 변종입니다. 오미크론에 대한 트윗은 총 12028건이다. 변형이 연구되었고, 트윗의 구체적인 특징들이 연구되었다. 분석된 포함 - 감정, 언어, 소스, 유형 및 포함된 URL. 그 이 연구의 결과는 다양하다. 먼저, 감정 분석에서, 그것은. 트윗의 50.5%가 중립적인 감정을 가지고 있다는 것을 관찰했다. 다른 감정들은 - 나쁘고, 15.6%, 14.0%, 12.5%, 7.5%에서 훌륭함, 끔찍함, 훌륭함이 발견되었습니다. 각각 트윗. 둘째, 언어통역의 결과는 다음과 같았다. 트윗의 65.9%가 영어로 게시되었다. 스페인어가 그 뒤를 이었다. 프랑스어, 이탈리아어 및 기타 언어. 셋째, 출처 추적의 결과입니다. 는 안드로이드용 트위터가 35.2%의 트윗과 관련이 있다는 것을 보여주었다. 그랬다. 트위터 웹 앱, 아이폰용 트위터, 아이패드용 트위터 등이 뒤를 이었다. 원천. 넷째, 트윗의 유형을 연구한 결과, 리트윗이 설명되었습니다. 트윗의 60.8%에 대해, 원본 트윗과 답변이 뒤따랐다. 트윗 중 각각 19.8%, 19.4%를 차지했다. 다섯째, 의 관점에서 포함된 URL 분석, 트윗에 포함된 가장 일반적인 도메인이 발견되었습니다. 이 http URL, 이 http URL 및 기타가 그 뒤를 따릅니다. 도메인 마지막으로, 이 분야에서 유사한 연구를 지원하기 위해, 우리는 발전했다. 사스-CoV-2에 대한 50만 개 이상의 트윗으로 구성된 트위터 데이터 세트 오미크론 변종 11월 24일 이 변종의 첫 번째 검출 사례 이후, 2021. 



Composing RNNs and FSTs for Small Data: Recovering Missing Characters in Old Hawaiian Text


In contrast to the older writing system of the 19th century, modern Hawaiian orthography employs characters for long vowels and glottal stops. These extra characters account for about one-third of the phonemes in Hawaiian, so including them makes a big difference to reading comprehension and pronunciation. However, transliterating between older and newer texts is a laborious task when performed manually. We introduce two related methods to help solve this transliteration problem automatically, given that there were not enough data to train an end-to-end deep learning model. One method is implemented, end-to-end, using finite state transducers (FSTs). The other is a hybrid deep learning approach which approximately composes an FST with a recurrent neural network (RNN). We find that the hybrid approach outperforms the end-to-end FST by partitioning the original problem into one part that can be modelled by hand, using an FST, and into another part, which is easily solved by an RNN trained on the available data.


19세기의 오래된 문자 체계와 대조적으로, 현대 하와이어는 철자법은 장모음과 성문 파열음을 위한 문자를 사용한다. 이 엑스트라들 문자는 하와이어의 음소의 약 1/3을 차지하기 때문에, 그래서 그것들을 포함하는 것은 독해력과 큰 차이를 만든다. 발음. 그러나, 오래된 텍스트와 새로운 텍스트를 번역하는 것은 수동으로 수행할 경우 힘든 작업. 우리는 다음과 같은 두 가지 관련 방법을 소개한다. 이 번역 문제를 자동으로 해결하는 데 도움이 됩니다. 엔드 투 엔드 딥 러닝 모델을 훈련시키기에는 데이터가 충분하지 않습니다. 한 가지 방법은 유한 상태 변환기(FST)를 사용하여 엔드 투 엔드로 구현됩니다. 다른 하나는 FST를 대략적으로 구성하는 하이브리드 딥 러닝 접근법 반복 신경망(RNN) 우리는 하이브리드 접근 방식이 더 나은 성능을 보인다는 것을 발견했다. 원래 문제를 다음과 같은 한 부분으로 분할하여 엔드 투 엔드 FST FST를 사용하여 손으로 모델링하고 쉽게 다른 부분으로 모델링합니다. 사용 가능한 데이터에 대해 훈련된 RNN에 의해 해결된다. 



