The URW-KG: a Resource for Tackling the Underrepresentation of non-Western Writers
Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.
디지털 미디어는 전례 없는 문학적 지식에 대한 접근을 가능하게 했다. 작가, 독자, 학자들은 이제 증가하는 것을 발견하고 공유할 수 있다. 책과 그 저자들에 대한 정보의 양 그럼에도 불구하고 디지털 기록 보관소는 여전히 불균형하다: 비서구 국가의 작가들은 덜하다. 대표되고, 그러한 조건은 오래된 형태의 영구화로 이어진다. 차별 이 논문에서, 우리는 과소 대표 작가들을 제시한다. 지식 그래프(URW-KG), 탐색 및 수정을 위해 설계된 리소스 작품에 대한 정보를 수집하고 매핑함으로써 이러한 대표성의 부족 Wikidata 및 기타 세 가지 출처: 라이브러리, 좋은 읽기 및 Google Books. KG 임베딩을 기반으로 한 실험은 통합된 것을 보여주었다. 그래프에 암호화된 정보는 학자들과 사용자들이 더 쉽게 할 수 있게 해준다. 위키데이터와 관련하여 서양 이외의 문학작품과 작가들에게 노출된. 단독으로. 이것은 작가를 위한 더 공정하고 효과적인 도구의 개발에 열려있다. 발견과 탐험
Cramming: Training a Language Model on a Single GPU in One Day
Recent trends in language modeling have focused on increasing performance through scaling, and have resulted in an environment where training language models is out of reach for most researchers and practitioners. While most in the community are asking how to push the limits of extreme computation, we ask the opposite question: How far can we get with a single GPU in just one day? We investigate the downstream performance achievable with a transformer-based language model trained completely from scratch with masked language modeling for a single day on a single consumer GPU. Aside from re-analyzing nearly all components of the pretraining pipeline for this scenario and providing a modified pipeline with performance close to BERT, we investigate why scaling down is hard, and which modifications actually improve performance in this scenario. We provide evidence that even in this constrained setting, performance closely follows scaling laws observed in large-compute settings. Through the lens of scaling laws, we categorize a range of recent improvements to training and architecture and discuss their merit and practical applicability (or lack thereof) for the limited compute setting.
언어 모델링의 최근 추세는 성능 향상에 초점을 맞추고 있다. 확장을 통해, 그리고 언어를 훈련하는 환경을 초래했다. 모델은 대부분의 연구자와 실무자의 손이 닿지 않는 곳에 있습니다. 대부분의 시간 동안 커뮤니티는 극한 계산의 한계를 어떻게 밀어낼 것인지를 묻고 있습니다, 우리는 묻습니다. 반대 질문: 단일 GPU로 하루 만에 얼마나 멀리 갈 수 있을까요? 우리는 변압기 기반으로 달성할 수 있는 다운스트림 성능을 조사한다. 마스크된 언어 모델링을 통해 처음부터 완전히 훈련된 언어 모델 단일 소비자 GPU에서 하루 동안. 거의 모든 것을 재분석하는 것을 제외하고. 이 시나리오에 대한 사전 교육 파이프라인의 구성 요소 및 제공 성능이 BERT에 근접한 수정된 파이프라인, 확장 이유를 조사합니다. 다운은 어렵고, 어떤 수정이 실제로 성능을 향상시키는지. 시나리오를 작성합니다. 우리는 이 제한된 환경에서도 성능은 대용량 설정에서 관찰되는 스케일링 법칙을 밀접하게 따릅니다. 스케일링 법칙의 렌즈를 통해, 우리는 최근 개선된 범위를 분류한다. 교육과 건축을 하고 그들의 장점과 실용성에 대해 논의한다. 제한된 계산 설정에 대한 적용 가능성(또는 그 부족).
Skit-S2I: An Indian Accented Speech to Intent dataset
Conventional conversation assistants extract text transcripts from the speech signal using automatic speech recognition (ASR) and then predict intent from the transcriptions. Using end-to-end spoken language understanding (SLU), the intents of the speaker are predicted directly from the speech signal without requiring intermediate text transcripts. As a result, the model can optimize directly for intent classification and avoid cascading errors from ASR. The end-to-end SLU system also helps in reducing the latency of the intent prediction model. Although many datasets are available publicly for text-to-intent tasks, the availability of labeled speech-to-intent datasets is limited, and there are no datasets available in the Indian accent. In this paper, we release the Skit-S2I dataset, the first publicly available Indian-accented SLU dataset in the banking domain in a conversational tonality. We experiment with multiple baselines, compare different pretrained speech encoder's representations, and find that SSL pretrained representations perform slightly better than ASR pretrained representations lacking prosodic features for speech-to-intent classification. The dataset and baseline code is available at \url{this https URL}
기존의 대화 보조자들은 연설에서 텍스트 대본을 추출한다. 자동 음성 인식(ASR)을 사용하여 신호를 보낸 다음 의도를 예측합니다. 필사본 종단 간 음성 언어 이해(SLU)를 사용하여 화자의 의도는 음성 신호에 의해 직접 예측된다. 중간 텍스트 스크립트가 필요합니다. 결과적으로, 모델은 최적화될 수 있다. 의도 분류를 위해 직접 사용하고 ASR에서 계단식 오류를 방지합니다. 그 엔드 투 엔드 SLU 시스템은 또한 의도의 지연 시간을 줄이는 데 도움이 됩니다. 예측 모형 많은 데이터셋이 다음을 위해 공개적으로 제공되지만 텍스트에서 음성으로 변환하는 작업, 레이블이 지정된 음성에서 음성으로 변환하는 데이터 세트의 가용성은 다음과 같습니다. 제한적이며, 인도 억양으로 사용할 수 있는 데이터 세트가 없습니다. 이 점에서. 논문, 우리는 최초로 공개적으로 이용 가능한 Skit-S2I 데이터 세트를 발표한다. 대화 톤으로 은행 영역의 인도 억양 SLU 데이터 세트. 우리는 여러 기준선을 실험하고, 다른 사전 훈련된 음성을 비교한다. 인코더의 표현, 그리고 SSL 사전 훈련된 표현이 수행되는 것을 찾습니다. 운율적 특징이 없는 사전 훈련된 ASR 표현보다 약간 낫다. 음성 대 음성 분류를 위해. 데이터 세트 및 기준선 코드를 사용할 수 있습니다. \url{이 https URL}에서
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-01-04] 오늘의 자연어처리 (0) | 2023.01.04 |
---|---|
[2023-01-03] 오늘의 자연어처리 (0) | 2023.01.03 |
[2023-01-01] 오늘의 자연어처리 (0) | 2023.01.01 |
[2022-12-31] 오늘의 자연어처리 (0) | 2022.12.31 |
[2022-12-30] 오늘의 자연어처리 (0) | 2022.12.30 |
댓글