Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for Natural Language Processing Tasks
Indigenous African languages are categorized as under-served in Artificial Intelligence and suffer poor digital inclusivity and information access. The challenge has been how to use machine learning and deep learning models without the requisite data. Kencorpus is a Kenyan Language corpus that intends to bridge the gap on how to collect, and store text and speech data that is good enough to enable data-driven solutions in applications such as machine translation, question answering and transcription in multilingual communities. Kencorpus is a corpus (text and speech) for three languages predominantly spoken in Kenya: Swahili, Dholuo and Luhya (dialects Lumarachi, Lulogooli and Lubukusu). This corpus intends to fill the gap of developing a dataset that can be used for Natural Language Processing and Machine Learning tasks for low-resource languages. Each of these languages contributed text and speech data for the language corpus. Data collection was done by researchers from communities, schools and collaborating partners (media, publishers). Kencorpus has a collection of 5,594 items, being 4,442 texts (5.6million words) and 1,152 speech files (177hrs). Based on this data, other datasets were also developed e.g POS tagging sets for Dholuo and Luhya (50,000 and 93,000 words tagged respectively), Question-Answer pairs from Swahili texts (7,537 QA pairs) and Translation of texts into Swahili (12,400 sentences). The datasets are useful for machine learning tasks such as text processing, annotation and translation. The project also undertook proof of concept systems in speech to text and machine learning for QA task, with initial results confirming the usability of the Kencorpus to the machine learning community. Kencorpus is the first such corpus of its kind for these low resource languages and forms a basis of learning and sharing experiences for similar works.
아프리카 원주민 언어는 인공어에서는 불충분한 것으로 분류된다. 지능이 높고 디지털 포괄성과 정보 접근성이 낮다. 그 도전은 기계 학습과 딥 러닝 모델을 어떻게 사용하는가였다. 필요한 자료 Kencorpus는 다음을 의도하는 케냐 언어 말뭉치이다. 텍스트 및 음성 데이터를 수집하고 저장하는 방법에 대한 격차를 해소합니다. 머신과 같은 애플리케이션에서 데이터 중심 솔루션을 구현할 수 있을 만큼 충분한 용량 다국어 커뮤니티에서 번역, 질문 답변 및 기록. Kencorpus는 주로 3개의 언어를 위한 말뭉치이다. 케냐에서 사용되는 언어: 스와힐리, 도루오, 루히아(루마라치, 룰로골리, 그리고 루부쿠수). 이 말뭉치는 다음을 할 수 있는 데이터 세트 개발의 공백을 메우려고 한다. 자연어 처리 및 기계 학습 작업에 사용된다. 저자원 언어 이 언어들 각각은 텍스트와 스피치에 기여했습니다. 언어 말뭉치에 대한 데이터. 데이터 수집은 다음의 연구자들에 의해 수행되었다. 지역 사회, 학교 및 협업 파트너(미디어, 출판사)입니다. 켄코르푸스 4,442개의 텍스트(560만 단어)와 1,152개의 아이템을 가지고 있다. 음성 파일(시간) 이 데이터를 기반으로 다른 데이터 세트도 개발되었습니다. 예: Dholuo 및 Luhya에 대한 POS 태깅 세트(태깅된 단어 50,000개 및 93,000개) 각각), 스와힐리 텍스트의 질의응답 쌍(7,537 QA 쌍) 및 스와힐리어로 번역(12,400문장) 데이터셋은 유용합니다. 텍스트 처리, 주석 및 번역과 같은 기계 학습 작업에 사용됩니다. 이 프로젝트는 또한 텍스트에 대한 음성에서 개념 증명 시스템을 수행했다. QA 작업을 위한 기계 학습, 사용 가능성을 확인하는 초기 결과와 함께 기계 학습 커뮤니티에 대한 켄코퍼스. 켄코퍼스는 그러한 첫 번째이다. 이러한 저자원 언어에 대한 종류의 말뭉치 그리고 기초를 형성한다. 유사한 작업에 대한 학습 및 경험 공유
Addressing Token Uniformity in Transformers via Singular Value Transformation
Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at this https URL.
토큰 균일성은 일반적으로 변압기 기반 모델에서 관찰된다. 다른 토큰들은 간 후에 비슷한 정보의 많은 부분을 공유한다. 변압기에 여러 개의 자기 주의 레이어를 쌓아 올립니다. 이 논문에서, 우리는 각각의 출력의 단수 값의 분포를 사용할 것을 제안한다. 토큰 균일성 현상을 특징짓기 위한 변압기 레이어 덜 왜곡된 단일 값 분포가 다음을 할 수 있음을 경험적으로 설명한다. 통일 문제를 완화하다 우리의 관찰에 기초하여, 우리는 정의한다. 단일 값 분포의 몇 가지 바람직한 특성 및 제안 단수 값을 업데이트하기 위한 새로운 변환 함수. 우리는 그것을 보여준다. 토큰 균일성을 완화하는 것 외에도 변환 함수는 다음과 같아야 한다. 원래의 매립 공간에 지역 이웃 구조를 보존한다. 우리들의 제안된 특이치 변환 함수는 다음과 같은 범위에 적용된다. BERT, ALBERT, RoBERTa 및 DistilB와 같은 변압기 기반 언어 모델ERT, 그리고 의미론적 텍스트 유사성 평가에서 향상된 성능이 관찰된다. 그리고 다양한 GLUE 작업. 소스 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL.
PEER: A Collaborative Language Model
Textual content is often the output of a collaborative writing process: We start with an initial draft, ask for suggestions, and repeatedly make changes. Agnostic of this process, today's language models are trained to generate only the final result. As a consequence, they lack several abilities crucial for collaborative writing: They are unable to update existing texts, difficult to control and incapable of verbally planning or explaining their actions. To address these shortcomings, we introduce PEER, a collaborative language model that is trained to imitate the entire writing process itself: PEER can write drafts, add suggestions, propose edits and provide explanations for its actions. Crucially, we train multiple instances of PEER able to infill various parts of the writing process, enabling the use of self-training techniques for increasing the quality, amount and diversity of training data. This unlocks PEER's full potential by making it applicable in domains for which no edit histories are available and improving its ability to follow instructions, to write useful comments, and to explain its actions. We show that PEER achieves strong performance across various domains and editing tasks.
텍스트 콘텐츠는 종종 공동 작성 프로세스의 결과물이다. 우리가 초안으로 시작하고, 제안을 요청하고, 반복적으로 변경합니다. 이 과정에 관계없이, 오늘날의 언어 모델은 생성만 하도록 훈련된다. 최종 결과 결과적으로, 그들은 중요한 몇 가지 능력이 부족하다. 공동 작성: 기존 텍스트를 업데이트할 수 없으며 업데이트하기가 어렵습니다. 통제하고 구두로 그들의 행동을 계획하거나 설명할 수 없다. 로. 이러한 단점을 해결하고, 우리는 협업 언어 모델인 PEER를 소개한다. 전체 쓰기 프로세스 자체를 모방하도록 훈련됨: PEER는 쓸 수 있다. 초안, 제안 추가, 편집 제안 및 설명 제공 행동들. 결정적으로, 우리는 다양한 것을 채울 수 있는 PEER의 여러 인스턴스를 훈련시킨다. 쓰기 과정의 일부, 자가 훈련 기술의 사용을 가능하게 한다. 교육 데이터의 품질, 양 및 다양성을 증가시킵니다. 잠금이 해제됩니다. PEER가 편집하지 않는 도메인에 적용되도록 함으로써 PEER의 최대 잠재력 역사를 사용할 수 있고 지침을 따르는 능력을 향상시킵니다. 유용한 의견을 작성하고, 그 행동을 설명하라. 우리는 PEER가 달성한다는 것을 보여준다. 다양한 도메인 및 편집 작업에 걸쳐 강력한 성능을 제공합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-30] 오늘의 자연어처리 (0) | 2022.08.30 |
---|---|
[2022-08-29] 오늘의 자연어처리 (0) | 2022.08.29 |
[2022-08-28] 오늘의 자연어처리 (0) | 2022.08.28 |
[2022-08-27] 오늘의 자연어처리 (0) | 2022.08.27 |
[2022-08-27] 오늘의 자연어처리 (0) | 2022.08.27 |
댓글