본문 바로가기
오늘의 자연어 처리

[2022-11-19] 오늘의 자연어처리

by 지환이아빠 2022. 11. 19.
반응형

Style Classification of Rabbinic Literature for Detection of Lost Midrash Tanhuma Material

 

Midrash collections are complex rabbinic works that consist of text in multiple languages, which evolved through long processes of unstable oral and written transmission. Determining the origin of a given passage in such a compilation is not always straightforward and is often a matter of dispute among scholars, yet it is essential for scholars' understanding of the passage and its relationship to other texts in the rabbinic corpus. To help solve this problem, we propose a system for classification of rabbinic literature based on its style, leveraging recently released pretrained Transformer models for Hebrew. Additionally, we demonstrate how our method can be applied to uncover lost material from Midrash Tanhuma.

 

미드래시 컬렉션은 텍스트로 구성된 복잡한 랍비 작품이다. 불안정한 구강의 긴 과정을 통해 진화한 여러 언어들 그리고 서면 전송 다음과 같은 경우에 주어진 구절의 원점을 결정한다. 편집은 항상 간단하지 않으며 종종 논쟁의 대상이 된다. 학자들 사이에서, 그러나 그것은 학자들의 그 구절에 대한 이해에 필수적이다. 그리고 랍비 말뭉치의 다른 문헌과의 관계. 이 문제를 해결하는 것을 돕기 위해, 우리는 분류를 위한 시스템을 제안한다. 최근에 발표된 사전 교육을 활용하여 스타일에 기반한 랍비 문학 히브리어용 트랜스포머 모델입니다. 또한, 우리는 우리의 방법이 어떻게 가능한지 보여준다. Midrash Tanhuma에서 잃어버린 물질을 찾기 위해 적용됩니다. 

 

 

Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review

 

Speech is the fundamental means of communication between humans. The advent of AI and sophisticated speech technologies have led to the rapid proliferation of human-to-computer-based interactions, fueled primarily by Automatic Speech Recognition (ASR) systems. ASR systems normally take human speech in the form of audio and convert it into words, but for some users, it cannot decode the speech, and any output text is filled with errors that are incomprehensible to the human reader. These systems do not work equally for everyone and actually hinder the productivity of some users. In this paper, we present research that addresses ASR biases against gender, race, and the sick and disabled, while exploring studies that propose ASR debiasing techniques for mitigating these discriminations. We also discuss techniques for designing a more accessible and inclusive ASR technology. For each approach surveyed, we also provide a summary of the investigation and methods applied, the ASR systems and corpora used, and the research findings, and highlight their strengths and/or weaknesses. Finally, we propose future opportunities for Natural Language Processing researchers to explore in the next level creation of ASR technologies.

 

말은 인간들 사이의 의사소통의 근본적인 수단이다. 재림 인공지능과 정교한 음성 기술은 빠른 확산을 이끌었다. 주로 자동 음성에 의해 추진되는 인간과 컴퓨터 기반 상호 작용의 인식(ASR) 시스템. ASR 시스템은 일반적으로 사람의 말을 형태로 취한다. 오디오를 워드로 변환하지만 일부 사용자의 경우 디코딩할 수 없습니다. 음성, 그리고 모든 출력 텍스트는 이해할 수 없는 오류로 가득 차 있다. 인간 독자 이러한 시스템은 모든 사람과 실제로 동일하게 작동하지 않습니다. 일부 사용자의 생산성을 저해합니다. 이 논문에서, 우리는 다음과 같은 연구를 제시한다. 성별, 인종, 질병 및 장애인에 대한 ASR 편견을 다룬다. 이를 완화하기 위한 ASR 편향 제거 기술을 제안하는 연구를 탐구한다. 차별 우리는 또한 더 접근하기 쉬운 설계를 설계하기 위한 기술에 대해 논의한다. 포괄적인 ASR 기술 조사된 각 접근 방식에 대해 요약도 제공합니다. 적용된 조사 및 방법, 사용된 ASR 시스템 및 말뭉치, 연구 결과를 확인하고 강점 및/또는 약점을 강조합니다. 마지막으로, 우리는 자연어 처리를 위한 미래의 기회를 제안한다. ASR 기술의 다음 단계 창조를 탐구하는 연구자들. 

 

 

Numerical Optimizations for Weighted Low-rank Estimation on Language Model

 

Singular value decomposition (SVD) is one of the most popular compression methods that approximate a target matrix with smaller matrices. However, standard SVD treats the parameters within the matrix with equal importance, which is a simple but unrealistic assumption. The parameters of a trained neural network model may affect task performance unevenly, which suggests non-equal importance among the parameters. Compared to SVD, the decomposition method aware of parameter importance is the more practical choice in real cases. Unlike standard SVD, weighted value decomposition is a non-convex optimization problem that lacks a closed-form solution. We systematically investigated multiple optimization strategies to tackle the problem and examined our method by compressing Transformer-based language models. Further, we designed a metric to predict when the SVD may introduce a significant performance drop, for which our method can be a rescue strategy. The extensive evaluations demonstrate that our method can perform better than current SOTA methods in compressing Transformer-based language models.

 

SVD(Singular Value Decomposition)는 가장 인기 있는 압축 중 하나입니다. 더 작은 행렬을 사용하여 목표 행렬에 근사하는 방법. 하지만, 표준 SVD는 매트릭스 내의 파라미터를 동등한 중요도로 취급한다. 그것은 간단하지만 비현실적인 가정이다. 훈련된 사람의 매개변수 신경망 모델은 작업 수행에 불균일하게 영향을 미칠 수 있으며, 이는 다음을 시사한다. 매개 변수 중 중요하지 않은 항목입니다. SVD와 비교했을 때, 분해는 매개변수의 중요성을 인식하는 방법은 실제적으로 더 실용적인 선택이다. 경우. 표준 SVD와 달리 가중값 분해는 비볼록이다. 폐쇄형 솔루션이 없는 최적화 문제. 우리는 체계적으로 문제를 해결하기 위해 여러 최적화 전략을 조사했습니다. 트랜스포머 기반 언어 모델을 압축하여 우리의 방법을 조사했다. 더, 우리는 SVD가 중요한 것을 도입할 수 있는 시기를 예측하기 위해 메트릭을 설계했다. 우리의 방법이 구조 전략이 될 수 있는 성능 저하. 광활한 평가는 우리의 방법이 현재 SOTA보다 더 나은 성능을 발휘할 수 있음을 보여준다. 트랜스포머 기반 언어 모델을 압축하는 방법. 

 

 

반응형

댓글