본문 바로가기
오늘의 자연어 처리

[2023-06-29] 오늘의 자연어처리

by 지환이아빠 2023. 6. 29.
반응형

Constructing Multilingual Code Search Dataset Using Neural Machine Translation

 

Code search is a task to find programming codes that semantically match the given natural language queries. Even though some of the existing datasets for this task are multilingual on the programming language side, their query data are only in English. In this research, we create a multilingual code search dataset in four natural and four programming languages using a neural machine translation model. Using our dataset, we pre-train and fine-tune the Transformer-based models and then evaluate them on multiple code search test sets. Our results show that the model pre-trained with all natural and programming language data has performed best in most cases. By applying back-translation data filtering to our dataset, we demonstrate that the translation quality affects the model's performance to a certain extent, but the data size matters more.

 

코드 검색은 의미론적으로 일치하는 프로그래밍 코드를 찾는 작업이다 주어진 자연어 질문들. 기존 데이터셋 중 일부는 다음과 같이 이 작업은 프로그래밍 언어 측면에서 다국어이며 쿼리 데이터입니다 영어로만 되어 있습니다. 이 연구에서, 우리는 다국어 코드 검색을 만든다 신경 기계를 사용하는 4개의 자연 언어와 4개의 프로그래밍 언어로 된 데이터 세트 번역 모델. 데이터 세트를 사용하여 사전 교육 및 미세 조정 변압기 기반 모델을 사용한 후 다중 코드 검색 테스트에서 평가 우리의 결과는 모델이 모든 자연적인 것으로 훈련되었다는 것을 보여준다 프로그래밍 언어 데이터는 대부분의 경우에 가장 잘 수행되었습니다. 신청함으로써 데이터 세트에 대한 역방향 데이터 필터링, 우리는 그것을 증명한다 번역 품질은 모델의 성능에 어느 정도 영향을 미치지만 데이터 크기가 더 중요합니다. 

 

 

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

 

Disentangling uncorrelated information in speech utterances is a crucial research topic within speech community. Different speech-related tasks focus on extracting distinct speech representations while minimizing the affects of other uncorrelated information. We present a large-scale speech corpus to facilitate the research of speech representation disentanglement. 3D-Speaker contains over 10,000 speakers, each of whom are simultaneously recorded by multiple Devices, locating at different Distances, and some speakers are speaking multiple Dialects. The controlled combinations of multi-dimensional audio data yield a matrix of a diverse blend of speech representation entanglement, thereby motivating intriguing methods to untangle them. The multi-domain nature of 3D-Speaker also makes it a suitable resource to evaluate large universal speech models and experiment methods of out-of-domain learning and self-supervised learning. this https URL

 

연설에서 상관없는 정보를 분리하는 것은 중요하다 언어 공동체 내의 연구 주제. 다양한 음성 관련 작업이 초점을 맞춥니다 영향을 최소화하면서 구별되는 음성 표현을 추출한다 기타 상관없는 정보. 우리는 대규모 음성 말뭉치를 제시한다 음성 표현의 분리 연구를 용이하게 한다. 3D-스피커 10,000명 이상의 스피커를 포함하며, 각 스피커는 동시에 녹음됩니다 여러 장치, 서로 다른 거리에 위치한 장치 및 일부 스피커 여러 방언을 사용합니다. 다차원의 통제된 조합은 오디오 데이터는 다양한 혼합 음성 표현의 매트릭스를 산출한다 얽힘, 따라서 그것들을 풀기 위한 흥미로운 방법들을 동기 부여한다. 그 또한 3D-Speaker의 다중 도메인 특성을 평가하기에 적합한 리소스로 만듭니다 대규모 보편적 음성 모델 및 도메인 외부 학습의 실험 방법 그리고 자기 지도 학습. 이 https URL 

 

 

Gender Bias in BERT -- Measuring and Analysing Biases through Sentiment Rating in a Realistic Downstream Classification Task

 

Pretrained language models are publicly available and constantly finetuned for various real-life applications. As they become capable of grasping complex contextual information, harmful biases are likely increasingly intertwined with those models. This paper analyses gender bias in BERT models with two main contributions: First, a novel bias measure is introduced, defining biases as the difference in sentiment valuation of female and male sample versions. Second, we comprehensively analyse BERT's biases on the example of a realistic IMDB movie classifier. By systematically varying elements of the training pipeline, we can conclude regarding their impact on the final model bias. Seven different public BERT models in nine training conditions, i.e. 63 models in total, are compared. Almost all conditions yield significant gender biases. Results indicate that reflected biases stem from public BERT models rather than task-specific data, emphasising the weight of responsible usage.

 

사전 훈련된 언어 모델을 공개적으로 사용할 수 있으며 지속적으로 미세 조정됨 다양한 실제 응용 프로그램에 사용됩니다. 그들이 콤플렉스를 파악할 수 있게 되면 상황 정보, 해로운 편견들이 점점 더 얽힐 가능성이 높다 그 모델들. 이 논문은 BERT 모델의 성별 편향을 두 가지 주요 사항으로 분석한다 기여: 첫째, 편향을 정의하는 새로운 편향 측정이 도입된다 여성 샘플 버전과 남성 샘플 버전의 감정 평가 차이. 둘째, 우리는 현실적인 예에 대한 BERT의 편견을 종합적으로 분석한다 IMDB 동영상 분류기입니다. 교육의 구성 요소를 체계적으로 변경함으로써 파이프라인, 우리는 최종 모델 편향에 대한 그들의 영향에 대해 결론을 내릴 수 있다. 일곱개 9개의 훈련 조건에서 서로 다른 공공 BERT 모델, 즉 63개의 모델 전체를 비교합니다. 거의 모든 조건은 상당한 성 편견을 낳는다. 결과는 반사된 편향이 공공 BERT 모델에서 비롯된다는 것을 나타낸다 책임 있는 사용의 비중을 강조하는 작업별 데이터. 

 

 

반응형

댓글