본문 바로가기
오늘의 자연어 처리

[2023-03-21] 오늘의 자연어처리

by 지환이아빠 2023. 3. 21.
반응형

Direct and indirect evidence of compression of word lengths. Zipf's law of abbreviation revisited

 

Zipf's law of abbreviation, the tendency of more frequent words to be shorter, is one of the most solid candidates for a linguistic universal, in the sense that it has the potential for being exceptionless or with a number of exceptions that is vanishingly small compared to the number of languages on Earth. Since Zipf's pioneering research, this law has been viewed as a manifestation of a universal principle of communication, i.e. the minimization of word lengths, to reduce the effort of communication. Here we revisit the concordance of written language with the law of abbreviation. Crucially, we provide wider evidence that the law holds also in speech (when word length is measured in time), in particular in 46 languages from 14 linguistic families. Agreement with the law of abbreviation provides indirect evidence of compression of languages via the theoretical argument that the law of abbreviation is a prediction of optimal coding. Motivated by the need of direct evidence of compression, we derive a simple formula for a random baseline indicating that word lengths are systematically below chance, across linguistic families and writing systems, and independently of the unit of measurement (length in characters or duration in time). Our work paves the way to measure and compare the degree of optimality of word lengths in languages.

 

Zipf의 약어 법칙, 더 자주 사용되는 단어의 경향 더 짧으며, 언어적 보편성을 위한 가장 확실한 후보들 중 하나이다 그것이 예외가 없거나 많은 가능성을 가지고 있다는 감각 에 있는 언어의 수에 비해 매우 작은 예외 지구. Zipf의 선구적인 연구 이래로, 이 법칙은 다음과 같이 여겨져 왔다 의사소통의 보편적 원칙의 표현, 즉 최소화 단어 길이의, 의사소통의 노력을 줄이기 위해. 여기서 우리는 다시 방문한다 문어와 약칭법의 일치. 결정적으로, 우리는 (단어 길이가 다음과 같을 때) 법이 연설에서도 가지고 있는 광범위한 증거를 제공한다 특히 14개 언어 계열의 46개 언어에서 측정되었다. 약칭법과의 합의는 다음과 같은 간접적인 증거를 제공한다 언어의 압축은 법칙의 이론적 주장을 통한 것이다 약어는 최적 코딩에 대한 예측입니다. 직접적인 필요성에 의해 동기 부여됨 압축의 증거, 우리는 무작위 기준선에 대한 간단한 공식을 도출한다 언어학적으로 단어의 길이가 체계적으로 가능성보다 작다는 것을 나타낸다 패밀리 및 쓰기 시스템, 그리고 측정 단위와는 독립적으로 길이(문자 또는 시간 단위). 우리의 연구는 측정할 수 있는 길을 열어준다 그리고 언어에서 단어 길이의 최적성 정도를 비교한다. 

 

 

Trained on 100 million words and still in shape: BERT meets British National Corpus

 

While modern masked language models (LMs) are trained on ever larger corpora, we here explore the effects of down-scaling training to a modestly-sized but representative, well-balanced, and publicly available English text source -- the British National Corpus. We show that pre-training on this carefully curated corpus can reach better performance than the original BERT model. We argue that this type of corpora has great potential as a language modeling benchmark. To showcase this potential, we present fair, reproducible and data-efficient comparative studies of LMs, in which we evaluate several training objectives and model architectures and replicate previous empirical results in a systematic way. We propose an optimized LM architecture called LTG-BERT.

 

현대의 복면 언어 모델(LM)은 더 큰 말뭉치에 대해 훈련을 받는다, 우리는 여기서 적당한 크기의 하향식 훈련의 효과를 탐구한다 대표적이고 균형 잡힌, 그리고 공개적으로 이용 가능한 영어 텍스트 소스 -- 영국 국립 코퍼스. 우리는 이것에 대한 사전 훈련을 신중하게 보여준다 큐레이티드 말뭉치는 원래 BERT 모델보다 더 나은 성능에 도달할 수 있다. 우리가 이러한 유형의 말뭉치는 언어 모델링으로서 큰 잠재력을 가지고 있다고 주장한다 기준을 정하다. 이러한 잠재력을 보여주기 위해 공정하고 재현 가능하며 우리가 몇 가지를 평가하는 LM의 데이터 효율적인 비교 연구 교육 목표 및 모델 아키텍처 및 이전의 경험적 경험을 복제합니다 체계적인 결과를 낳는다. 우리는 다음과 같은 최적화된 LM 아키텍처를 제안한다 LTG-BERT. 

 

 

HIVE: Harnessing Human Feedback for Instructional Visual Editing

 

Incorporating human feedback has been shown to be crucial to align text generated by large language models to human preferences. We hypothesize that state-of-the-art instructional image editing models, where outputs are generated based on an input image and an editing instruction, could similarly benefit from human feedback, as their outputs may not adhere to the correct instructions and preferences of users. In this paper, we present a novel framework to harness human feedback for instructional visual editing (HIVE). Specifically, we collect human feedback on the edited images and learn a reward function to capture the underlying user preferences. We then introduce scalable diffusion model fine-tuning methods that can incorporate human preferences based on the estimated reward. Besides, to mitigate the bias brought by the limitation of data, we contribute a new 1M training dataset, a 3.6K reward dataset for rewards learning, and a 1K evaluation dataset to boost the performance of instructional image editing. We conduct extensive empirical experiments quantitatively and qualitatively, showing that HIVE is favored over previous state-of-the-art instructional image editing approaches by a large margin.

 

인간 피드백을 통합하는 것이 텍스트를 정렬하는 데 중요한 것으로 나타났다 큰 언어 모델에 의해 생성된 인간 선호도. 우리는 가정한다 출력이 다음과 같은 최첨단 교육 이미지 편집 모델 입력 이미지 및 편집 명령을 기반으로 생성되며, 유사할 수 있습니다 그들의 산출물이 정확하지 않을 수 있기 때문에, 인간의 피드백으로부터 이익을 얻는다 사용자의 지시사항 및 기본 설정. 이 논문에서 우리는 소설을 발표한다 교육용 시각적 편집(HIV)을 위해 인간의 피드백을 활용하는 프레임워크. 구체적으로, 우리는 편집된 이미지에 대한 인간의 피드백을 수집하고 보상을 배운다 기본 사용자 기본 설정을 캡처하는 기능입니다. 그런 다음 확장 가능한 솔루션을 소개합니다 인간 선호도를 통합할 수 있는 확산 모델 미세 조정 방법 예상 보수에 근거하여. 게다가, 그가 초래한 편견을 완화하기 위해 데이터의 제한, 우리는 새로운 1백만 교육 데이터 세트, 3.6K 보상을 제공한다 보상 학습을 위한 데이터 세트와 1K 평가 데이터 세트를 강화합니다 교육용 이미지 편집의 성능. 우리는 광범위한 경험을 실시한다 양적, 질적으로 HIVE가 선호된다는 것을 보여주는 실험 이전의 최첨단 교육 이미지 편집 접근법들 여백. 

 

 

반응형

댓글