Probabilistic Method of Measuring Linguistic Productivity
In this paper I propose a new way of measuring linguistic productivity that objectively assesses the ability of an affix to be used to coin new complex words and, unlike other popular measures, is not directly dependent upon token frequency. Specifically, I suggest that linguistic productivity may be viewed as the probability of an affix to combine with a random base. The advantages of this approach include the following. First, token frequency does not dominate the productivity measure but naturally influences the sampling of bases. Second, we are not just counting attested word types with an affix but rather simulating the construction of these types and then checking whether they are attested in the corpus. Third, a corpus-based approach and randomised design assure that true neologisms and words coined long ago have equal chances to be selected. The proposed algorithm is evaluated both on English and Russian data. The obtained results provide some valuable insights into the relation of linguistic productivity to the number of types and tokens. It looks like burgeoning linguistic productivity manifests itself in an increasing number of types. However, this process unfolds in two stages: first comes the increase in high-frequency items, and only then follows the increase in low-frequency items.
이 논문에서 나는 언어적 생산성을 측정하는 새로운 방법을 제안한다 새로운 복합체를 만드는 데 사용되는 접사의 능력을 객관적으로 평가하다 단어와 다른 인기 있는 조치와 달리 토큰에 직접적으로 의존하지 않는다 빈도수. 구체적으로 언어적 생산성을 볼 수 있다고 제안한다 임의의 베이스와 결합하는 접사의 확률로서. 의 장점 이 접근법은 다음을 포함한다. 첫째, 토큰 빈도가 우세하지 않습니다 생산성 측정치는 자연스럽게 기저의 표본 추출에 영향을 미친다. 둘째로, 우리는 단순히 접사로 증명된 단어 유형을 세는 것이 아니라 오히려 이러한 유형의 구성을 시뮬레이션한 다음 해당 여부를 확인합니다 말뭉치에서 증언하다. 셋째, 말뭉치 기반 접근 및 무작위 설계 진정한 신조어와 오래 전에 만들어진 단어들이 동등한 가능성이 있음을 보장하다 선택된. 제안된 알고리듬은 영어와 러시아 데이터에서 모두 평가된다. 얻은 결과는 다음의 관계에 대한 몇 가지 가치 있는 통찰력을 제공한다 유형과 토큰 수에 대한 언어적 생산성. 와 같다 급성장하는 언어 생산성은 점점 더 많은 수에서 나타난다 종류들. 그러나, 이 과정은 두 단계로 전개된다: 먼저 증가한다 고주파 항목, 그리고 오직 저주파의 증가를 따른다 항목들.
Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?
The multimedia community has shown a significant interest in perceiving and representing the physical world with multimodal pretrained neural network models, and among them, the visual-language pertaining (VLP) is, currently, the most captivating topic. However, there have been few endeavors dedicated to the exploration of 1) whether essential linguistic knowledge (e.g., semantics and syntax) can be extracted during VLP, and 2) how such linguistic knowledge impact or enhance the multimodal alignment. In response, here we aim to elucidate the impact of comprehensive linguistic knowledge, including semantic expression and syntactic structure, on multimodal alignment. Specifically, we design and release the SNARE, the first large-scale multimodal alignment probing benchmark, to detect the vital linguistic components, e.g., lexical, semantic, and syntax knowledge, containing four tasks: Semantic structure, Negation logic, Attribute ownership, and Relationship composition. Based on our proposed probing benchmarks, our holistic analyses of five advanced VLP models illustrate that the VLP model: i) shows insensitivity towards complex syntax structures and relies on content words for sentence comprehension; ii) demonstrates limited comprehension of combinations between sentences and negations; iii) faces challenges in determining the presence of actions or spatial relationships within visual information and struggles with verifying the correctness of triple combinations. We make our benchmark and code available at \url{this https URL}.
멀티미디어 커뮤니티는 지각하는 것에 상당한 관심을 보였다 다중 모드 사전 훈련 신경망으로 물리적 세계를 표현합니다 모델, 그리고 그 중에서, 시각 언어 관련(VLP)은, 현재 가장 매혹적인 주제. 그러나, 그것을 위해 헌신한 노력은 거의 없었다 1) 필수적인 언어 지식(예: 의미론 및 구문)은 VLP 동안 추출될 수 있으며, 2) 그러한 언어적 지식은 어떻게 추출될 수 있는가 멀티모달 정렬에 영향을 미치거나 향상시킵니다. 이에 대응하여, 여기서 우리는 의미론을 포함한 포괄적인 언어 지식의 영향을 설명하다 표현 및 구문 구조, 멀티모달 정렬. 구체적으로 저희가 최초의 대규모 멀티모달 정렬인 SNARE 설계 및 출시 탐색 벤치마크, 어휘와 같은 중요한 언어 구성 요소를 감지합니다, 의미론적 지식과 구문적 지식은 다음과 같은 네 가지 과제를 포함한다: 의미 구조, 부정 논리, 속성 소유권 및 관계 구성. 우리의 기준으로 제안된 탐색 벤치마크, 다섯 가지 고급 VLP 모델에 대한 우리의 전체적인 분석 VLP 모델: i) 복잡한 구문에 대한 둔감함을 보여주는 것을 설명합니다 문장 이해를 위해 구조와 내용 단어에 의존; ii) 문장 간의 조합에 대한 제한된 이해를 보여준다 부정; iii) 조치의 존재를 결정하는 데 있어 어려움에 직면한다 스파시각적 정보 내의 tial 관계와 검증에 어려움을 겪습니다 삼중 결합의 정확성. 우리는 벤치마크와 코드를 만듭니다 \url{this https URL}에서 사용할 수 있습니다.
A Small and Fast BERT for Chinese Medical Punctuation Restoration
In clinical dictation, utterances after automatic speech recognition (ASR) without explicit punctuation marks may lead to the misunderstanding of dictated reports. To give a precise and understandable clinical report with ASR, automatic punctuation restoration is required. Considering a practical scenario, we propose a fast and light pre-trained model for Chinese medical punctuation restoration based on 'pretraining and fine-tuning' paradigm. In this work, we distill pre-trained models by incorporating supervised contrastive learning and a novel auxiliary pre-training task (Punctuation Mark Prediction) to make it well-suited for punctuation restoration. Our experiments on various distilled models reveal that our model can achieve 95% performance while 10% model size relative to state-of-the-art Chinese RoBERTa.
임상 받아쓰기에서, 자동 음성 인식(ASR) 후의 발화 명확한 문장부호가 없으면 지시하는 것에 대한 오해를 초래할 수 있다 보고서를 작성하다. ASR로 정확하고 이해하기 쉬운 임상 보고서를 제공하기 위해, 자동 구두점 복원이 필요합니다. 실용적인 것을 고려하고 있다 시나리오, 우리는 중국 의료를 위한 빠르고 가벼운 사전 훈련 모델을 제안한다 '사전 훈련 및 미세 조정' 패러다임에 기초한 구두점 복원. 인 이 작업은 감독을 통해 사전 훈련된 모델을 증류한다 대조 학습과 새로운 보조 사전 훈련 과제(구문 표시) 예측) 문장부호 복원에 적합하도록 합니다. 우리의 실험은 다양한 증류 모델에서 우리 모델이 95%의 성능을 달성할 수 있음을 보여준다 중국의 최첨단 RoBERTa에 비해 모델 크기가 10%나 됩니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-08-30] 오늘의 자연어처리 (0) | 2023.08.30 |
---|---|
[2023-08-29] 오늘의 자연어처리 (1) | 2023.08.29 |
[2023-08-27] 오늘의 자연어처리 (0) | 2023.08.27 |
[2023-08-26] 오늘의 자연어처리 (0) | 2023.08.26 |
[2023-08-25] 오늘의 자연어처리 (0) | 2023.08.25 |
댓글