본문 바로가기
오늘의 자연어 처리

[2022-12-27] 오늘의 자연어처리

by 지환이아빠 2022. 12. 27.
반응형

Alignment Entropy Regularization

 

Existing training criteria in automatic speech recognition(ASR) permit the model to freely explore more than one time alignments between the feature and label sequences. In this paper, we use entropy to measure a model's uncertainty, i.e. how it chooses to distribute the probability mass over the set of allowed alignments. Furthermore, we evaluate the effect of entropy regularization in encouraging the model to distribute the probability mass only on a smaller subset of allowed alignments. Experiments show that entropy regularization enables a much simpler decoding method without sacrificing word error rate, and provides better time alignment quality.

 

자동 음성 인식(ASR)의 기존 훈련 기준은 다음을 허용한다. 형상과 형상 사이의 두 개 이상의 시간 선형을 자유롭게 탐색하는 모델 레이블 시퀀스 본 논문에서는 엔트로피를 사용하여 모델의 값을 측정한다. 불확실성, 즉 그것이 확률 질량을 어떻게 분포시키는지. 허용된 선형 집합입니다. 또한 엔트로피의 영향을 평가한다. 모델이 확률 질량만 분포하도록 권장하는 정규화 허용되는 선형의 더 작은 부분 집합에 있습니다. 실험에 따르면 엔트로피는 정규화는 단어를 희생하지 않고 훨씬 더 간단한 디코딩 방법을 가능하게 한다. 오류율, 더 나은 시간 정렬 품질을 제공합니다. 

 

 

Text classification in shipping industry using unsupervised models and Transformer based supervised models

 

Obtaining labelled data in a particular context could be expensive and time consuming. Although different algorithms, including unsupervised learning, semi-supervised learning, self-learning have been adopted, the performance of text classification varies with context. Given the lack of labelled dataset, we proposed a novel and simple unsupervised text classification model to classify cargo content in international shipping industry using the Standard International Trade Classification (SITC) codes. Our method stems from representing words using pretrained Glove Word Embeddings and finding the most likely label using Cosine Similarity. To compare unsupervised text classification model with supervised classification, we also applied several Transformer models to classify cargo content. Due to lack of training data, the SITC numerical codes and the corresponding textual descriptions were used as training data. A small number of manually labelled cargo content data was used to evaluate the classification performances of the unsupervised classification and the Transformer based supervised classification. The comparison reveals that unsupervised classification significantly outperforms Transformer based supervised classification even after increasing the size of the training dataset by 30%. Lacking training data is a key bottleneck that prohibits deep learning models (such as Transformers) from successful practical applications. Unsupervised classification can provide an alternative efficient and effective method to classify text when there is scarce training data.

 

특정 상황에서 레이블이 지정된 데이터를 얻는 것은 비용과 시간이 많이 소요될 수 있습니다. 소모적인 비록 비지도 학습을 포함한 다른 알고리즘들이 있지만, 준지도 학습, 자체 학습이 채택되었으며, 성과는 다음과 같다. 텍스트 분류는 문맥에 따라 다릅니다. 레이블이 지정된 데이터 세트의 부족을 고려할 때, 우리는 분류하기 위해 새롭고 단순한 비지도 텍스트 분류 모델을 제안했다. 표준을 이용한 국제 해운업의 화물 내용물 SITC(국제 무역 분류) 코드입니다. 우리의 방법은 다음과 같다. 사전 훈련된 글러브 워드 임베딩을 사용하여 단어를 표현하고 가장 많이 찾는다. 코사인 유사성을 사용하는 레이블일 수 있습니다. 감독되지 않은 텍스트를 비교하는 방법 감독 분류를 사용한 분류 모델, 우리는 또한 몇 가지를 적용했다. 화물 내용물을 분류하기 위한 변압기 모델. 교육 데이터가 부족하기 때문에 SITC 수치 코드와 해당 텍스트 설명은 다음과 같이 사용되었다. 훈련 데이터 소량의 수동 라벨링 화물 내용 데이터가 사용되었습니다. 감독되지 않은 분류의 분류 성능을 평가하다 트랜스포머 기반의 감독 분류입니다. 비교해 보면 알 수 있다. 감독되지 않은 분류가 트랜스포머 기반의 성능을 크게 능가한다. 훈련 규모를 늘린 후에도 감독 분류 데이터셋 30% 향상 교육 데이터 부족은 심층 교육을 방해하는 주요 병목 현상입니다. 성공적인 실제 애플리케이션을 통해 모델(예: 트랜스포머)을 학습합니다. 감독되지 않은 분류는 효율적이고 효과적인 대안을 제공할 수 있다. 훈련 데이터가 부족할 때 텍스트를 분류하는 방법. 

 

 

When are Lemons Purple? The Concept Association Bias of CLIP

 

Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such zero-shot performance of CLIP-based models does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). We investigate why this is the case, and report an interesting phenomenon of CLIP, which we call the Concept Association Bias (CAB), as a potential cause of the difficulty of applying CLIP to VQA and similar tasks. CAB is especially apparent when two concepts are present in the given image while a text prompt only contains a single concept. In such a case, we find that CLIP tends to treat input as a bag of concepts and attempts to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. For example, when asked for the color of a lemon in an image, CLIP predicts ``purple'' if the image contains a lemon and an eggplant. We demonstrate the Concept Association Bias of CLIP by showing that CLIP's zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. lemon) and an attribute (e.g. its color). On the other hand, when the association between object and attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB is significantly mitigated when we enable CLIP to learn deeper structure across image and text embeddings by adding an additional Transformer on top of CLIP and fine-tuning it on VQA. We find that across such fine-tuned variants of CLIP, the strength of CAB in a model predicts how well it performs on VQA.

 

CLIP와 같은 대규모 비전 언어 모델은 인상적이다. 제로샷 이미지 분류 및 이미지-텍스트 검색에 대한 성능. 그러나 CLIP 기반 모델의 이러한 제로샷 성능은 다음과 같이 실현되지 않는다. 비전과 언어 사이에 보다 세밀한 대응이 필요한 작업, 예를 들어 시각적 질문 답변(VQA)이 있습니다. 우리는 왜 이것이 사실인지 조사한다. 그리고 우리가 개념이라고 부르는 CLIP의 흥미로운 현상을 보고한다. 연관 편향(CAB), CLIP 적용 어려움의 잠재적 원인 VQA 및 유사한 작업을 수행합니다. CAB는 두 가지 개념이 있을 때 특히 명확하다. 텍스트 프롬프트가 단일 개념만 포함하는 동안 지정된 이미지에 표시됩니다. 이러한 경우, CLIP는 입력을 개념의 가방으로 취급하는 경향이 있다는 것을 발견했다. 누락된 다른 개념을 교차 모드로 채우려는 시도는 다음을 유도합니다. 예상치 못한 제로샷 예측 예를 들어, a의 색상을 요청할 때 이미지에서 레몬, CLIP는 이미지에 레몬이 포함되어 있다면 "보라색"을 예측한다. 가지 우리는 CLIP의 개념 연관 편향을 보여줌으로써 보여준다. CLIP의 제로샷 분류 성능은 다음이 있을 때 크게 저하됩니다. 물체(예: 레몬)와 속성 사이의 강력한 개념 연관성 (예: 색상) 반면에, 객체와 객체 사이의 연관성은 속성이 약합니다. 우리는 이 현상을 볼 수 없습니다. 게다가, 우리는 CAB가 CLIP를 통해 보다 심층적인 구조를 학습할 수 있도록 지원할 때 크게 완화됩니다. CLIP 위에 트랜스포머를 추가하여 이미지 및 텍스트 임베딩 VQA에서 미세 조정합니다. 우리는 그러한 미세 조정된 변형들을 통해 그것을 발견한다. CLIP, 모델에서 CAB의 강도는 VQA에서 얼마나 잘 수행되는지 예측합니다. 

 

 

반응형

댓글