본문 바로가기
오늘의 자연어 처리

[2023-07-25] 오늘의 자연어처리

by 지환이아빠 2023. 7. 25.
반응형

MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems

 

MeetEval is an open-source toolkit to evaluate all kinds of meeting transcription systems. It provides a unified interface for the computation of commonly used Word Error Rates (WERs), specifically cpWER, ORC WER and MIMO WER along other WER definitions. We extend the cpWER computation by a temporal constraint to ensure that only words are identified as correct when the temporal alignment is plausible. This leads to a better quality of the matching of the hypothesis string to the reference string that more closely resembles the actual transcription quality, and a system is penalized if it provides poor time annotations. Since word-level timing information is often not available, we present a way to approximate exact word-level timings from segment-level timings (e.g., a sentence) and show that the approximation leads to a similar WER as a matching with exact word-level annotations. At the same time, the time constraint leads to a speedup of the matching algorithm, which outweighs the additional overhead caused by processing the time stamps.

 

MeetEval은 모든 종류의 미팅을 평가하는 오픈 소스 툴킷입니다 전사 시스템. 다음의 계산을 위한 통합 인터페이스를 제공합니다 일반적으로 사용되는 WER(Word Error Rate), 특히 cpWER, ORCWER 및 MIMOWER 다른 WER 정의에 따라. 우리는 cpWER 계산을 시간적으로 확장한다 다음과 같은 경우 단어만 정확한 것으로 식별되도록 하기 위한 제약 조건 시간적 정렬은 타당하다. 이것은 더 나은 매칭의 품질로 이어진다 보다 유사한 참조 문자열에 대한 가설 문자열의 실제 전사 품질, 그리고 시스템이 제공하지 않을 경우 불이익을 받는다 시간 주석. 단어 수준의 타이밍 정보를 사용할 수 없는 경우가 많기 때문에, 우리는 세그먼트 수준에서 정확한 단어 수준 타이밍을 근사화하는 방법을 제시한다 타이밍(예: 문장) 및 근사치가 유사하게 이어진다는 것을 보여줍니다 WER은 정확한 단어 수준 주석과 일치한다. 동시에, 시간은 제약은 매칭 알고리즘의 속도 향상으로 이어지며, 이는 다음을 능가한다 타임스탬프 처리로 인한 추가 오버헤드. 

 

 

Generating Image-Specific Text Improves Fine-grained Image Classification

 

Recent vision-language models outperform vision-only models on many image classification tasks. However, because of the absence of paired text/image descriptions, it remains difficult to fine-tune these models for fine-grained image classification. In this work, we propose a method, GIST, for generating image-specific fine-grained text descriptions from image-only datasets, and show that these text descriptions can be used to improve classification. Key parts of our method include 1. prompting a pretrained large language model with domain-specific prompts to generate diverse fine-grained text descriptions for each class and 2. using a pretrained vision-language model to match each image to label-preserving text descriptions that capture relevant visual features in the image. We demonstrate the utility of GIST by fine-tuning vision-language models on the image-and-generated-text pairs to learn an aligned vision-language representation space for improved classification. We evaluate our learned representation space in full-shot and few-shot scenarios across four diverse fine-grained classification datasets, each from a different domain. Our method achieves an average improvement of $4.1\%$ in accuracy over CLIP linear probes and an average of $1.1\%$ improvement in accuracy over the previous state-of-the-art image-text classification method on the full-shot datasets. Our method achieves similar improvements across few-shot regimes. Code is available at this https URL.

 

최근의 비전 언어 모델은 많은 이미지에서 비전 전용 모델을 능가한다 분류 작업. 그러나 페어링된 텍스트/이미지가 없기 때문에 설명, 세분화된 모델을 미세 조정하는 것은 여전히 어렵다 이미지 분류. 이 작업에서, 우리는 GIST라는 생성 방법을 제안한다 이미지 전용 데이터 세트의 이미지별 세부 텍스트 설명 이러한 텍스트 설명을 사용하여 분류를 개선할 수 있음을 보여줍니다. 열쇠 우리 방법의 일부는 1. 사전 훈련된 큰 언어 모델을 포함한다 다양한 세부 텍스트 설명을 생성하는 도메인별 프롬프트 각 클래스 및 2. 각 이미지와 일치하도록 사전 훈련된 비전 언어 모델 사용 관련 시각적 특징을 포착하는 텍스트 설명을 레이블로 보존하다 이미지. 비전 언어를 미세 조정하여 GIST의 유용성을 입증한다 정렬 학습을 위해 이미지와 생성된 텍스트 쌍의 모델 향상된 분류를 위한 비전 언어 표현 공간. 우리는 평가한다 학습된 표현 공간을 통해 전체 및 소수의 시나리오에서 사용할 수 있다 각기 다른 4개의 세분화된 분류 데이터 세트 영역의. 우리의 방법은 보다 정확도가 평균 $4.1\%$ 향상된다 CLIP 선형 프로브 및 평균 $1\%$의 정확도 향상 풀샷에 대한 이전의 최첨단 이미지 텍스트 분류 방법 데이터 세트. 우리의 방법은 퓨샷 체제에서 유사한 개선을 달성한다. 코드는 이 https URL에서 사용할 수 있습니다. 

 

 

Making Pre-trained Language Models both Task-solvers and Self-calibrators

 

Pre-trained language models (PLMs) serve as backbones for various real-world systems. For high-stake applications, it's equally essential to have reasonable confidence estimations in predictions. While the vanilla confidence scores of PLMs can already be effectively utilized, PLMs consistently become overconfident in their wrong predictions, which is not desirable in practice. Previous work shows that introducing an extra calibration task can mitigate this issue. The basic idea involves acquiring additional data to train models in predicting the confidence of their initial predictions. However, it only demonstrates the feasibility of this kind of method, assuming that there are abundant extra available samples for the introduced calibration task. In this work, we consider the practical scenario that we need to effectively utilize training samples to make PLMs both task-solvers and self-calibrators. Three challenges are presented, including limited training samples, data imbalance, and distribution shifts. We first conduct pilot experiments to quantify various decisive factors in the calibration task. Based on the empirical analysis results, we propose a training algorithm LM-TOAST to tackle the challenges. Experimental results show that LM-TOAST can effectively utilize the training data to make PLMs have reasonable confidence estimations while maintaining the original task performance. Further, we consider three downstream applications, namely selective classification, adversarial defense, and model cascading, to show the practical usefulness of LM-TOAST. The code will be made public at \url{this https URL}.

 

사전 훈련된 언어 모델(PLM)은 다양한 실제 환경의 백본 역할을 한다 시스템들. 중요성이 높은 애플리케이션의 경우 합리적인 솔루션을 구축하는 것도 마찬가지로 필수적입니다 예측에 대한 신뢰 추정. 바닐라 자신감 점수는 PLM은 이미 효과적으로 활용될 수 있으며 PLM은 지속적으로 그들의 잘못된 예측을 과신하는 것은 현실적으로 바람직하지 않다. 이전 연구는 추가 교정 작업을 도입하면 완화될 수 있음을 보여줍니다 이번 호. 기본 아이디어는 모델을 훈련시키기 위한 추가 데이터를 획득하는 것을 포함한다 그들의 초기 예측의 신뢰도를 예측하는 데 있어. 하지만, 그것은 오직 이러한 종류의 방법의 실현 가능성을 입증한다 도입된 교정 작업에 사용할 수 있는 풍부한 여분의 샘플. 이 점에서. 일, 우리는 효과적으로 활용해야 할 실제 시나리오를 고려한다 PLM을 작업 해결사와 자가 교정기 모두로 만들기 위한 교육 샘플. 세개 제한적인 교육 샘플, 데이터 불균형을 포함한 과제가 제시된다, 그리고 분배 이동. 우리는 먼저 다양한 양을 정량화하기 위한 파일럿 실험을 수행한다 교정 작업의 결정적인 요인. 경험적 분석을 바탕으로 결과, 우리는 과제를 해결하기 위한 훈련 알고리듬 LM-TOAST를 제안한다. 실험 결과는 LM-TOAST가 훈련을 효과적으로 활용할 수 있음을 보여준다 PLM을 유지하면서 합리적인 신뢰 추정치를 갖도록 하는 데이터 원래 작업 수행. 또한, 우리는 세 가지 다운스트림 애플리케이션을 고려한다, 즉, 선택적 분류, 적대적 방어, 모델 계단식 LM-TOAST의 실용성을 보여줍니다. 코드는 다음 시간에 공개됩니다 \url{이 https URL}. 

 

 

반응형

댓글