본문 바로가기
오늘의 자연어 처리

[2023-03-28] 오늘의 자연어처리

by 지환이아빠 2023. 3. 28.
반응형

Enhancing Unsupervised Speech Recognition with Diffusion GANs

 

We enhance the vanilla adversarial training method for unsupervised Automatic Speech Recognition (ASR) by a diffusion-GAN. Our model (1) injects instance noises of various intensities to the generator's output and unlabeled reference text which are sampled from pretrained phoneme language models with a length constraint, (2) asks diffusion timestep-dependent discriminators to separate them, and (3) back-propagates the gradients to update the generator. Word/phoneme error rate comparisons with wav2vec-U under Librispeech (3.1% for test-clean and 5.6% for test-other), TIMIT and MLS datasets, show that our enhancement strategies work effectively.

 

우리는 비지도 자동에 대한 바닐라 적대적 훈련 방법을 향상시킨다 확산-GAN에 의한 음성 인식(ASR). 우리의 모델 (1)은 인스턴스를 주입한다 발전기 출력과 라벨이 부착되지 않은 참조에 대한 다양한 강도의 소음 길이가 있는 사전 훈련된 음소 언어 모델에서 샘플링된 텍스트 제약 조건, (2) 확산 시간 스텝 의존적 판별자에게 분리를 요청한다 (3) 그레이디언트를 역방향으로 변환하여 제너레이터를 업데이트합니다. Librispeech에서 wav2vec-U와 단어/음성 오류율 비교(의 경우 3.1%) TIMIT 및 MLS 데이터셋의 경우 Test-Clean 및 5.6%) 향상 전략이 효과적으로 작동합니다. 

 

 

Ad Creative Discontinuation Prediction with Multi-Modal Multi-Task Neural Survival Networks

 

Discontinuing ad creatives at an appropriate time is one of the most important ad operations that can have a significant impact on sales. Such operational support for ineffective ads has been less explored than that for effective ads. After pre-analyzing 1,000,000 real-world ad creatives, we found that there are two types of discontinuation: short-term (i.e., cut-out) and long-term (i.e., wear-out). In this paper, we propose a practical prediction framework for the discontinuation of ad creatives with a hazard function-based loss function inspired by survival analysis. Our framework predicts the discontinuations with a multi-modal deep neural network that takes as input the ad creative (e.g., text, categorical, image, numerical features). To improve the prediction performance for the two different types of discontinuations and for the ad creatives that contribute to sales, we introduce two new techniques: (1) a two-term estimation technique with multi-task learning and (2) a click-through rate-weighting technique for the loss function. We evaluated our framework using the large-scale ad creative dataset, including 10 billion scale impressions. In terms of the concordance index (short: 0.896, long: 0.939, and overall: 0.792), our framework achieved significantly better performance than the conventional method (0.531). Additionally, we confirmed that our framework (i) demonstrated the same degree of discontinuation effect as manual operations for short-term cases, and (ii) accurately predicted the ad discontinuation order, which is important for long-running ad creatives for long-term cases.

 

적절한 시기에 광고 크리에이티브를 중단하는 것이 가장 중요한 것 중 하나입니다 매출에 상당한 영향을 미칠 수 있는 중요한 광고 운영. 그런 비효율적인 광고에 대한 운영 지원은 그것보다 덜 탐구되었다 효과적인 광고. 1,000,000개의 실제 광고 크리에이티브를 사전 분석한 후, 우리는 두 가지 중단 유형이 있는지 여부: 단기(즉, 컷아웃) 및 장기적(즉, 마모). 이 논문에서, 우리는 실용적인 예측을 제안한다 위험 기능 기반의 광고 크리에이티브 중단을 위한 프레임워크 생존 분석에서 영감을 얻은 손실 함수. 우리의 프레임워크는 예측한다 입력으로 사용하는 다중 신호 심층 신경망과의 중단 광고 크리에이티브(예: 텍스트, 범주형, 이미지, 숫자 특징). 개선하기 위해 두 가지 다른 유형의 중단에 대한 예측 성능 및 판매에 기여하는 광고 제작자를 위해, 우리는 두 가지 새로운 기법을 소개합니다: (1) 다중 작업 학습과 (2) a를 포함한 2학기 추정 기술 손실 함수에 대한 클릭 스루 비율 계산 기법. 우리는 우리의 100억 규모를 포함한 대규모 광고 크리에이티브 데이터 세트를 사용하는 프레임워크 인상. 일치 지수(짧은 값: 0.896, 긴 값: 0.939 및 전체: 0.792), 프레임워크가 보다 훨씬 더 나은 성능을 달성했습니다 종래의 방법(0.531). 추가로, 우리의 프레임워크가 (i) 수동 조작과 동일한 정도의 중단 효과를 입증했다 단기 사례의 경우, 그리고 (ii) 광고 중단을 정확하게 예측했다 순서, 이것은 장기적인 사례를 위한 장기적인 광고 창조자들에게 중요하다. 

 

 

ReCOGS: How Incidental Details of a Logical Form Overshadow an Evaluation of Semantic Interpretation

 

Compositional generalization benchmarks seek to assess whether models can accurately compute meanings for novel sentences, but operationalize this in terms of logical form (LF) prediction. This raises the concern that semantically irrelevant details of the chosen LFs could shape model performance. We argue that this concern is realized for the COGS benchmark (Kim and Linzen, 2020). COGS poses generalization splits that appear impossible for present-day models, which could be taken as an indictment of those models. However, we show that the negative results trace to incidental features of COGS LFs. Converting these LFs to semantically equivalent ones and factoring out capabilities unrelated to semantic interpretation, we find that even baseline models get traction. A recent variable-free translation of COGS LFs suggests similar conclusions, but we observe this format is not semantically equivalent; it is incapable of accurately representing some COGS meanings. These findings inform our proposal for ReCOGS, a modified version of COGS that comes closer to assessing the target semantic capabilities while remaining very challenging. Overall, our results reaffirm the importance of compositional generalization and careful benchmark task design.

 

구성 일반화 벤치마크는 모델이 할 수 있는지 여부를 평가하려고 합니다 새로운 문장에 대한 의미를 정확하게 계산하지만, 이것을 운영화한다 논리적 형식(LF) 예측의 항입니다. 이로 인해 의 우려가 제기된다 선택된 LF의 의미론적으로 관련이 없는 세부 사항은 모델을 형성할 수 있다 성능. 우리는 이러한 우려가 COGS 벤치마크에 대해 실현된다고 주장한다(김) 린젠(Linzen, 2020). COGS는 불가능해 보이는 일반화 분할을 제기한다 현대 모델들, 그것들의 기소로 받아들여질 수 있다. 그러나, 우리는 부정적인 결과가 COGS의 부수적인 특징으로 추적된다는 것을 보여준다 LFs. 이 LF들을 의미론적으로 동등한 것으로 변환하고 인수분해하는 것 의미론적 해석과 무관한 기능, 우리는 심지어 기준선도 발견했다 모델들은 견인력을 얻는다. 최근의 COGSLF의 변수 없는 번역은 다음을 시사한다 유사한 결론이지만, 우리는 이 형식이 의미론적으로 동등하지 않다는 것을 관찰한다; 일부 COGS 의미를 정확하게 표현할 수 없습니다. 이러한 결과 보다 가까운 COGS의 수정된 버전인 ReCOGS에 대한 우리의 제안을 알립니다 매우 어려운 상태를 유지하면서 목표 시맨틱 기능을 평가합니다. 전반적으로, 우리의 결과는 구성 일반화의 중요성을 재확인한다 그리고 신중한 벤치마크 작업 설계. 

 

 

반응형

댓글