본문 바로가기
오늘의 자연어 처리

[2023-05-24] 오늘의 자연어처리

by 지환이아빠 2023. 5. 24.
반응형

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

 

Multi-query attention (MQA), which only uses a single key-value head, drastically speeds up decoder inference. However, MQA can lead to quality degradation, and moreover it may not be desirable to train a separate model just for faster inference. We (1) propose a recipe for uptraining existing multi-head language model checkpoints into models with MQA using 5% of original pre-training compute, and (2) introduce grouped-query attention (GQA), a generalization of multi-query attention which uses an intermediate (more than one, less than number of query heads) number of key-value heads. We show that uptrained GQA achieves quality close to multi-head attention with comparable speed to MQA.

 

단일 키 값 헤드만 사용하는 MQA(Multi-Query Attention), 디코더 추론 속도를 획기적으로 높입니다. 그러나 MQA는 품질로 이어질 수 있다 성능 저하, 그리고 더 나아가 별도의 모델을 훈련시키는 것은 바람직하지 않을 수 있다 더 빠른 추론을 위해. 우리는 (1) 기존의 업트레이닝을 위한 레시피를 제안한다 원본의 5%를 사용하는 MQA가 있는 모델에 대한 다중 헤드 언어 모델 체크포인트 훈련 전 계산, 그리고 (2) 그룹화 쿼리 주의(GQA)를 도입한다 중간자(이상)를 사용하는 다중 요소 주의의 일반화 하나, 쿼리 헤드 수보다 적음) 키 값 헤드 수입니다. 우리는 그것을 보여준다 업그레이드된 GQA는 유사한 품질로 다중 헤드 주의에 가까운 품질을 달성한다 MQA까지 속도를 높입니다. 

 

 

Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters

 

To translate speech for automatic dubbing, machine translation needs to be isochronous, i.e. translated speech needs to be aligned with the source in terms of speech durations. We introduce target factors in a transformer model to predict durations jointly with target language phoneme sequences. We also introduce auxiliary counters to help the decoder to keep track of the timing information while generating target phonemes. We show that our model improves translation quality and isochrony compared to previous work where the translation model is instead trained to predict interleaved sequences of phonemes and durations.

 

자동 더빙을 위해 음성을 번역하기 위해서는 기계 번역이 필요하다 등시적이다. 즉, 번역된 음성은 소스와 정렬되어야 한다 연설 기간의 조건. 우리는 변압기 모델에 목표 인자를 도입한다 대상 언어 음소 시퀀스와 공동으로 지속 시간을 예측한다. 저희도 디코더가 타이밍을 추적할 수 있도록 보조 카운터를 도입합니다 대상 음소를 생성하는 동안의 정보. 우리는 우리의 모델이 개선된다는 것을 보여준다 번역 품질과 등시성은 이전 작업과 비교하여 다음과 같습니다 대신 번역 모델은 인터리브 시퀀스를 예측하도록 훈련된다 음소와 지속 시간. 

 

 

Evaluating Factual Consistency of Texts with Semantic Role Labeling

 

Automated evaluation of text generation systems has recently seen increasing attention, particularly checking whether generated text stays truthful to input sources. Existing methods frequently rely on an evaluation using task-specific language models, which in turn allows for little interpretability of generated scores. We introduce SRLScore, a reference-free evaluation metric designed with text summarization in mind. Our approach generates fact tuples constructed from Semantic Role Labels, applied to both input and summary texts. A final factuality score is computed by an adjustable scoring mechanism, which allows for easy adaption of the method across domains. Correlation with human judgments on English summarization datasets shows that SRLScore is competitive with state-of-the-art methods and exhibits stable generalization across datasets without requiring further training or hyperparameter tuning. We experiment with an optional co-reference resolution step, but find that the performance boost is mostly outweighed by the additional compute required. Our metric is available online at this https URL.

 

텍스트 생성 시스템의 자동화된 평가가 최근 증가하고 있다 주의, 특히 생성된 텍스트가 입력에 진실성을 유지하는지 여부를 확인합니다 원천. 기존 방법은 작업별 평가에 자주 의존한다 언어 모델은 생성된 해석 가능성을 거의 허용하지 않는다 점수. 우리는 SRL 점수를 소개한다. SRL 점수는 다음과 같이 설계된 참조 없는 평가 지표이다 텍스트 요약을 염두에 두고 있습니다. 우리의 접근 방식은 다음과 같이 구성된 사실 튜플을 생성한다 의미론적 역할 레이블: 입력 및 요약 텍스트에 모두 적용됩니다. 결승전 사실성 점수는 조정 가능한 채점 메커니즘에 의해 계산된다 도메인 간에 메소드를 쉽게 적용할 수 있습니다. 인간과의 상관관계 영어 요약 데이터 세트에 대한 판단은 SRL 점수가 경쟁력이 있음을 보여준다 최첨단 방법을 사용하여 전체적으로 안정적인 일반화를 보여준다 추가 교육이나 하이퍼파라미터 조정 없이 데이터셋을 사용할 수 있습니다. 우리가 선택적인 공동 참조 해결 단계를 사용하여 실험하지만, 다음과 같은 것을 발견한다 성능 향상은 대부분 필요한 추가 컴퓨팅보다 중요합니다. 우리들의 메트릭은 이 https URL에서 온라인으로 사용할 수 있습니다. 

 

 

반응형

댓글