InstOptima: Evolutionary Multi-objective Instruction Optimization via Large Language Model-based Instruction Operators
Abstract:Instruction-based language modeling has received significant attention in pretrained language models. However, the efficiency of instruction engineering remains low and hinders the development of instruction studies. Recent studies have focused on automating instruction generation, but they primarily aim to improve performance without considering other crucial objectives that impact instruction quality, such as instruction length and perplexity. Therefore, we propose a novel approach (i.e., InstOptima) that treats instruction generation as an evolutionary multi-objective optimization problem. In contrast to text edition-based methods, our approach utilizes a large language model (LLM) to simulate instruction operators, including mutation and crossover. Furthermore, we introduce an objective-guided mechanism for these operators, allowing the LLM to comprehend the objectives and enhance the quality of the generated instructions. Experimental results demonstrate improved fine-tuning performance and the generation of a diverse set of high-quality instructions.
초록:명령 기반 언어 모델링은 사전 훈련된 언어 모델에서 상당한 주목을 받아왔다. 그러나 수업공학의 효율성은 여전히 낮고 수업연구의 발전을 저해하고 있다. 최근의 연구들은 명령어 생성을 자동화하는 것에 초점을 맞추고 있지만, 명령어의 길이나 혼란과 같은 명령어 품질에 영향을 미치는 다른 중요한 목적을 고려하지 않고 성능을 향상시키는 것을 주된 목표로 하고 있다. 따라서, 우리는 명령 생성을 진화적 다목적 최적화 문제로 다루는 새로운 접근법(즉, InstOptima)을 제안한다. 텍스트 에디션 기반 방법과 대조적으로, 우리의 접근 방식은 돌연변이와 교차를 포함한 명령 연산자를 시뮬레이션하기 위해 큰 언어 모델(LLM)을 활용한다. 또한 이러한 연산자를 위한 목표 유도 메커니즘을 도입하여 LLM이 목표를 이해하고 생성된 명령의 품질을 향상시킬 수 있다. 실험 결과는 향상된 미세 조정 성능과 다양한 고품질 명령 세트의 생성을 보여준다.
The Validity of Evaluation Results: Assessing Concurrence Across Compositionality Benchmarks
Abstract:NLP models have progressed drastically in recent years, according to numerous datasets proposed to evaluate performance. Questions remain, however, about how particular dataset design choices may impact the conclusions we draw about model capabilities. In this work, we investigate this question in the domain of compositional generalization. We examine the performance of six modeling approaches across 4 datasets, split according to 8 compositional splitting strategies, ranking models by 18 compositional generalization splits in total. Our results show that: i) the datasets, although all designed to evaluate compositional generalization, rank modeling approaches differently; ii) datasets generated by humans align better with each other than they with synthetic datasets, or than synthetic datasets among themselves; iii) generally, whether datasets are sampled from the same source is more predictive of the resulting model ranking than whether they maintain the same interpretation of compositionality; and iv) which lexical items are used in the data can strongly impact conclusions. Overall, our results demonstrate that much work remains to be done when it comes to assessing whether popular evaluation datasets measure what they intend to measure, and suggest that elucidating more rigorous standards for establishing the validity of evaluation sets could benefit the field.
초록:성능을 평가하기 위해 제안된 다양한 데이터 세트에 따르면, 최근 몇 년 동안 NLP 모델이 크게 발전했다. 그러나 특정 데이터 세트 설계 선택이 모델 기능에 대해 도출한 결론에 어떤 영향을 미칠 수 있는지에 대해서는 의문이 남는다. 본 연구에서는 구성 일반화의 영역에서 이 문제를 조사한다. 우리는 총 18개의 구성 일반화 분할로 모델을 순위를 매기고, 8개의 구성 분할 전략에 따라 분할된 4개의 데이터 세트에 걸쳐 6개의 모델링 접근 방식의 성능을 조사한다. 우리의 결과는 i) 데이터 세트는 모두 구성 일반화를 평가하도록 설계되었지만 순위 모델링은 다르게 접근한다. ii) 인간에 의해 생성된 데이터 세트는 합성 데이터 세트보다 서로 더 잘 정렬되거나 자체적으로 합성 데이터 세트보다 더 잘 정렬된다. iii) 일반적으로, 데이터셋이 동일한 출처에서 샘플링되었는지 여부는 구성성에 대한 동일한 해석을 유지하는지 여부보다 결과 모델 순위를 더 예측한다. 그리고 iv) 어떤 어휘 항목이 데이터에 사용되는지가 결론에 강력한 영향을 미칠 수 있다. 전반적으로, 우리의 결과는 대중적인 평가 데이터 세트가 측정하고자 하는 것을 측정하는지 여부를 평가하는 것과 관련하여 많은 작업이 남아 있음을 보여주며, 평가 데이터 세트의 유효성을 확립하기 위한 보다 엄격한 기준을 설명하는 것이 현장에 도움이 될 수 있음을 시사한다.
Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways
Abstract:We present Lil-Bevo, our submission to the BabyLM Challenge. We pretrained our masked language models with three ingredients: an initial pretraining with music data, training on shorter sequences before training on longer ones, and masking specific tokens to target some of the BLiMP subtasks. Overall, our baseline models performed above chance, but far below the performance levels of larger LLMs trained on more data. We found that training on short sequences performed better than training on longer sequences.Pretraining on music may help performance marginally, but, if so, the effect seems small. Our targeted Masked Language Modeling augmentation did not seem to improve model performance in general, but did seem to help on some of the specific BLiMP tasks that we were targeting (e.g., Negative Polarity Items). Training performant LLMs on small amounts of data is a difficult but potentially informative task. While some of our techniques showed some promise, more work is needed to explore whether they can improve performance more than the modest gains here. Our code is available at this https URL and out models at this https URL
초록:릴-베보를 소개합니다. 아기에게 우리가 제출한 것이죠LM 챌린지. 음악 데이터를 사용한 초기 사전 교육, 더 긴 시퀀스에 대한 교육 전에 더 짧은 시퀀스에 대한 교육, BLiMP 하위 작업의 일부를 대상으로 하는 특정 토큰 마스킹 등 세 가지 요소로 마스크 언어 모델을 사전 교육했다. 전체적으로, 우리의 기본 모델은 가능성 이상의 성능을 발휘했지만, 더 많은 데이터에 대해 훈련된 더 큰 LLM의 성능 수준에는 훨씬 못 미쳤다. 우리는 짧은 시퀀스에 대한 훈련이 긴 시퀀스에 대한 훈련보다 더 잘 수행된다는 것을 발견했다.음악에 대한 사전 훈련은 공연에 약간의 도움을 줄 수 있지만, 만약 그렇다면, 그 효과는 작아 보인다. 우리가 목표로 한 마스크드 언어 모델링 확대는 일반적으로 모델 성능을 향상시키지는 못했지만, 우리가 목표로 했던 특정 BLiMP 작업 중 일부(예: 부정적 극성 항목)에 도움이 된 것으로 보인다. 적은 양의 데이터에 대해 수행자 LLM을 교육하는 것은 어렵지만 잠재적으로 정보를 얻을 수 있는 작업이다. 우리의 기술 중 일부는 약간의 가능성을 보여주었지만, 여기서의 작은 이익보다 성능을 향상시킬 수 있는지를 탐구하기 위해서는 더 많은 작업이 필요합니다. 우리의 코드는 이 https URL에서 사용할 수 있고 모델은 이 https URL에서 사용할 수 있다
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-10-30] 오늘의 자연어처리 (0) | 2023.10.30 |
---|---|
[2023-10-29] 오늘의 자연어처리 (0) | 2023.10.29 |
[2023-10-27] 오늘의 자연어처리 (0) | 2023.10.27 |
[2023-10-26] 오늘의 자연어처리 (1) | 2023.10.26 |
[2023-10-25] 오늘의 자연어처리 (0) | 2023.10.25 |
댓글