본문 바로가기
오늘의 자연어 처리

[2023-09-10] 오늘의 자연어처리

by 지환이아빠 2023. 9. 10.
반응형

XGen-7B Technical Report

 

Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.

 

대형 언어 모델(Large Language Models, LLM)은 다양한 도메인에 걸쳐 유비쿼터스화되었다, 우리가 정보와 상호작용하고 연구를 수행하는 방식을 변화시킵니다. 그러나 대부분의 고성능 LLM은 독점적인 벽 뒤에 갇혀 있습니다, 과학적 진보를 저해하는. 그러나 대부분의 오픈 소스 LLM은 핵심인 긴 서열 길이를 지원하는 능력이 제한되어 있다 입력 컨텍스트에 대한 추론이 필요한 많은 작업에 대한 요구 사항. 로. 이 문제를 해결하기 위해 우리는 최대 8K의 7B 파라미터 모델인 XGen을 훈련시켰다 시퀀스 길이(최대 1.5)T개의 토큰. XGen 모델도 미세 조정했습니다 퍼블릭 도메인의 명령어 데이터 상에서 명령어-데이터를 생성합니다 상대 (XGen-Inst). 우리는 두 연구를 위해 모델을 오픈 소스화한다 발전과 상업적 응용 프로그램들. 표준 벤치마크에 대한 평가 다음과 비교했을 때 XGen 모델이 동등하거나 더 나은 결과를 얻는 것을 보여줍니다 최첨단 오픈 소스 LLM. 긴 시퀀스에 대한 우리의 목표 평가 모델링 작업은 2K 시퀀스에 비해 8K 시퀀스 모델의 이점을 보여줍니다 오픈 소스 LLMs. 

 

 

FLM-101B: An Open LLM and How to Train It with $100K Budget

 

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at this https URL.

 

대형 언어 모델(Large Language Model, LLM)은 NLP 및 복합 작업. 이러한 성공에도 불구하고, 그들의 발전은 크게 두 가지에 직면해 있다 과제: (i) 높은 계산 비용 및 (ii) 공정 수행의 어려움 그리고 객관적 평가. LLM은 엄청나게 비싸서 실현 가능합니다 소수의 주요 선수들만 훈련에 착수할 수 있도록 함으로써 연구 및 응용 기회를 모두 제공합니다. 이것은 중요성을 강조한다 비용 효율적인 LLM 교육을 받을 수 있습니다. 본 논문에서는 성장 전략을 활용하여 다음을 수행한다 LLM 교육 비용을 대폭 절감합니다. 우리는 101B와 함께 LLM을 보여준다 모수 및 0.31TB 토큰은 10만 달러의 예산으로 교육될 수 있다. 우리는 또한 A를 채택한다 LLMs의 IQ 평가를 위한 체계적인 평가 패러다임을 보완한다 지식 지향적인 능력에 더 초점을 맞춘 기존의 평가들. 우리가 중요한 측면에 대한 평가를 포함하여 우리의 벤치마크를 소개한다 상징적인 매핑, 규칙 이해, 패턴 마이닝을 포함한 지능, 방해금지. 이러한 평가는 잠재적인 영향을 최소화한다 암기. 실험 결과에 따르면 FLM-101B 모델은 다음과 같이 훈련되었다 10만 달러의 예산으로 강력하고 잘 알려진 제품과 동등한 성능을 달성합니다 GPT-3 및 GLM-130B와 같은 모델, 특히 다음과 같은 IQ 벤치마크 평가에서 교육 데이터에서 볼 수 없는 컨텍스트. FLM-101B의 체크포인트는 이 https URL에서 오픈 소스. 

 

 

Machine Learning for Tangible Effects: Natural Language Processing for Uncovering the Illicit Massage Industry & Computer Vision for Tactile Sensing

 

I explore two questions in this thesis: how can computer science be used to fight human trafficking? And how can computer vision create a sense of touch? I use natural language processing (NLP) to monitor the United States illicit massage industry (IMI), a multi-billion dollar industry that offers not just therapeutic massages but also commercial sexual services. Employees of this industry are often immigrant women with few job opportunities, leaving them vulnerable to fraud, coercion, and other facets of human trafficking. Monitoring spatiotemporal trends helps prevent trafficking in the IMI. By creating datasets with three publicly-accessible websites: Google Places, Rubmaps, and AMPReviews, combined with NLP techniques such as bag-of-words and Word2Vec, I show how to derive insights into the labor pressures and language barriers that employees face, as well as the income, demographics, and societal pressures affecting sex buyers. I include a call-to-action to other researchers given these datasets. I also consider how to creating synthetic financial data, which can aid with counter-trafficking in the banking sector. I use an agent-based model to create both tabular and payee-recipient graph data. I then consider the role of computer vision in making tactile sensors. I report on a novel sensor, the Digger Finger, that adapts the Gelsight sensor to finding objects in granular media. Changes include using a wedge shape to facilitate digging, replacing the internal lighting LEDs with fluorescent paint, and adding a vibrator motor to counteract jamming. Finally, I also show how to use a webcam and a printed reference marker, or fiducial, to create a low-cost six-axis force-torque sensor. This sensor is up to a hundred times less expensive than commercial sensors, allowing for a wider range of applications. For this and earlier chapters I release design files and code as open source.

 

나는 이 논문에서 두가지 질문을 탐구한다: 컴퓨터 공학은 어떻게 사용될 수 있는가 인신매매와 싸운다구요? 그리고 컴퓨터 비전은 어떻게 촉각을 만들어 낼 수 있을까? 나는 자연어 처리(NLP)를 사용하여 미국의 불법을 감시한다 마사지 산업(IMI), 뿐만 아니라 제공하는 수십억 달러의 산업 치료용 마사지 뿐만 아니라 상업적인 성 서비스도 제공합니다. 이 회사의 직원들 산업계는 종종 일자리가 거의 없는 이민여성들이며, 그들을 떠나보낸다 사기, 강요 그리고 인신매매의 다른 측면에 취약합니다. 시공간적 경향을 관찰하는 것은 IMI의 인신매매를 막는 데 도움이 된다 세 개의 공개적으로 접근할 수 있는 웹 사이트를 사용하여 데이터셋을 생성합니다: 구글 플레이스, 단어 가방과 같은 NLP 기술과 결합된 루브맵 및 AMP 리뷰 Word2Vec, 나는 노동 압력과 언어에 대한 통찰력을 얻는 방법을 보여준다 직원들이 직면한 장벽은 물론 소득, 인구 및 사회적 장벽 성 구매자들에게 미치는 압력. 저는 다른 연구원들에게 행동을 요구하는 것을 포함합니다 이 데이터 세트들을 고려할 때. 합성재무자료를 작성하는 방법도 고려하고 있고, 은행권의 역선택에 도움이 될 수도 있어요. 나는 표 및 수취인별 그래프 데이터를 모두 생성하는 에이전트 기반 모델입니다. 그런 다음 촉각 센서를 만드는 데 있어 컴퓨터 비전의 역할을 고려한다. i Gelsight 센서를 적응시키는 새로운 센서, Digger Finger에 대한 보고 세분화된 미디어에서 개체 찾기. 변경 사항에는 쐐기 모양을 사용하여 다음을 수행하는 것이 포함됩니다 내부 조명 LED를 형광 LED로 교체하여 파내기 용이 페인트를 칠하고, 방해를 방지하기 위해 진동자 모터를 추가한다. 마지막으로 저도 보여드리고요 웹캠과 인쇄된 참조 마커, 또는 기준을 사용하여 을 만드는 방법 저가의 6축 힘 감지 센서. 이 센서는 최대 백 배입니다 더 넓은 범위를 허용하는 상업용 센서보다 더 비싸지 않다 적용들. 이 장들과 이전 장들을 위해 나는 디자인 파일들과 코드를 다음과 같이 공개한다 오픈 소스. 

 

 

반응형

댓글