본문 바로가기
오늘의 자연어 처리

[2023-09-09] 오늘의 자연어처리

by 지환이아빠 2023. 9. 9.
반응형

Uncovering Drift in Textual Data: An Unsupervised Method for Detecting and Mitigating Drift in Machine Learning Models

 

Drift in machine learning refers to the phenomenon where the statistical properties of data or context, in which the model operates, change over time leading to a decrease in its performance. Therefore, maintaining a constant monitoring process for machine learning model performance is crucial in order to proactively prevent any potential performance regression. However, supervised drift detection methods require human annotation and consequently lead to a longer time to detect and mitigate the drift. In our proposed unsupervised drift detection method, we follow a two step process. Our first step involves encoding a sample of production data as the target distribution, and the model training data as the reference distribution. In the second step, we employ a kernel-based statistical test that utilizes the maximum mean discrepancy (MMD) distance metric to compare the reference and target distributions and estimate any potential drift. Our method also identifies the subset of production data that is the root cause of the drift. The models retrained using these identified high drift samples show improved performance on online customer experience quality metrics.

 

기계학습에서의 드리프트는 통계학적인 현상을 의미한다 모형이 작동하는 데이터 또는 컨텍스트의 속성, 시간에 따라 변경 성능 저하로 이어졌습니다. 따라서 일정한 값을 유지하는 것이다 기계 학습 모델 성능을 모니터링하는 과정은 순서상 매우 중요하다 잠재적인 성능 회귀를 사전에 방지할 수 있습니다. 하지만, 감독된 드리프트 검출 방법은 인간의 주석을 필요로 하며 결과적으로 드리프트를 감지하고 완화하는 데 더 오랜 시간이 걸리게 됩니다. 우리가 제안한 것에서 감독되지 않은 드리프트 탐지 방법, 우리는 두 단계 과정을 따른다. 첫번째 단계는 생산 데이터의 샘플을 목표 분포로 인코딩하는 것을 포함한다, 모형 훈련 데이터를 기준 분포로 사용합니다. 두번째 단계에서, 우리는 최대 평균을 사용하는 커널 기반 통계 테스트를 사용한다 기준과 대상을 비교하기 위한 불일치(MMD) 거리 측정법 분포 및 잠재적 드리프트를 추정합니다. 우리의 방법은 또한 다음을 식별한다 드리프트의 근본 원인이 되는 프로덕션 데이터의 부분 집합입니다. 모델들이 이러한 식별된 고 드리프트 샘플을 사용하여 재교육된 결과 향상된 성능을 보인다 온라인 고객 경험 품질 측정 기준을 제공합니다. 

 

 

FLM-101B: An Open LLM and How to Train It with $100K Budget

 

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at this https URL.

 

대형 언어 모델(Large Language Model, LLM)은 NLP 및 복합 작업. 이러한 성공에도 불구하고, 그들의 발전은 크게 두 가지에 직면해 있다 과제: (i) 높은 계산 비용 및 (ii) 공정 수행의 어려움 그리고 객관적 평가. LLM은 엄청나게 비싸서 실현 가능합니다 소수의 주요 선수들만 훈련에 착수할 수 있도록 함으로써 연구 및 응용 기회를 모두 제공합니다. 이것은 중요성을 강조한다 비용 효율적인 LLM 교육을 받을 수 있습니다. 본 논문에서는 성장 전략을 활용하여 다음을 수행한다 LLM 교육 비용을 대폭 절감합니다. 우리는 101B와 함께 LLM을 보여준다 모수 및 0.31TB 토큰은 10만 달러의 예산으로 교육될 수 있다. 우리는 또한 A를 채택한다 LLMs의 IQ 평가를 위한 체계적인 평가 패러다임을 보완한다 지식 지향적인 능력에 더 초점을 맞춘 기존의 평가들. 우리가 중요한 측면에 대한 평가를 포함하여 우리의 벤치마크를 소개한다 상징적인 매핑, 규칙 이해, 패턴 마이닝을 포함한 지능, 방해금지. 이러한 평가는 잠재적인 영향을 최소화한다 암기. 실험 결과에 따르면 FLM-101B 모델은 다음과 같이 훈련되었다 10만 달러의 예산으로 강력하고 잘 알려진 제품과 동등한 성능을 달성합니다 GPT-3 및 GLM-130B와 같은 모델, 특히 다음과 같은 IQ 벤치마크 평가에서 교육 데이터에서 볼 수 없는 컨텍스트. FLM-101B의 체크포인트는 이 https URL에서 오픈 소스. 

 

 

Machine Learning for Tangible Effects: Natural Language Processing for Uncovering the Illicit Massage Industry & Computer Vision for Tactile Sensing

 

I explore two questions in this thesis: how can computer science be used to fight human trafficking? And how can computer vision create a sense of touch? I use natural language processing (NLP) to monitor the United States illicit massage industry (IMI), a multi-billion dollar industry that offers not just therapeutic massages but also commercial sexual services. Employees of this industry are often immigrant women with few job opportunities, leaving them vulnerable to fraud, coercion, and other facets of human trafficking. Monitoring spatiotemporal trends helps prevent trafficking in the IMI. By creating datasets with three publicly-accessible websites: Google Places, Rubmaps, and AMPReviews, combined with NLP techniques such as bag-of-words and Word2Vec, I show how to derive insights into the labor pressures and language barriers that employees face, as well as the income, demographics, and societal pressures affecting sex buyers. I include a call-to-action to other researchers given these datasets. I also consider how to creating synthetic financial data, which can aid with counter-trafficking in the banking sector. I use an agent-based model to create both tabular and payee-recipient graph data. I then consider the role of computer vision in making tactile sensors. I report on a novel sensor, the Digger Finger, that adapts the Gelsight sensor to finding objects in granular media. Changes include using a wedge shape to facilitate digging, replacing the internal lighting LEDs with fluorescent paint, and adding a vibrator motor to counteract jamming. Finally, I also show how to use a webcam and a printed reference marker, or fiducial, to create a low-cost six-axis force-torque sensor. This sensor is up to a hundred times less expensive than commercial sensors, allowing for a wider range of applications. For this and earlier chapters I release design files and code as open source.

 

나는 이 논문에서 두가지 질문을 탐구한다: 컴퓨터 공학은 어떻게 사용될 수 있는가 인신매매와 싸운다구요? 그리고 컴퓨터 비전은 어떻게 촉각을 만들어 낼 수 있을까? 나는 자연어 처리(NLP)를 사용하여 미국의 불법을 감시한다 마사지 산업(IMI), 뿐만 아니라 제공하는 수십억 달러의 산업 치료용 마사지 뿐만 아니라 상업적인 성 서비스도 제공합니다. 이 회사의 직원들 산업계는 종종 일자리가 거의 없는 이민여성들이며, 그들을 떠나보낸다 사기, 강요 그리고 인신매매의 다른 측면에 취약합니다. 시공간적 경향을 관찰하는 것은 IMI의 인신매매를 막는 데 도움이 된다 세 개의 공개적으로 접근할 수 있는 웹 사이트를 사용하여 데이터셋을 생성합니다: 구글 플레이스, 단어 가방과 같은 NLP 기술과 결합된 루브맵 및 AMP 리뷰 Word2Vec, 나는 노동 압력과 언어에 대한 통찰력을 얻는 방법을 보여준다 직원들이 직면한 장벽은 물론 소득, 인구 및 사회적 장벽 성 구매자들에게 미치는 압력. 저는 다른 연구원들에게 행동을 요구하는 것을 포함합니다 이 데이터 세트들을 고려할 때. 합성재무자료를 작성하는 방법도 고려하고 있고, 은행권의 역선택에 도움이 될 수도 있어요. 나는 표 및 수취인별 그래프 데이터를 모두 생성하는 에이전트 기반 모델입니다. 그런 다음 촉각 센서를 만드는 데 있어 컴퓨터 비전의 역할을 고려한다. i Gelsight 센서를 적응시키는 새로운 센서, Digger Finger에 대한 보고 세분화된 미디어에서 개체 찾기. 변경 사항에는 쐐기 모양을 사용하여 다음을 수행하는 것이 포함됩니다 내부 조명 LED를 형광 LED로 교체하여 파내기 용이 페인트를 칠하고, 방해를 방지하기 위해 진동자 모터를 추가한다. 마지막으로 저도 보여드리고요 웹캠과 인쇄된 참조 마커, 또는 기준을 사용하여 을 만드는 방법 저가의 6축 힘 감지 센서. 이 센서는 최대 백 배입니다 더 넓은 범위를 허용하는 상업용 센서보다 더 비싸지 않다 적용들. 이 장들과 이전 장들을 위해 나는 디자인 파일들과 코드를 다음과 같이 공개한다 오픈 소스. 

 

 

반응형

댓글