본문 바로가기
오늘의 자연어 처리

[2023-11-22] 오늘의 자연어처리

by 지환이아빠 2023. 11. 22.
반응형

Deepparse : An Extendable, and Fine-Tunable State-Of-The-Art Library for Parsing Multinational Street Addresses

 

Abstract:Segmenting an address into meaningful components, also known as address parsing, is an essential step in many applications from record linkage to geocoding and package delivery. Consequently, a lot of work has been dedicated to develop accurate address parsing techniques, with machine learning and neural network methods leading the state-of-the-art scoreboard. However, most of the work on address parsing has been confined to academic endeavours with little availability of free and easy-to-use open-source solutions. This paper presents Deepparse, a Python open-source, extendable, fine-tunable address parsing solution under LGPL-3.0 licence to parse multinational addresses using state-of-the-art deep learning algorithms and evaluated on over 60 countries. It can parse addresses written in any language and use any address standard. The pre-trained model achieves average $99~\%$ parsing accuracies on the countries used for training with no pre-processing nor post-processing needed. Moreover, the library supports fine-tuning with new data to generate a custom address parser.

 

추상화:주소 파싱(address parsing)이라고도 알려진 주소를 의미 있는 구성 요소로 분할하는 것은 레코드 연결에서 지오코딩 및 패키지 전달에 이르기까지 많은 응용 분야에서 필수적인 단계이다. 결과적으로, 머신 러닝 및 신경망 방법이 최첨단 스코어보드를 선도하는 등 정확한 어드레스 파싱 기법을 개발하기 위해 많은 작업이 전념되어 왔다. 그러나 주소 구문 분석 작업의 대부분은 자유롭고 사용하기 쉬운 오픈 소스 솔루션의 가용성이 거의 없는 학문적 노력에 국한되어 왔다. 본 논문은 최첨단 딥 러닝 알고리즘을 사용하여 다국적 주소를 파싱하고 60개 이상의 국가에서 평가된 LGPL-3.0 라이선스의 파이썬 오픈 소스, 확장 가능하고 미세 조정 가능한 주소 파싱 솔루션인 Deepparse를 제시한다. 모든 언어로 작성된 주소를 구문 분석할 수 있으며 모든 주소 표준을 사용할 수 있습니다. 사전 훈련된 모델은 사전 처리나 후 처리가 필요하지 않으면서 훈련에 사용되는 국가에서 평균 $99~\%$ 파싱 정확도를 달성한다. 또한 라이브러리는 사용자 정의 주소 구문 분석기를 생성하기 위해 새로운 데이터로 미세 조정을 지원합니다. 

 

 

H-COAL: Human Correction of AI-Generated Labels for Biomedical Named Entity Recognition

 

Abstract:With the rapid advancement of machine learning models for NLP tasks, collecting high-fidelity labels from AI models is a realistic possibility. Firms now make AI available to customers via predictions as a service (PaaS). This includes PaaS products for healthcare. It is unclear whether these labels can be used for training a local model without expensive annotation checking by in-house experts. In this work, we propose a new framework for Human Correction of AI-Generated Labels (H-COAL). By ranking AI-generated outputs, one can selectively correct labels and approach gold standard performance (100% human labeling) with significantly less human effort. We show that correcting 5% of labels can close the AI-human performance gap by up to 64% relative improvement, and correcting 20% of labels can close the performance gap by up to 86% relative improvement.

 

추상화:NLP 작업을 위한 기계 학습 모델의 급속한 발전으로 AI 모델에서 고충실도 레이블을 수집하는 것이 현실적인 가능성이다. 기업들은 이제 서비스로서의 예측(PaaS)을 통해 고객이 AI를 이용할 수 있도록 한다. 여기에는 건강 관리를 위한 PaaS 제품이 포함됩니다. 이러한 레이블이 사내 전문가의 값비싼 주석 검사 없이 로컬 모델 훈련에 사용될 수 있는지 여부는 불분명하다. 본 연구에서는 AI 생성 레이블의 인간 수정(H-COAL)을 위한 새로운 프레임워크를 제안한다. AI가 생성한 산출물의 순위를 매김으로써 라벨을 선택적으로 수정하고 사람의 노력이 현저히 적은 골드 스탠더드 성능(인간 라벨 100%)에 접근할 수 있다. 레이블의 5%를 수정하면 AI-인간 성능 격차를 최대 64% 상대 개선할 수 있고, 레이블의 20%를 수정하면 성능 격차를 최대 86% 상대 개선할 수 있음을 보여준다. 

 

 

Sparse Low-rank Adaptation of Pre-trained Language Models

 

Abstract:Fine-tuning pre-trained large language models in a parameter-efficient manner is widely studied for its effectiveness and efficiency. The popular method of low-rank adaptation (LoRA) offers a notable approach, hypothesizing that the adaptation process is intrinsically low-dimensional. Although LoRA has demonstrated commendable performance, it is implemented with a fixed and unalterable intrinsic rank that might not always be the ideal choice. Recognizing the need for more flexible adaptation, we extend the methodology of LoRA to an innovative approach we call sparse low-rank adaptation (SoRA) that enables dynamic adjustments to the intrinsic rank during the adaptation process. We achieve this through the incorporation of a gate unit optimized with proximal gradient method in the training stage, controlling the cardinality of rank under the sparsity of the gate. In the subsequent inference stage, we eliminate the parameter blocks corresponding to the zeroed-out ranks, to reduce each SoRA module back to a concise yet rank-optimal LoRA. Our approach strengthens the representation power of LoRA by initializing it with a higher rank, while efficiently taming a temporarily increased number of parameters via updating in a sparse way. We further introduce a sparsifying scheduler for SoRA, aiming to examine the impact of the number of non-zero parameters on the model's memorization and generalization. Our experimental results demonstrate that SoRA can outperform other baselines even with 70% retained parameters and 70% training time.

 

추상화:사전에 훈련된 대형 언어 모델을 파라미터 효율적인 방식으로 미세 조정하는 것은 그 효과와 효율성을 위해 널리 연구되고 있다. 저순위 적응(LoRA)의 대중적인 방법은 적응 과정이 본질적으로 저차원이라고 가정하는 주목할 만한 접근 방식을 제공한다. LoRA는 우수한 성능을 보여주었지만, 항상 이상적인 선택은 아닐 수도 있는 고정되고 변경할 수 없는 고유 순위로 구현된다. 보다 유연한 적응의 필요성을 인식하여, 우리는 LoRA의 방법론을 적응 과정 동안 고유 순위에 대한 동적 조정을 가능하게 하는 희소 저순위 적응(SoRA)이라고 하는 혁신적인 접근법으로 확장한다. 우리는 훈련 단계에서 근위 기울기 방법으로 최적화된 게이트 유닛을 통합하여 게이트의 희소성 아래에서 순위의 카디널리티를 제어함으로써 이를 달성한다. 후속 추론 단계에서 제로 아웃 순위에 해당하는 매개 변수 블록을 제거하여 각 SoRA 모듈을 간결하면서도 순위 최적의 LoRA로 다시 축소한다. 우리의 접근 방식은 LoRA를 더 높은 순위로 초기화함으로써 표현력을 강화하는 동시에 희소한 방식으로 업데이트를 통해 일시적으로 증가한 수의 파라미터를 효율적으로 길들인다. 0이 아닌 매개 변수의 수가 모델의 기억 및 일반화에 미치는 영향을 조사하기 위해 SoRA에 대한 희소화 스케줄러를 추가로 도입한다. 우리의 실험 결과는 SoRA가 70%의 유지된 매개 변수와 70%의 훈련 시간에도 다른 기준선을 능가할 수 있음을 보여준다. 

 

 

반응형

댓글