본문 바로가기
오늘의 자연어 처리

[2023-07-10] 오늘의 자연어처리

by 지환이아빠 2023. 7. 10.
반응형

Efficient Semiring-Weighted Earley Parsing

 

This paper provides a reference description, in the form of a deduction system, of Earley's (1970) context-free parsing algorithm with various speed-ups. Our presentation includes a known worst-case runtime improvement from Earley's $O (N^3|G||R|)$, which is unworkable for the large grammars that arise in natural language processing, to $O (N^3|G|)$, which matches the runtime of CKY on a binarized version of the grammar $G$. Here $N$ is the length of the sentence, $|R|$ is the number of productions in $G$, and $|G|$ is the total length of those productions. We also provide a version that achieves runtime of $O (N^3|M|)$ with $|M| \leq |G|$ when the grammar is represented compactly as a single finite-state automaton $M$ (this is partly novel). We carefully treat the generalization to semiring-weighted deduction, preprocessing the grammar like Stolcke (1995) to eliminate deduction cycles, and further generalize Stolcke's method to compute the weights of sentence prefixes. We also provide implementation details for efficient execution, ensuring that on a preprocessed grammar, the semiring-weighted versions of our methods have the same asymptotic runtime and space requirements as the unweighted methods, including sub-cubic runtime on some grammars.

 

이 논문은 추론의 형태로 참조 설명을 제공한다 다양한 종류의 얼리(1970) 문맥 없는 구문 분석 알고리즘의 시스템 속도 향상. 우리의 프레젠테이션은 알려진 최악의 경우 런타임 개선을 포함한다 Earley의 $O(N^3|G||R|)$에서, 이는 다음과 같은 큰 문법에서는 작동할 수 없다 자연어 처리에서 $O(N^3|G|)$로 발생하며, 이는 일치한다 $G$ 문법의 이진화된 버전에서 CKY의 런타임. 여기서 $N$은 문장의 길이, $|R|$는 $G$의 프로덕션 수이고, $|G|$는 그 생산물들의 총 길이. 또한 다음을 달성하는 버전을 제공합니다 문법이 표현될 때 $|M| \leq | G|$와 함께 $O(N^3|M|)$의 런타임 단일 유한 상태 자동자 $M$로 압축한다(이것은 부분적으로 참신하다). 우리가 세미 가중치 공제에 대한 일반화를 신중하게 처리한다, 추론 주기를 제거하기 위해 스톨케(1995)와 같은 문법을 사전 처리한다, 그리고 문장의 무게를 계산하기 위해 스톨케의 방법을 더 일반화한다 접두사. 또한 효율적인 실행을 위해 구현 세부사항을 제공합니다, 사전 처리된 문법에서 세미링 가중치 버전을 보장합니다 메소드는 점근적 런타임과 공간 요구사항이 같다 일부 문법의 하위 단계 런타임을 포함하여 가중치가 없는 메서드입니다. 

 

 

Contrast Is All You Need

 

In this study, we analyze data-scarce classification scenarios, where available labeled legal data is small and imbalanced, potentially hurting the quality of the results. We focused on two finetuning objectives; SetFit (Sentence Transformer Finetuning), a contrastive learning setup, and a vanilla finetuning setup on a legal provision classification task. Additionally, we compare the features that are extracted with LIME (Local Interpretable Model-agnostic Explanations) to see which particular features contributed to the model's classification decisions. The results show that a contrastive setup with SetFit performed better than vanilla finetuning while using a fraction of the training samples. LIME results show that the contrastive learning approach helps boost both positive and negative features which are legally informative and contribute to the classification results. Thus a model finetuned with a contrastive objective seems to base its decisions more confidently on legally informative features.

 

이 연구에서, 우리는 데이터 부족 분류 시나리오를 분석한다 이용 가능한 라벨링된 법적 데이터는 작고 불균형하여 잠재적으로 피해를 입힐 수 있다 결과의 질. 우리는 두 가지 미세 조정 목표인 SetFit에 초점을 맞추었다 (문장 트랜스포머 미세조정), 대비 학습 설정, 바닐라 법적 조항 분류 작업에 대한 미세 조정 설정. 추가로 저희가 추출된 형상을 LIME(로컬 해석 가능)과 비교 모델에 구애받지 않는 설명) - 어떤 특정 기능이 이에 기여했는지 확인합니다 모델의 분류 결정. 결과는 대조적인 설정이 SetFit을 사용하면 바닐라 미세 조정보다 성능이 우수합니다 훈련 견본. LIME 결과는 대조적인 학습 접근법을 보여준다 법적으로 유용한 긍정적인 기능과 부정적인 기능을 모두 향상시키는 데 도움이 됩니다 분류 결과에 기여합니다. 따라서 모델 파인은 다음과 같이 조정됩니다 대조적인 목표는 그것의 결정이 법적으로 더 자신 있게 기반을 두는 것처럼 보인다 유익한 특징. 

 

 

A Survey on Evaluation of Large Language Models

 

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: this https URL.

 

대형 언어 모델(LLM)은 두 가지 모두에서 점점 더 많은 인기를 얻고 있습니다 학계와 산업계, 다양한 분야에서의 전례 없는 성과로 인해 적용들. LLM이 연구와 일상에서 중요한 역할을 계속 수행함에 따라 사용, 그들의 평가는 업무뿐만 아니라 점점 더 중요해진다 수준, 하지만 그들에 대한 더 나은 이해를 위한 사회 수준에서도 잠재적 위험. 지난 몇 년 동안, 상당한 노력이 있었다 다양한 관점에서 LLM을 검토합니다. 이 논문은 포괄적이다 세 가지 핵심 차원에 초점을 맞춘 LLM에 대한 평가 방법 검토: 평가할 대상, 평가할 위치 및 평가 방법. 먼저, 우리는 제공한다 일반적인 것을 포함하는 평가 과제의 관점에서의 개요 자연어 처리 작업, 추론, 의학적 사용, 윤리, 교육, 자연 및 사회 과학, 에이전트 응용 및 기타 영역. 둘째로, 우리는 '어디'와 '어떻게' 질문에 답한다 평가 방법 및 벤치마크, 이는 에서 중요한 구성 요소로 작용한다 LLM의 성능 평가. 그런 다음 성공 및 실패 사례를 요약합니다 다양한 작업에서 LLM의. 마지막으로, 우리는 몇 가지 미래 과제를 조명한다 LLM 평가에서 앞서 있습니다. 우리의 목표는 귀중한 통찰력을 제공하는 것이다 LLM 평가의 영역에 있는 연구자들, 따라서 개발을 돕는다 더 숙련된 LLM. 우리의 핵심은 평가가 다음과 같이 취급되어야 한다는 것이다 LLM의 개발을 더 잘 지원하기 위한 필수적인 규율. 우리는 일관되게 관련 오픈 소스 자료를 다음과 같이 유지한다: 이 https URL. 

 

 

반응형

댓글