본문 바로가기
오늘의 자연어 처리

[2023-11-06] 오늘의 자연어처리

by 지환이아빠 2023. 11. 6.
반응형

Can Language Models Be Tricked by Language Illusions? Easier with Syntax, Harder with Semantics

 

Language models (LMs) have been argued to overlap substantially with human beings in grammaticality judgment tasks. But when humans systematically make errors in language processing, should we expect LMs to behave like cognitive models of language and mimic human behavior? We answer this question by investigating LMs' more subtle judgments associated with "language illusions" -- sentences that are vague in meaning, implausible, or ungrammatical but receive unexpectedly high acceptability judgments by humans. We looked at three illusions: the comparative illusion (e.g. "More people have been to Russia than I have"), the depth-charge illusion (e.g. "No head injury is too trivial to be ignored"), and the negative polarity item (NPI) illusion (e.g. "The hunter who no villager believed to be trustworthy will ever shoot a bear"). We found that probabilities represented by LMs were more likely to align with human judgments of being "tricked" by the NPI illusion which examines a structural dependency, compared to the comparative and the depth-charge illusions which require sophisticated semantic understanding. No single LM or metric yielded results that are entirely consistent with human behavior. Ultimately, we show that LMs are limited both in their construal as cognitive models of human language processing and in their capacity to recognize nuanced but critical information in complicated language materials.

 

언어 모델(LM)은 인간과 상당히 겹친다고 주장되어 왔다 문법성 판단 과제에 있는 존재들. 하지만 인간들이 체계적으로 만들 때 언어 처리의 오류, 우리는 LM이 인지적으로 행동하기를 기대해야 한다 언어와 인간의 행동을 모방하는 모델? 우리는 이 질문에 대하여 다음과 같이 대답한다 "언어 환상"과 관련된 LM들의 좀 더 미묘한 판단을 조사하는 것 -- 의미가 모호하거나, 믿을 수 없거나, 문법적이지 않은 문장들 사람들이 예상외로 높은 합격 판정을 받다. 우리는 세명을 보았다 환상: 비교 환상 (예를 들어, 더 많은 사람들이 러시아에 갔다 왔다) "있다"), 깊이 충전 착시(예: "머리 부상은 너무 사소한 것이 아니다 무시됨), 및 음극성 아이템(NPI) 착시(예: "사냥꾼은 믿을만한 마을 사람은 곰을 쏘지 않을 것이다."). 우리는 그것을 발견했다 LM으로 대표되는 확률은 인간의 판단과 일치할 가능성이 더 높았다 구조적 의존성을 조사하는 NPI 환상에 "속았다"고 생각할 수 있습니다, 필요한 비교 및 깊이 충전 환상과 비교하여 정교한 의미 이해. 단일 LM 또는 메트릭 결과가 산출되지 않았습니다 인간의 행동과 완전히 일치하는 거죠. 궁극적으로 우리는 LM이 인간 언어의 인지 모델로서 그들의 구성에 있어서 둘 다 제한되어 있다 미묘하지만 중요한 정보를 인식할 수 있는 처리 능력을 갖추고 있습니다 복잡한 언어 자료로. 

 

 

An energy-based comparative analysis of common approaches to text classification in the Legal domain

 

Most Machine Learning research evaluates the best solutions in terms of performance. However, in the race for the best performing model, many important aspects are often overlooked when, on the contrary, they should be carefully considered. In fact, sometimes the gaps in performance between different approaches are neglectable, whereas factors such as production costs, energy consumption, and carbon footprint must take into consideration. Large Language Models (LLMs) are extensively adopted to address NLP problems in academia and industry. In this work, we present a detailed quantitative comparison of LLM and traditional approaches (e.g. SVM) on the LexGLUE benchmark, which takes into account both performance (standard indices) and alternative metrics such as timing, power consumption and cost, in a word: the carbon-footprint. In our analysis, we considered the prototyping phase (model selection by training-validation-test iterations) and in-production phases separately, since they follow different implementation procedures and also require different resources. The results indicate that very often, the simplest algorithms achieve performance very close to that of large LLMs but with very low power consumption and lower resource demands. The results obtained could suggest companies to include additional evaluations in the choice of Machine Learning (ML) solutions.

 

대부분의 머신 러닝 연구는 다음과 같은 측면에서 최고의 솔루션을 평가한다 성능. 하지만, 최고의 모델을 위한 경쟁에서, 많은 중요한 것들이 있다 반대로 조심스럽게 생각해야 할 때면 종종 간과된다 여겨진다. 사실, 때때로 다른 것들 사이의 성능의 차이가 생산 비용, 에너지와 같은 요소들이 무시되는 반면, 접근법들은 무시할 수 있다 소비와 탄소 발자국을 고려해야 한다. 큰 언어 학계 및 학계에서 NLP 문제를 해결하기 위해 모델(LLM)이 광범위하게 채택되고 있다 산업. 본 연구에서는 LLM의 상세한 정량적 비교를 제시한다 그리고 LexGLUE 벤치마크에 대한 기존 접근 방식(예: SVM)이 필요합니다 성능(표준 지수) 및 다음과 같은 대체 측정 기준을 모두 고려한다 타이밍, 전력 소비 및 비용, 한마디로 탄소 footprint입니다. 우리의 분석, 프로토타이핑 단계(모델 선택 교육- valid화-테스트 반복) 및 운영 중 단계를 별도로 수행합니다 그들은 다른 구현 절차를 따르고 또한 다른 것을 요구한다 자원. 그 결과는 가장 간단한 알고리즘들이 대형 LLM에 매우 가까운 성능을 발휘하지만 매우 낮은 전력으로 성능을 발휘합니다 소비와 자원 수요 감소. 결과적으로 볼 때는 머신 러닝 선택에 추가 평가를 포함하는 회사 (ML) 솔루션. 

 

 

ATHENA: Mathematical Reasoning with Thought Expansion

 

Solving math word problems depends on how to articulate the problems, the lens through which models view human linguistic expressions. Real-world settings count on such a method even more due to the diverse practices of the same mathematical operations. Earlier works constrain available thinking processes by limited prediction strategies without considering their significance in acquiring mathematical knowledge. We introduce Attention-based THought Expansion Network Architecture (ATHENA) to tackle the challenges of real-world practices by mimicking human thought expansion mechanisms in the form of neural network propagation. A thought expansion recurrently generates the candidates carrying the thoughts of possible math expressions driven from the previous step and yields reasonable thoughts by selecting the valid pathways to the goal. Our experiments show that ATHENA achieves a new state-of-the-art stage toward the ideal model that is compelling in variant questions even when the informativeness in training examples is restricted.

 

수학 단어 문제를 푸는 것은 문제를 어떻게 표현하느냐에 달려있다 모델들이 인간의 언어적 표현을 보는 렌즈. 실세계 설정은 다양한 방법으로 인해 더욱더 그러한 방법에 의존합니다 동일한 수학 연산. 이전의 작품들은 이용 가능한 사고를 제약한다 프로세스를 고려하지 않고 제한된 예측 전략에 의한 프로세스 수학적 지식을 습득하는데 있어서 중요성. 주의력 기반을 소개합니다 확장 네트워크 아키텍처(ATHNA)를 통해 다음과 같은 과제를 해결할 수 있습니다 인간의 사고 확장 메커니즘을 모방함으로써 현실 세계의 실천 뉴럴 네트워크 전파의 형태입니다. 사고의 확장은 반복적으로 발생한다 가능한 수학적 표현에 대한 생각을 가지고 있는 후보자들 이전 단계와 유효한 것을 선택함으로써 합리적인 생각을 산출한다 목표로 가는 길들입니다. 우리의 실험은 아테나가 새로운 것을 성취한다는 것을 보여준다 변형에서 매력적인 이상적인 모델을 향한 최첨단 단계 교육 사례에서 정보성이 제한되는 경우에도 질문. 

 

 

반응형

댓글