Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks
Recently, there has been significant progress in teaching language models to perform step-by-step reasoning to solve complex numerical reasoning tasks. Chain-of-thoughts prompting (CoT) is by far the state-of-art method for these tasks. CoT uses language models to perform both reasoning and computation in the multi-step `thought' process. To disentangle computation from reasoning, we propose `Program of Thoughts' (PoT), which uses language models (mainly Codex) to express the reasoning process as a program. The computation is relegated to an external computer, which executes the generated programs to derive the answer. We evaluate PoT on five math word problem datasets (GSM, AQuA, SVAMP, TabMWP, MultiArith) and three financial-QA datasets (FinQA, ConvFinQA, TATQA) for both few-shot and zero-shot setups. Under both few-shot and zero-shot settings, PoT can show an average performance gain over CoT by around 12\% across all the evaluated datasets. By combining PoT with self-consistency decoding, we can achieve SoTA performance on all math problem datasets and near-SoTA performance on financial datasets. All of our data and code are released in Github\footnote{\url{this https URL}}.
최근에 언어 모델을 가르치면서 상당한 진전이 있었다. 복잡한 수치 추론 작업을 해결하기 위해 단계별 추론을 수행한다. 생각의 연쇄 프롬프트(CoT)는 단연코 이것들을 위한 최첨단 방법이다. 작업. CoT는 언어 모델을 사용하여 추론과 계산을 모두 수행한다. 다단계 사고 과정 계산과 추론을 분리하기 위해, 우리는 언어 모델(주로 코덱스)을 사용하는 '생각의 프로그램'(PoT)을 제안한다. 추론 과정을 프로그램으로 표현하기 위해. 계산은 로 넘어간다. 생성된 프로그램을 실행하여 다음을 유도하는 외부 컴퓨터 답. 우리는 5개의 수학 단어 문제 데이터 세트(GSM, AQuA, SVAMP, TabMWP, MultiArith) 및 세 가지 금융-QA 데이터 세트(FinQA, ConvFinQA, TATQA) 퓨샷 및 제로샷 설정 모두에 사용됩니다. 퓨샷과 제로샷 모두에서 설정, PoT는 CoT에 비해 약 12\%의 평균 성능 향상을 보여줄 수 있습니다. 모든 평가된 데이터 세트에 걸쳐. PoT와 자기 일관성을 결합함으로써 디코딩, 우리는 모든 수학 문제 데이터 세트에서 SoTA 성능을 달성할 수 있다. 재무 데이터셋에 대한 SOTA에 가까운 성능. 우리의 모든 데이터와 코드는 에서 발매된. Github\각주{\url{this https URL}}.
Sarcasm Detection Framework Using Emotion and Sentiment Features
Sarcasm detection is an essential task that can help identify the actual sentiment in user-generated data, such as discussion forums or tweets. Sarcasm is a sophisticated form of linguistic expression because its surface meaning usually contradicts its inner, deeper meaning. Such incongruity is the essential component of sarcasm, however, it makes sarcasm detection quite a challenging task. In this paper, we propose a model which incorporates emotion and sentiment features to capture the incongruity intrinsic to sarcasm. Moreover, we use CNN and pre-trained Transformer to capture context features. Our approach achieved state-of-the-art results on four datasets from social networking platforms and online media.
빈정거림 탐지는 실제 상황을 식별하는 데 도움이 될 수 있는 필수 작업입니다. 토론 포럼이나 트윗과 같은 사용자 생성 데이터의 감정. 빈정거림 그것의 표면적인 의미 때문에 언어 표현의 정교한 형태이다. 대개는 내면의 깊은 의미와 모순된다. 이런 부조화는 그러나, 그것은 빈정거림의 필수적인 요소를 꽤 많이 발견하게 한다. 어려운 일 이 논문에서, 우리는 감정을 통합하는 모델을 제안한다. 풍자의 본질적인 부조화를 포착하기 위한 정서적 특징이 있습니다. 또한 CNN과 사전 훈련된 Transformer를 사용하여 컨텍스트 기능을 캡처한다. 우리의 접근 방식은 소셜의 4개 데이터 세트에서 최첨단 결과를 달성했다. 네트워킹 플랫폼과 온라인 미디어.
Average Token Delay: A Latency Metric for Simultaneous Translation
Simultaneous translation is a task in which translation begins before the speaker has finished speaking. In its evaluation, we have to consider the latency of the translation in addition to the quality. The latency is preferably as small as possible for users to comprehend what the speaker says with a small delay. Existing latency metrics focus on when the translation starts but do not consider adequately when the translation ends. This means such metrics do not penalize the latency caused by a long translation output, which actually delays users' comprehension. In this work, we propose a novel latency evaluation metric called Average Token Delay (ATD) that focuses on the end timings of partial translations in simultaneous translation. We discuss the advantage of ATD using simulated examples and also investigate the differences between ATD and Average Lagging with simultaneous translation experiments.
동시통역은 번역이 시작되기 전에 하는 작업이다. 스피커가 말을 마쳤습니다. 그것의 평가에서, 우리는 고려해야 한다. 품질 외에 번역 지연 시간. 대기 시간은. 가급적 사용자가 화자가 말하는 것을 이해할 수 있도록 작게 하는 것이 좋다. 조금 지체하여 기존 지연 시간 메트릭은 변환 시기에 초점을 맞춥니다. 시작하지만 변환이 끝날 때 제대로 고려하지 않습니다. 이것은 의미한다. 이러한 메트릭은 긴 번역 출력으로 인한 지연 시간에 불이익을 주지 않습니다. 그것은 실제로 사용자들의 이해를 지연시킨다. 이 작품에서 우리는 소설을 제안한다. 평균 토큰 지연(ATD)이라는 대기 시간 평가 메트릭을 통해 동시 번역에서 부분 번역의 종료 타이밍. 우리는 논의한다. 시뮬레이션 예제를 사용한 ATD의 장점과 차이점을 조사한다. 동시 번역 실험을 통한 ATD와 평균 지연 사이.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-11-27] 오늘의 자연어처리 (0) | 2022.11.27 |
---|---|
[2022-11-26] 오늘의 자연어처리 (0) | 2022.11.26 |
[2022-11-24] 오늘의 자연어처리 (0) | 2022.11.24 |
[2022-11-23] 오늘의 자연어처리 (0) | 2022.11.23 |
[2022-11-22] 오늘의 자연어처리 (0) | 2022.11.22 |
댓글