본문 바로가기
오늘의 자연어 처리

[2023-08-23] 오늘의 자연어처리

by 지환이아빠 2023. 8. 23.
반응형

Unsupervised Dialogue Topic Segmentation in Hyperdimensional Space

 

We present HyperSeg, a hyperdimensional computing (HDC) approach to unsupervised dialogue topic segmentation. HDC is a class of vector symbolic architectures that leverages the probabilistic orthogonality of randomly drawn vectors at extremely high dimensions (typically over 10,000). HDC generates rich token representations through its low-cost initialization of many unrelated vectors. This is especially beneficial in topic segmentation, which often operates as a resource-constrained pre-processing step for downstream transcript understanding tasks. HyperSeg outperforms the current state-of-the-art in 4 out of 5 segmentation benchmarks -- even when baselines are given partial access to the ground truth -- and is 10 times faster on average. We show that HyperSeg also improves downstream summarization accuracy. With HyperSeg, we demonstrate the viability of HDC in a major language task. We open-source HyperSeg to provide a strong baseline for unsupervised topic segmentation.

 

하이퍼세그(HyperSeg), HDC(HyperDimensional Computing) 접근 방식을 소개합니다 감독되지 않은 대화 주제 분할. HDC는 벡터 기호의 한 종류입니다 무작위로 그려지는 확률적 직교성을 활용하는 아키텍처 매우 높은 차원의 벡터(일반적으로 10,000개 이상). HDC 생성 많은 것들의 저렴한 초기화를 통한 풍부한 토큰 표현 관련이 없는 벡터. 이것은 주제 분할에서 특히 유용하다 종종 다운스트림에 대한 리소스 제한 사전 처리 단계로 작동합니다 작업 이해를 기록합니다. HyperSeg가 전류보다 성능이 우수함 5개의 세분화 벤치마크 중 4개의 최첨단 벤치마크 - 심지어 기준선도 지상 진실에 부분적으로 접근할 수 있고, 10배 더 빠르다 평균. 우리는 HyperSeg가 다운스트림 요약 정확도도 향상시킨다는 것을 보여준다. HyperSeg를 사용하여 주요 언어 작업에서 HDC의 실행 가능성을 입증한다. 우리가 감독되지 않은 주제에 대한 강력한 기준을 제공하는 오픈 소스 HyperSeg 분할. 

 

 

An Examination of the Compositionality of Large Generative Vision-Language Models

 

With the success of Large Language Models (LLMs), a surge of Generative Vision-Language Models (GVLMs) have been constructed via multimodal instruction tuning. The tuning recipe substantially deviates from the common contrastive vision-language learning. However, the performance of GVLMs in multimodal compositional reasoning remains largely unexplored, as existing evaluation metrics and benchmarks focus predominantly on assessing contrastive models like CLIP. In this paper, we examine the potential evaluation metrics to assess the GVLMs and hypothesize generative score methods are suitable for evaluating compositionality. In addition, current benchmarks tend to prioritize syntactic correctness over semantics. The presence of morphological bias in these benchmarks can be exploited by GVLMs, leading to ineffective evaluations. To combat this, we define a MorphoBias Score to quantify the morphological bias and propose a novel LLM-based strategy to calibrate the bias. Moreover, a challenging task is added to evaluate the robustness of GVLMs against inherent inclination toward syntactic correctness. We include the calibrated dataset and the task into a new benchmark, namely MOrphologicall De-biased Benchmark (MODE). Our study provides the first unbiased benchmark for the compositionality of GVLMs, facilitating future research in this direction. We will release our code and datasets.

 

LLM(Large Language Models)의 성공으로 생성이 급증했습니다 비전 언어 모델(GVLM)은 멀티모달 교육을 통해 구성되었다 튜닝. 튜닝 레시피는 일반적인 대조군에서 크게 벗어난다 비전 언어 학습. 그러나, 멀티모달에서의 GVLM의 성능 구성적 추론은 기존의 평가처럼 대체로 미개척 상태로 남아 있다 메트릭 및 벤치마크는 주로 다음과 같은 대조적인 모델을 평가하는 데 초점을 맞추고 있습니다 클립. 본 논문에서는 잠재적인 평가 지표를 조사하여 다음을 평가한다 GVLM 및 가설 생성 점수 방법은 평가에 적합합니다 구성성. 또한 현재 벤치마크에서는 구문을 우선시하는 경향이 있습니다 의미론에 대한 정확성. 이들에 대한 형태학적 편향의 존재 벤치마크는 GVLM에 의해 악용되어 비효율적인 평가를 초래할 수 있습니다. 로. 이에 맞서, 우리는 형태적 편향을 정량화하기 위해 형태적 편향 점수를 정의한다 그리고 바이어스를 보정하기 위한 새로운 LLM 기반 전략을 제안한다. 게다가, a 도전적인 작업이 추가되어 고유한 것에 대한 GVLM의 견고성을 평가한다 통사적 정확성에 대한 경향. 보정된 데이터 세트를 포함하고 있습니다 새로운 벤치마크, 즉 MORphologicalal De-biased Benchmark에 대한 작업 (MODE). 우리의 연구는 최초의 편견 없는 벤치마크를 제공한다 GVLM의 구성성, 이러한 방향에 대한 향후 연구를 촉진한다. 우리가 코드와 데이터 세트를 공개할 것입니다. 

 

 

Age Recommendation from Texts and Sentences for Children

 

Children have less text understanding capability than adults. Moreover, this capability differs among the children of different ages. Hence, automatically predicting a recommended age based on texts or sentences would be a great benefit to propose adequate texts to children and to help authors writing in the most appropriate way. This paper presents our recent advances on the age recommendation task. We consider age recommendation as a regression task, and discuss the need for appropriate evaluation metrics, study the use of state-of-the-art machine learning model, namely Transformers, and compare it to different models coming from the literature. Our results are also compared with recommendations made by experts. Further, this paper deals with preliminary explainability of the age prediction model by analyzing various linguistic features. We conduct the experiments on a dataset of 3, 673 French texts (132K sentences, 2.5M words). To recommend age at the text level and sentence level, our best models achieve MAE scores of 0.98 and 1.83 respectively on the test set. Also, compared to the recommendations made by experts, our sentence-level recommendation model gets a similar score to the experts, while the text-level recommendation model outperforms the experts by an MAE score of 1.48.

 

아이들은 어른들보다 텍스트 이해 능력이 떨어진다. 게다가, 이것은 능력은 다른 나이의 아이들 사이에서 다르다. 따라서 자동으로 텍스트나 문장을 기반으로 추천 연령을 예측하는 것은 좋을 것이다 아이들에게 적절한 텍스트를 제안하고 작가들이 글을 쓰는 것을 돕는 데 도움이 된다 가장 적절한 방법. 이 논문은 그 시대에 대한 우리의 최근 발전을 제시한다 권장 작업입니다. 우리는 연령 추천을 회귀 작업으로 간주하고 적절한 평가 지표의 필요성을 논의하고, 사용을 연구한다 최신 기계 학습 모델, 즉 트랜스포머와 비교합니다 문헌에서 나온 다양한 모델들. 우리의 결과는 또한 다음과 비교된다 전문가의 권고. 게다가, 이 논문은 예비를 다룬다 다양한 언어학적 분석을 통한 연령예측모델의 설명가능성 특징들. 우리는 3,673개의 프랑스어 텍스트 데이터 세트(132K)에 대한 실험을 수행한다 문장, 250만 단어). 본문 수준과 문장 수준에서 나이를 추천하기 위해, 우리의 최고 모델은 테스트에서 각각 0.98과 1.83의 MAE 점수를 달성한다 세트. 또한, 전문가들이 추천한 것과 비교해 볼 때, 우리의 문장 수준은 추천 모델은 전문가들과 비슷한 점수를 받는 반면, 텍스트 수준 권장 모델은 MAE 점수 1.48로 전문가를 능가한다. 

 

 

반응형

댓글