본문 바로가기
오늘의 자연어 처리

[2022-09-18] 오늘의 자연어처리

by 지환이아빠 2022. 9. 18.
반응형

The Impact of Edge Displacement Vaserstein Distance on UD Parsing Performance

 

We contribute to the discussion on parsing performance in NLP by introducing a measurement that evaluates the differences between the distributions of edge displacement (the directed distance of edges) seen in training and test data. We hypothesize that this measurement will be related to differences observed in parsing performance across treebanks. We motivate this by building upon previous work and then attempt to falsify this hypothesis by using a number of statistical methods. We establish that there is a statistical correlation between this measurement and parsing performance even when controlling for potential covariants. We then use this to establish a sampling technique that gives us an adversarial and complementary split. This gives an idea of the lower and upper bounds of parsing systems for a given treebank in lieu of freshly sampled data. In a broader sense, the methodology presented here can act as a reference for future correlation-based exploratory work in NLP.

 

우리는 다음을 도입하여 NLP의 구문 분석 성능에 대한 논의에 기여한다. 에지 분포 간의 차이를 평가하는 측정 교육 및 테스트 데이터에서 볼 수 있는 변위(가장자리의 방향 거리) 우리는 이 측정이 관찰된 차이와 관련이 있을 것이라고 가정한다. 트리 뱅크에서 성능을 구문 분석합니다. 우리는 이것을 기반으로 하여 동기를 부여한다. 이전의 연구 그리고 나서 많은 것을 사용하여 이 가설을 위조하려고 시도한다. 통계적 방법 우리는 통계적 상관관계가 있다는 것을 확립한다. 이 측정과 구문 분석 성능 사이에서 제어 시에도 잠재적 공변량 그런 다음 이를 사용하여 다음과 같은 샘플링 기술을 확립한다. 우리에게 적대적이고 상호 보완적인 분할을 제공합니다. 이것은 그것에 대한 아이디어를 준다. 대신 주어진 트리 뱅크에 대한 구문 분석 시스템의 하한 및 상한 갓 추출한 데이터 더 넓은 의미에서, 여기에 제시된 방법론은 다음을 할 수 있다. NLP에서 향후 상관 관계 기반 탐색 작업에 대한 참조로 작용한다. 

 

 

VIPHY: Probing "Visible" Physical Commonsense Knowledge

 

In recent years, vision-language models (VLMs) have shown remarkable performance on visual reasoning tasks (e.g. attributes, location). While such tasks measure the requisite knowledge to ground and reason over a given visual instance, they do not, however, measure the ability of VLMs to retain and generalize such knowledge. In this work, we evaluate their ability to acquire "visible" physical knowledge -- the information that is easily accessible from images of static scenes, particularly across the dimensions of object color, size and space. We build an automatic pipeline to derive a comprehensive knowledge resource for calibrating and probing these models. Our results indicate a severe gap between model and human performance across all three tasks. Furthermore, our caption pretrained baseline (CapBERT) significantly outperforms VLMs on both size and spatial tasks -- highlighting that despite sufficient access to ground language with visual modality, they struggle to retain such knowledge. The dataset and code are available at this https URL .

 

최근 몇 년 동안, 비전 언어 모델(VLM)은 주목할 만한 것을 보여주었다. 시각적 추론 작업(예: 속성, 위치)에 대한 성능. 그 동안 업무는 주어진 시각에 대한 지상과 이성에 필요한 지식을 측정한다. 그러나, 그들은 VLMs의 보유 능력을 측정하지 않는다. 그러한 지식을 일반화하다 이 작업에서, 우리는 그들의 습득 능력을 평가한다. "신뢰할 수 있는" 물리적 지식 - 에서 쉽게 접근할 수 정적 장면의 이미지, 특히 객체 색상의 차원에 걸쳐서. 크기와 공간 우리는 포괄적인 솔루션을 도출하기 위해 자동 파이프라인을 구축한다. 이러한 모델을 교정하고 탐색하기 위한 지식 리소스. 우리의 결과 세 가지 모두에 걸쳐 모델과 인간 성능 사이의 심각한 차이를 나타낸다. 작업. 또한, 우리의 캡션 사전 학습 기준(CapBERT)이 상당히 높습니다. 크기 및 공간 작업 모두에서 VLM을 능가합니다. 이 점을 강조합니다. 시각적 양식과 함께 지상 언어에 대한 충분한 접근, 그들은 하기 위해 고군분투한다. 그러한 지식을 보유하다. 데이터 세트 및 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL. 

 

 

On the State of the Art in Authorship Attribution and Authorship Verification

 

Despite decades of research on authorship attribution (AA) and authorship verification (AV), inconsistent dataset splits/filtering and mismatched evaluation methods make it difficult to assess the state of the art. In this paper, we present a survey of the fields, resolve points of confusion, introduce Valla that standardizes and benchmarks AA/AV datasets and metrics, provide a large-scale empirical evaluation, and provide apples-to-apples comparisons between existing methods. We evaluate eight promising methods on fifteen datasets (including distribution-shifted challenge sets) and introduce a new large-scale dataset based on texts archived by Project Gutenberg. Surprisingly, we find that a traditional Ngram-based model performs best on 5 (of 7) AA tasks, achieving an average macro-accuracy of $76.50\%$ (compared to $66.71\%$ for a BERT-based model). However, on the two AA datasets with the greatest number of words per author, as well as on the AV datasets, BERT-based models perform best. While AV methods are easily applied to AA, they are seldom included as baselines in AA papers. We show that through the application of hard-negative mining, AV methods are competitive alternatives to AA methods. Valla and all experiment code can be found here: this https URL

 

저작자 귀속(AA)과 저작자에 대한 수십 년의 연구에도 불구하고 검증(AV), 일관성 없는 데이터 세트 분할/필터링 및 불일치 평가 방법은 기술의 상태를 평가하는 것을 어렵게 만든다. 이 점에서. 서류, 우리는 분야에 대한 조사를 제시하고, 혼란스러운 점들을 해결한다. AA/AV 데이터 세트 및 측정 기준을 표준화하고 벤치마킹하는 Valla를 소개합니다. 대규모 경험적 평가를 제공하고, 사과에서 사과까지 제공한다. 기존 방법 간의 비교 우리는 8가지 유망한 방법을 평가한다. 15개의 데이터 세트(분산 할당 과제 세트 포함) 및 도입 프로젝트 구텐베르크에 의해 보관된 텍스트에 기반한 새로운 대규모 데이터 세트 놀랍게도, 우리는 전통적인 Ngram 기반 모델이 5에서 가장 잘 수행된다는 것을 발견했다. (7) AA 과제, $76.50\%$의 평균 매크로 정확도 달성 (과 비교) BERT 기반 모델의 경우 $66.71\%$). 그러나 두 개의 AA 데이터 세트에서 AV 데이터 세트뿐만 아니라 작성자당 최대 단어 수, BERT 기반 모델이 가장 성능이 좋습니다. AV 방법은 AA에 쉽게 적용되지만, 거의 적용되지 않는다. AA 논문에 기준선으로 포함되어 있다. 우리는 의 적용을 통해 그것을 보여준다. 하드 네거티브 마이닝, AV 방법은 AA 방법에 대한 경쟁력 있는 대안이다. 발라와 모든 실험 코드는 여기에서 찾을 수 있다. 이 https URL 

 

 

반응형

댓글