본문 바로가기
오늘의 자연어 처리

[2023-11-17] 오늘의 자연어처리

by 지환이아빠 2023. 11. 17.
반응형

SiRA: Sparse Mixture of Low Rank Adaptation

 

Abstract:Parameter Efficient Tuning has been an prominent approach to adapt the Large Language Model to downstream tasks. Most previous works considers adding the dense trainable parameters, where all parameters are used to adapt certain task. We found this less effective empirically using the example of LoRA that introducing more trainable parameters does not help. Motivated by this we investigate the importance of leveraging "sparse" computation and propose SiRA: sparse mixture of low rank adaption. SiRA leverages the Sparse Mixture of Expert(SMoE) to boost the performance of LoRA. Specifically it enforces the top $k$ experts routing with a capacity limit restricting the maximum number of tokens each expert can process. We propose a novel and simple expert dropout on top of gating network to reduce the over-fitting issue. Through extensive experiments, we verify SiRA performs better than LoRA and other mixture of expert approaches across different single tasks and multitask settings.

 

추상화:파라미터 효율적 조정은 Large Language Model을 다운스트림 작업에 적용하기 위한 두드러진 접근 방식이었다. 대부분의 이전 작업은 조밀한 훈련 가능한 매개 변수를 추가하는 것을 고려하며, 여기서 모든 매개 변수는 특정 작업을 적응하는 데 사용된다. 우리는 더 많은 훈련 가능한 매개 변수를 도입하는 것이 도움이 되지 않는다는 LoRA의 예를 사용하여 경험적으로 이것이 덜 효과적이라는 것을 발견했다. 이를 바탕으로 우리는 "희소한" 계산 활용의 중요성을 조사하고 SiRA: 낮은 순위 적응의 희박한 혼합을 제안한다. SiRA는 SMoE(Sparse Mixture of Expert)를 활용하여 LoRA의 성능을 향상시킨다. 구체적으로 각 전문가가 처리할 수 있는 최대 토큰 수를 제한하는 용량 제한으로 상위 $k$ 전문가 라우팅을 시행한다. 우리는 과적합 문제를 줄이기 위해 게이팅 네트워크 위에 새롭고 간단한 전문가 드롭아웃을 제안한다. 광범위한 실험을 통해 SiRA가 다양한 단일 작업 및 다중 작업 설정에 걸쳐 전문가 접근 방식의 LoRA 및 기타 혼합보다 성능이 우수함을 확인한다. 

 

 

Social Meme-ing: Measuring Linguistic Variation in Memes

 

Abstract:Much work in the space of NLP has used computational methods to explore sociolinguistic variation in text. In this paper, we argue that memes, as multimodal forms of language comprised of visual templates and text, also exhibit meaningful social variation. We construct a computational pipeline to cluster individual instances of memes into templates and semantic variables, taking advantage of their multimodal structure in doing so. We apply this method to a large collection of meme images from Reddit and make available the resulting \textsc{SemanticMemes} dataset of 3.8M images clustered by their semantic function. We use these clusters to analyze linguistic variation in memes, discovering not only that socially meaningful variation in meme usage exists between subreddits, but that patterns of meme innovation and acculturation within these communities align with previous findings on written language.

 

추상화:NLP의 공간에서 많은 작업은 텍스트의 사회언어적 변화를 탐구하기 위해 계산 방법을 사용했다. 본 논문에서는 밈이 시각적 템플릿과 텍스트로 구성된 복합적 형태의 언어로서 의미 있는 사회적 변이를 보인다고 주장한다. 우리는 밈의 개별 인스턴스를 템플릿과 의미론적 변수로 클러스터링하는 계산 파이프라인을 구성하여 멀티모달 구조를 활용한다. 우리는 이 방법을 레딧의 많은 밈 이미지 모음에 적용하고 의미 기능에 따라 클러스터링된 3.8M 이미지의 결과 \textsc{SemanticMemes} 데이터 세트를 사용할 수 있도록 한다. 우리는 이러한 클러스터를 사용하여 밈의 언어적 변화를 분석하고, 사회적으로 의미 있는 밈 사용의 변화가 하위 레딧 간에 존재할 뿐만 아니라 이러한 커뮤니티 내의 밈 혁신 및 문화적 변화 패턴이 문자 언어에 대한 이전 연구 결과와 일치한다는 것을 발견했다. 

 

 

The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task

 

Abstract:The study explores the effectiveness of the Chain-of-Thought approach, known for its proficiency in language tasks by breaking them down into sub-tasks and intermediate steps, in improving vision-language tasks that demand sophisticated perception and reasoning. We present the "Description then Decision" strategy, which is inspired by how humans process signals. This strategy significantly improves probing task performance by 50%, establishing the groundwork for future research on reasoning paradigms in complex vision-language tasks.

 

추상화:이 연구는 언어 과제를 하위 과제와 중간 단계로 구분하여 숙달하는 것으로 알려진 생각의 연쇄 접근법이 정교한 지각과 추론을 요구하는 시각 언어 과제를 개선하는 데에 어떤 효과가 있는지 탐구한다. 우리는 인간이 신호를 처리하는 방식에서 영감을 얻은 "Description then Decision" 전략을 제시한다. 이 전략은 탐색 작업 성능을 50%까지 크게 향상시켜 복잡한 비전 언어 작업에서 추론 패러다임에 대한 향후 연구를 위한 기반을 구축한다. 

 

 

반응형

댓글