본문 바로가기
오늘의 자연어 처리

[2023-07-13] 오늘의 자연어처리

by 지환이아빠 2023. 7. 13.
반응형

SuryaKiran at MEDIQA-Sum 2023: Leveraging LoRA for Clinical Dialogue Summarization

 

Finetuning Large Language Models helps improve the results for domain-specific use cases. End-to-end finetuning of large language models is time and resource intensive and has high storage requirements to store the finetuned version of the large language model. Parameter Efficient Fine Tuning (PEFT) methods address the time and resource challenges by keeping the large language model as a fixed base and add additional layers, which the PEFT methods finetune. This paper demonstrates the evaluation results for one such PEFT method Low Rank Adaptation (LoRA), for Clinical Dialogue Summarization. The evaluation results show that LoRA works at par with end-to-end finetuning for a large language model. The paper presents the evaluations done for solving both the Subtask A and B from ImageCLEFmedical {this https URL}

 

대규모 언어 모델을 미세 조정하면 결과를 개선할 수 있습니다 도메인별 사용 사례. 대규모 언어 모델의 엔드 투 엔드 미세 조정은 시간 및 리소스 집약적이며 스토리지 요구사항이 높습니다 대규모 언어 모델의 미세 조정된 버전. 파라미터 효율적인 미세 조정 PEFT(Methods)는 대규모 환경을 유지함으로써 시간 및 리소스 문제를 해결합니다 언어 모델을 고정 기반으로 하고 PEFT에서 추가 계층을 추가합니다 방법의 미세 조정. 이 논문은 그러한 것 중 하나에 대한 평가 결과를 보여준다 임상 대화 요약을 위한 PEFT 방법(Low Rank Adaptation, LoRA). 평가 결과는 LoRA가 엔드 투 엔드 미세 조정과 동등하게 작동한다는 것을 보여준다 대규모 언어 모델의 경우. 논문은 해결을 위해 수행된 평가를 제시한다 ImageCLEF medical(ImageCLEF medical)의 하위 작업 A 및 B 모두 {이 https URL} 

 

 

DyCL: Dynamic Neural Network Compilation Via Program Rewriting and Graph Optimization

 

DL compiler's primary function is to translate DNN programs written in high-level DL frameworks such as PyTorch and TensorFlow into portable executables. These executables can then be flexibly executed by the deployed host programs. However, existing DL compilers rely on a tracing mechanism, which involves feeding a runtime input to a neural network program and tracing the program execution paths to generate the computational graph necessary for compilation. Unfortunately, this mechanism falls short when dealing with modern dynamic neural networks (DyNNs) that possess varying computational graphs depending on the inputs. Consequently, conventional DL compilers struggle to accurately compile DyNNs into executable code. To address this limitation, we propose \tool, a general approach that enables any existing DL compiler to successfully compile DyNNs. \tool tackles the dynamic nature of DyNNs by introducing a compilation mechanism that redistributes the control and data flow of the original DNN programs during the compilation process. Specifically, \tool develops program analysis and program transformation techniques to convert a dynamic neural network into multiple sub-neural networks. Each sub-neural network is devoid of conditional statements and is compiled independently. Furthermore, \tool synthesizes a host module that models the control flow of the DyNNs and facilitates the invocation of the sub-neural networks. Our evaluation demonstrates the effectiveness of \tool, achieving a 100\% success rate in compiling all dynamic neural networks. Moreover, the compiled executables generated by \tool exhibit significantly improved performance, running between $1.12\times$ and $20.21\times$ faster than the original DyNNs executed on general-purpose DL frameworks.

 

DL 컴파일러의 주요 기능은 다음과 같이 작성된 DNN 프로그램을 번역하는 것이다 PyTorch 및 TensorFlow와 같은 높은 수준의 DL 프레임워크를 휴대용으로 사용 실행 파일. 그런 다음 이러한 실행 파일을 배포된 사용자가 유연하게 실행할 수 있습니다 프로그램을 진행하다. 그러나 기존 DL 컴파일러는 추적 메커니즘에 의존한다, 신경망 프로그램에 런타임 입력을 공급하고 추적하는 것을 포함한다 필요한 계산 그래프를 생성하기 위한 프로그램 실행 경로 편제. 불행하게도, 이 메커니즘은 현대를 다룰 때 부족하다 다양한 계산 그래프를 가진 동적 신경망(Dynamic Neural Networks) 입력에 따라 다릅니다. 따라서 기존 DL 컴파일러는 다음과 같은 작업을 수행하기가 어렵습니다 DyNN을 실행 코드로 정확하게 컴파일합니다. 이 한계를 해결하기 위해, 우리는 \tool, 기존 DL 컴파일러를 가능하게 하는 일반적인 접근법을 제안한다 DyNN을 컴파일했습니다. \tool은 DyNN의 동적 특성을 다룬다 통제와 데이터를 재분배하는 컴파일 메커니즘을 도입하는 것 컴파일 프로세스 중에 원본 DNN 프로그램의 흐름. 구체적으로, \tool은 프로그램 분석과 프로그램 변환 기술을 개발한다 동적 신경망을 여러 하위 네트워크로 변환한다. 각각 하위 분류 네트워크는 조건문이 없으며 컴파일된다 독자적으로. 또한 \tool은 다음을 모델링하는 호스트 모듈을 합성한다 DyNN의 흐름을 제어하고 하위 신경의 호출을 용이하게 한다 네트워크입니다. 우리의 평가는 \tool의 효과를 보여주며, 다음을 달성한다 모든 동적 신경망을 컴파일하는 데 100% 성공률이 있다. 게다가, 그 \tool에 의해 생성된 컴파일된 실행 파일은 상당히 개선되었다 $1.12\times$에서 $20.21\times$ 사이의 속도로 실행되는 성능 범용 DL 프레임워크에서 실행되는 원래 DynNN. 

 

 

ISLTranslate: Dataset for Translating Indian Sign Language

 

Sign languages are the primary means of communication for many hard-of-hearing people worldwide. Recently, to bridge the communication gap between the hard-of-hearing community and the rest of the population, several sign language translation datasets have been proposed to enable the development of statistical sign language translation systems. However, there is a dearth of sign language resources for the Indian sign language. This resource paper introduces ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) consisting of 31k ISL-English sentence/phrase pairs. To the best of our knowledge, it is the largest translation dataset for continuous Indian Sign Language. We provide a detailed analysis of the dataset. To validate the performance of existing end-to-end Sign language to spoken language translation systems, we benchmark the created dataset with a transformer-based model for ISL translation.

 

수화는 많은 사람들에게 주요한 의사소통 수단이다 세계적으로 다루기 힘든 사람들. 최근에, 의사소통의 격차를 줄이기 위해 어려운 공동체와 나머지 사람들 사이에서, 몇몇 수화 번역 데이터 세트는 개발을 가능하게 하기 위해 제안되었다 통계 수화 번역 시스템의. 그러나, 부족한 것이 있다 인도 수화를 위한 수화 자원. 이 리소스 종이 지속적인 인디언 사인을 위한 번역 데이터 세트인 ISL 번역을 소개합니다 31k ISL-영어 문장/구조 쌍으로 구성된 언어(ISL). 최고로 우리가 아는 한, 그것은 연속 인도어를 위한 가장 큰 번역 데이터 세트이다 수화. 우리는 데이터 세트에 대한 상세한 분석을 제공한다. 유효성을 검사하려면 기존 종단 간 수화에서 음성 언어로의 번역 성능 시스템, 우리는 생성된 데이터 세트를 변압기 기반 모델로 벤치마킹한다 ISL 변환. 

 

 

반응형

댓글