본문 바로가기
오늘의 자연어 처리

[2023-04-05] 오늘의 자연어처리

by 지환이아빠 2023. 4. 5.
반응형

SimCSum: Joint Learning of Simplification and Cross-lingual Summarization for Cross-lingual Science Journalism

 

Cross-lingual science journalism generates popular science stories of scientific articles different from the source language for a non-expert audience. Hence, a cross-lingual popular summary must contain the salient content of the input document, and the content should be coherent, comprehensible, and in a local language for the targeted audience. We improve these aspects of cross-lingual summary generation by joint training of two high-level NLP tasks, simplification and cross-lingual summarization. The former task reduces linguistic complexity, and the latter focuses on cross-lingual abstractive summarization. We propose a novel multi-task architecture - SimCSum consisting of one shared encoder and two parallel decoders jointly learning simplification and cross-lingual summarization. We empirically investigate the performance of SimCSum by comparing it with several strong baselines over several evaluation metrics and by human evaluation. Overall, SimCSum demonstrates statistically significant improvements over the state-of-the-art on two non-synthetic cross-lingual scientific datasets. Furthermore, we conduct an in-depth investigation into the linguistic properties of generated summaries and an error analysis.

 

다국어 과학 저널리즘은 대중적인 과학 이야기를 만들어낸다 비전문가를 위한 원문 언어와 다른 과학 기사 관객. 따라서 언어 간 인기 요약은 다음과 같이 중요한 내용을 포함해야 한다 입력 문서의 내용, 그리고 내용은 일관성이 있어야 한다, 이해할 수 있고, 대상 청중을 위한 지역 언어로. 우리는 향상된다 두 언어의 공동 훈련에 의한 언어 간 요약 생성의 이러한 측면 높은 수준의 NLP 작업, 단순화 및 다국어 요약. 그 전자의 작업은 언어적 복잡성을 줄이고, 후자는 초점을 맞춘다 언어 간의 추상적인 요약. 우리는 새로운 멀티태스킹을 제안한다 아키텍처 - 하나의 공유 인코더와 두 개의 병렬로 구성된 SimCSum 디코더는 단순화와 언어 간 요약을 공동으로 학습한다. 우리가 여러 개와 비교하여 SimCSum의 성능을 경험적으로 조사합니다 여러 평가 지표에 대한 강력한 기준과 인간의 평가. 전반적으로, SimCSUM은 통계적으로 유의한 개선을 보여준다 두 개의 비언어 교차 언어 과학 데이터 세트에 대한 최첨단 데이터 세트. 게다가, 우리는 언어학에 대한 심층적인 조사를 수행한다 생성된 요약의 속성과 오류 분석. 

 

 

An interpretability framework for Similar case matching

 

Similar Case Matching (SCM) is designed to determine whether two cases are similar. The task has an essential role in the legal system, helping legal professionals to find relevant cases quickly and thus deal with them more efficiently. Existing research has focused on improving the model's performance but not on its interpretability. Therefore, this paper proposes a pipeline framework for interpretable SCM, which consists of four modules: a judicial feature sentence identification module, a case matching module, a feature sentence alignment module, and a conflict disambiguation module. Unlike existing SCM methods, our framework will identify feature sentences in a case that contain essential information, perform similar case matching based on the extracted feature sentence results, and align the feature sentences in the two cases to provide evidence for the similarity of the cases. SCM results may conflict with feature sentence alignment results, and our framework further disambiguates against this inconsistency. The experimental results show the effectiveness of our framework, and our work provides a new benchmark for interpretable SCM.

 

유사 사례 매칭(SCM)은 두 사례가 다음과 같은지 여부를 결정하기 위해 설계되었습니다 유사한. 그 일은 법률 시스템에서 필수적인 역할을 하며, 법률을 돕는다 전문가들은 관련 사례를 신속하게 찾아 더 많이 처리할 수 있다 능률적으로. 기존 연구는 모델의 성능 향상에 초점을 맞추었다 하지만 해석 가능성에 대해서는 그렇지 않다. 그러므로, 이 논문은 파이프라인을 제안한다 4개의 모듈로 구성된 해석 가능한 SCM을 위한 프레임워크: 사법부 특징 문장 식별 모듈, 대소문자 일치 모듈, 특징 문장 정렬 모듈, 그리고 충돌 명확화 모듈. 와는 달리 기존 SCM 방법, 우리의 프레임워크는 사례에서 특징 문장을 식별할 것이다 필수적인 정보를 포함하는, 다음을 기반으로 유사한 사례 매칭을 수행한다 추출된 특징 문장 결과, 그리고 두 개의 특징 문장을 정렬한다 사례의 유사성에 대한 증거를 제공하는 사례. SCM 결과는 다음과 같다 특징 문장 정렬 결과와 충돌하며, 우리의 프레임워크는 더 나아가 이 모순에 대해 명확하게 반대합니다. 실험 결과는 다음을 보여준다 우리 프레임워크의 효과, 그리고 우리의 작업은 새로운 벤치마크를 제공한다 해석 가능한 SCM. 

 

 

Blockwise Compression of Transformer-based Models without Retraining

 

Transformer-based models, represented by GPT-3, ChatGPT, and GPT-4, have recently attracted increasing interest, research enthusiasm, and business demand. However, their massive computation resources and huge memory footprint are inevitable challenges. To tackle this issue, we propose BCT, a framework of blockwise compression for transformers without retraining, to lower deployment thresholds. BCT achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, Softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient model with BCT and evaluate it on several General Language Understanding Evaluation (GLUE) datasets. The results show that BCT can achieve a less than 0.90% accuracy drop in most tasks.

 

GPT-3, ChatGPT, GPT-4로 대표되는 변압기 기반 모델은 다음과 같다 최근에 증가하는 관심, 연구열, 그리고 사업을 끌어들였다 그러나 그들의 방대한 계산 자원과 거대한 메모리 풋프린트는 피할 수 없는 도전이다. 이 문제를 해결하기 위해, 우리는 BCT를 제안한다 재교육 없이 변압기를 블록 단위로 압축하여 배치를 줄입니다 문턱값. BCT는 전체의 보다 세밀한 압축을 달성한다 변압기, 임베딩, 행렬 곱셈, GELU, Softmax, 도면층을 포함 정규화 및 모든 중간 결과. 예를 들어, 우리는 다음을 압축한다 BCT를 사용한 효율적인 모델 및 여러 일반 언어로 평가 평가(GLUE) 데이터 세트 이해. 결과는 BCT가 달성할 수 있다는 것을 보여준다 대부분의 작업에서 정확도가 0.90% 미만으로 떨어집니다. 

 

 

반응형

댓글