본문 바로가기
오늘의 자연어 처리

[2023-06-28] 오늘의 자연어처리

by 지환이아빠 2023. 6. 28.
반응형

Transfer Learning across Several Centuries: Machine and Historian Integrated Method to Decipher Royal Secretary's Diary

 

A named entity recognition and classification plays the first and foremost important role in capturing semantics in data and anchoring in translation as well as downstream study for history. However, NER in historical text has faced challenges such as scarcity of annotated corpus, multilanguage variety, various noise, and different convention far different from the contemporary language model. This paper introduces Korean historical corpus (Diary of Royal secretary which is named SeungJeongWon) recorded over several centuries and recently added with named entity information as well as phrase markers which historians carefully annotated. We fined-tuned the language model on history corpus, conducted extensive comparative experiments using our language model and pretrained muti-language models. We set up the hypothesis of combination of time and annotation information and tested it based on statistical t test. Our finding shows that phrase markers clearly improve the performance of NER model in predicting unseen entity in documents written far different time period. It also shows that each of phrase marker and corpus-specific trained model does not improve the performance. We discuss the future research directions and practical strategies to decipher the history document.

 

명명된 엔티티 인식 및 분류가 가장 먼저 수행됩니다 데이터에서 의미론을 포착하고 번역에 고정하는 데 중요한 역할을 한다 역사를 위한 하류 연구뿐만 아니라. 그러나 역사적 텍스트의 NER은 다음과 같은 문제에 직면했다 주석이 달린 말뭉치의 부족, 다국어 다양성, 다양성과 같은 과제 소음, 그리고 현대 언어와 크게 다른 관습 본 논문은 한국의 역사적 말뭉치를 소개한다. (Diary of Royal secretary)를 소개한다 승정원이라 함)은 수세기에 걸쳐 그리고 최근에 기록되었다 이름이 붙은 엔티티 정보와 역사가들이 사용하는 구문 마커가 추가되었습니다 주의 깊게 주석을 단. 우리는 역사 말뭉치에 대한 언어 모델을 미세 조정했습니다, 우리의 언어 모델을 사용하여 광범위한 비교 실험을 수행했다 사전 훈련된 다국어 모델. 우리는 다음의 조합 가설을 세웠다 시간 및 주석 정보를 제공하고 통계적 t 검정을 기반으로 테스트했습니다. 우리들의 발견은 문구 마커가 NER 모델의 성능을 확실히 향상시킨다는 것을 보여준다 전혀 다른 기간에 쓰여진 문서에서 보이지 않는 실체를 예측하는 것. 그것 또한 각각의 문구 마커와 말뭉치 특정 훈련된 모델이 하는 것을 보여준다 성능이 향상되지 않습니다. 우리는 향후 연구 방향에 대해 논의하고 역사 문서를 해독하기 위한 실용적인 전략. 

 

 

HonestBait: Forward References for Attractive but Faithful Headline Generation

 

Current methods for generating attractive headlines often learn directly from data, which bases attractiveness on the number of user clicks and views. Although clicks or views do reflect user interest, they can fail to reveal how much interest is raised by the writing style and how much is due to the event or topic itself. Also, such approaches can lead to harmful inventions by over-exaggerating the content, aggravating the spread of false information. In this work, we propose HonestBait, a novel framework for solving these issues from another aspect: generating headlines using forward references (FRs), a writing technique often used for clickbait. A self-verification process is included during training to avoid spurious inventions. We begin with a preliminary user study to understand how FRs affect user interest, after which we present PANCO1, an innovative dataset containing pairs of fake news with verified news for attractive but faithful news headline generation. Automatic metrics and human evaluations show that our framework yields more attractive results (+11.25% compared to human-written verified news headlines) while maintaining high veracity, which helps promote real information to fight against fake news.

 

매력적인 헤드라인을 생성하는 현재의 방법은 종종 직접적으로 학습한다 데이터는 사용자 클릭 수와 보기 수에 따라 매력도를 결정합니다. 클릭 또는 보기가 사용자의 관심을 반영하지만 방법을 밝히지 못할 수 있습니다 글쓰기 스타일에 의해 많은 관심이 제기되고 그 사건으로 인해 얼마나 많은가 또는 주제 자체. 또한, 그러한 접근은 해로운 발명으로 이어질 수 있다 내용을 과대 포장하여 허위 정보의 확산을 악화시킨다. 인 이 작업, 우리는 이러한 문제를 해결하기 위한 새로운 프레임워크인 HonestBait을 제안한다 다른 측면: 전방 참조(FR)를 사용하여 헤드라인을 생성하는 것 클릭베이트에 종종 사용되는 글쓰기 기술. 자체 검증 프로세스는 다음과 같습니다 가짜 발명을 피하기 위해 훈련 중에 포함된다. 우리는 다음과 같이 시작한다 FR이 사용자 흥미에 어떻게 영향을 미치는지 이해하기 위한 예비 사용자 연구, 그 후 우리는 가짜 뉴스 쌍을 포함하는 혁신적인 데이터 세트인 PANCO1을 제시한다 매력적이지만 충실한 뉴스 헤드라인 생성을 위한 검증된 뉴스. 자동의 지표와 인간의 평가는 우리의 프레임워크가 더 매력적인 결과를 산출한다는 것을 보여준다 인간이 작성한 검증된 뉴스 헤드라인과 비교한 결과(+11.25%) 전투를 위해 실제 정보를 홍보하는 데 도움이 되는 높은 진실성 유지 가짜 뉴스에 대비해서. 

 

 

HonestBait: Forward References for Attractive but Faithful Headline Generation

 

Current methods for generating attractive headlines often learn directly from data, which bases attractiveness on the number of user clicks and views. Although clicks or views do reflect user interest, they can fail to reveal how much interest is raised by the writing style and how much is due to the event or topic itself. Also, such approaches can lead to harmful inventions by over-exaggerating the content, aggravating the spread of false information. In this work, we propose HonestBait, a novel framework for solving these issues from another aspect: generating headlines using forward references (FRs), a writing technique often used for clickbait. A self-verification process is included during training to avoid spurious inventions. We begin with a preliminary user study to understand how FRs affect user interest, after which we present PANCO1, an innovative dataset containing pairs of fake news with verified news for attractive but faithful news headline generation. Automatic metrics and human evaluations show that our framework yields more attractive results (+11.25% compared to human-written verified news headlines) while maintaining high veracity, which helps promote real information to fight against fake news.

 

매력적인 헤드라인을 생성하는 현재의 방법은 종종 직접적으로 학습한다 데이터는 사용자 클릭 수와 보기 수에 따라 매력도를 결정합니다. 클릭 또는 보기가 사용자의 관심을 반영하지만 방법을 밝히지 못할 수 있습니다 글쓰기 스타일에 의해 많은 관심이 제기되고 그 사건으로 인해 얼마나 많은가 또는 주제 자체. 또한, 그러한 접근은 해로운 발명으로 이어질 수 있다 내용을 과대 포장하여 허위 정보의 확산을 악화시킨다. 인 이 작업, 우리는 이러한 문제를 해결하기 위한 새로운 프레임워크인 HonestBait을 제안한다 다른 측면: 전방 참조(FR)를 사용하여 헤드라인을 생성하는 것 클릭베이트에 종종 사용되는 글쓰기 기술. 자체 검증 프로세스는 다음과 같습니다 가짜 발명을 피하기 위해 훈련 중에 포함된다. 우리는 다음과 같이 시작한다 FR이 사용자 흥미에 어떻게 영향을 미치는지 이해하기 위한 예비 사용자 연구, 그 후 우리는 가짜 뉴스 쌍을 포함하는 혁신적인 데이터 세트인 PANCO1을 제시한다 매력적이지만 충실한 뉴스 헤드라인 생성을 위한 검증된 뉴스. 자동의 지표와 인간의 평가는 우리의 프레임워크가 더 매력적인 결과를 산출한다는 것을 보여준다 인간이 작성한 검증된 뉴스 헤드라인과 비교한 결과(+11.25%) 전투를 위해 실제 정보를 홍보하는 데 도움이 되는 높은 진실성 유지 가짜 뉴스에 대비해서. 

 

 

반응형

댓글