Semi-Automated Construction of Food Composition Knowledge Base
A food composition knowledge base, which stores the essential phyto-, micro-, and macro-nutrients of foods is useful for both research and industrial applications. Although many existing knowledge bases attempt to curate such information, they are often limited by time-consuming manual curation processes. Outside of the food science domain, natural language processing methods that utilize pre-trained language models have recently shown promising results for extracting knowledge from unstructured text. In this work, we propose a semi-automated framework for constructing a knowledge base of food composition from the scientific literature available online. To this end, we utilize a pre-trained BioBERT language model in an active learning setup that allows the optimal use of limited training data. Our work demonstrates how human-in-the-loop models are a step toward AI-assisted food systems that scale well to the ever-increasing big data.
필수적인 파이토, 마이크로-를 저장하는 식품 조성 지식 기반, 그리고 음식의 거시적 분석은 연구와 산업 모두에 유용하다 적용들. 기존의 많은 지식 기반이 그러한 것들을 큐레이팅하려고 시도하지만 정보, 그것들은 종종 시간이 많이 걸리는 수동 큐레이션에 의해 제한된다 과정. 식품과학 영역 밖에서, 자연어 처리 사전 훈련된 언어 모델을 활용하는 방법은 최근 유망한 것으로 나타났다 구조화되지 않은 텍스트에서 지식을 추출하기 위한 결과. 이 작품에서 우리는 식품에 대한 지식기반을 구축하기 위한 반자동적인 틀을 제안하다 온라인에서 구할 수 있는 과학 문헌으로부터의 구성. 이를 위해 우리는 사전 훈련된 BioBERT 언어 모델을 능동적인 학습 설정에서 활용한다 제한된 교육 데이터를 최적으로 사용할 수 있습니다. 우리의 작업은 어떻게 휴먼 인 더 루프 모델은 규모를 확장하는 AI 지원 식품 시스템을 향한 단계이다 끊임없이 증가하는 빅 데이터에 잘 부합합니다.
Paraphrase Acquisition from Image Captions
We propose to use captions from the Web as a previously underutilized resource for paraphrases (i.e., texts with the same "message") and to create and analyze a corresponding dataset. When an image is reused on the Web, an original caption is often assigned. We hypothesize that different captions for the same image naturally form a set of mutual paraphrases. To demonstrate the suitability of this idea, we analyze captions in the English Wikipedia, where editors frequently relabel the same image for different articles. The paper introduces the underlying mining technology and compares known paraphrase corpora with respect to their syntactic and semantic paraphrase similarity to our new resource. In this context, we introduce characteristic maps along the two similarity dimensions to identify the style of paraphrases coming from different sources. An annotation study demonstrates the high reliability of the algorithmically determined characteristic maps.
이전에는 활용도가 낮았던 웹의 캡션을 사용할 것을 제안합니다 패러프레이즈(즉, 동일한 "글꼴"을 가진 텍스트) 및 생성을 위한 리소스 해당 데이터 세트를 분석합니다. 이미지가 웹에서 재사용될 때 원래 캡션은 종종 할당됩니다. 우리는 다음과 같은 다양한 캡션을 가정한다 같은 이미지가 자연스럽게 상호 패러프레이즈의 집합을 형성한다. 다음을 시연합니다 이 아이디어의 적합성, 우리는 영어 위키백과의 캡션을 분석한다 편집자들은 종종 다른 기사에 대해 같은 이미지를 다시 레이블을 붙인다. 신문 기본 채굴 기술을 소개하고 알려진 패러프레이즈를 비교한다 말뭉치와 그들의 통사적, 의미적 패러프레이즈 유사성과 관련하여 우리의 새로운 자원. 이러한 맥락에서, 우리는 특징적인 지도를 소개한다 다음에서 오는 패러프레이즈 스타일을 식별하기 위한 두 가지 유사성 차원 다른 출처. 주석 연구는 의 높은 신뢰성을 보여준다 알고리즘적으로 결정된 특성 맵.
Fillers in Spoken Language Understanding: Computational and Psycholinguistic Perspectives
Disfluencies (i.e. interruptions in the regular flow of speech), are ubiquitous to spoken discourse. Fillers ("uh", "um") are disfluencies that occur the most frequently compared to other kinds of disfluencies. Yet, to the best of our knowledge, there isn't a resource that brings together the research perspectives influencing Spoken Language Understanding (SLU) on these speech events. This aim of this article is to synthesise a breadth of perspectives in a holistic way; i.e. from considering underlying (psycho)linguistic theory, to their annotation and consideration in Automatic Speech Recognition (ASR) and SLU systems, to lastly, their study from a generation standpoint. This article aims to present the perspectives in an approachable way to the SLU and Conversational AI community, and discuss moving forward, what we believe are the trends and challenges in each area.
장애(즉, 정기적인 언어 흐름의 중단)는 다음과 같다 구어체 담론에 어디에나 있다. 필러("uh", "um")는 다음과 같은 불변성이다 다른 종류의 장애와 비교하여 가장 자주 발생합니다. 하지만, 그에게 우리가 아는 한, 연구를 통합하는 자원은 없다 이러한 스피치에 영향을 미치는 구어 이해(SLU)의 관점 사건들. 이 기사의 목적은 다양한 관점들을 합성하는 것이다 전체론적인 방법; 즉, 근본적인 (이론적) 이론을 고려하는 것에서 자동 음성 인식(ASR)에서의 주석 및 고려 사항 SLU 시스템은, 마지막으로, 세대 관점에서 연구한다. 이 기사 SLU에 접근 가능한 방식으로 관점을 제시하는 것을 목표로 한다 대화형 AI 커뮤니티, 그리고 우리가 믿는 미래에 대해 논의한다 각 분야의 동향과 과제.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-02-01] 오늘의 자연어처리 (0) | 2023.02.01 |
---|---|
[2023-01-31] 오늘의 자연어처리 (0) | 2023.01.31 |
[2023-01-29] 오늘의 자연어처리 (0) | 2023.01.29 |
[2023-01-28] 오늘의 자연어처리 (0) | 2023.01.28 |
[2023-01-27] 오늘의 자연어처리 (0) | 2023.01.27 |
댓글