본문 바로가기
오늘의 자연어 처리

[2023-07-18] 오늘의 자연어처리

by 지환이아빠 2023. 7. 18.
반응형

Phoneme-retrieval; voice recognition; vowels recognition

 

A phoneme-retrieval technique is proposed, which is due to the particular way of the construction of the network. An initial set of neurons is given. The number of these neurons is approximately equal to the number of typical structures of the data. For example if the network is built for voice retrieval then the number of neurons must be equal to the number of characteristic phonemes of the alphabet of the language spoken by the social group to which the particular person belongs. Usually this task is very complicated and the network can depend critically on the samples used for the learning. If the network is built for image retrieval then it works only if the data to be retrieved belong to a particular set of images. If the network is built for voice recognition it works only for some particular set of words. A typical example is the words used for the flight of airplanes. For example a command like the "airplane should make a turn of 120 degrees towards the east" can be easily recognized by the network if a suitable learning procedure is used.

 

음소 검색 기술이 제안되는데, 이는 특정한 방법 때문이다 네트워크 구축에 대한. 뉴런의 초기 세트가 제공됩니다. 그 이 뉴런들의 수는 대략 전형적인 수와 같다 데이터의 구조. 예를 들어 네트워크가 음성 검색을 위해 구축된 경우 뉴런의 수는 특성의 수와 같아야 한다 그 언어의 알파벳 음소들은 사회 집단에 의해 사용된다 특정인이 속한 사람입니다. 보통 이 일은 매우 복잡하고 네트워크는 학습에 사용되는 샘플에 결정적으로 의존할 수 있다. 만약에 네트워크는 이미지 검색을 위해 구축되며 데이터가 다음과 같은 경우에만 작동합니다 검색된 이미지가 특정 이미지 집합에 속합니다. 네트워크가 다음 용도로 구축된 경우 음성 인식은 특정 단어 집합에만 작동합니다. 전형적인 예는 비행기의 비행에 사용되는 단어들이다. 예를 들어 명령입니다 마치 "코끼리는 동쪽으로 120도 회전해야 한다"는 것처럼 적절한 학습 절차를 사용하면 네트워크에서 쉽게 인식할 수 있습니다. 

 

 

Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems

 

Sharing ideas through communication with peers is the primary mode of human interaction. Consequently, extensive research has been conducted in the area of conversational AI, leading to an increase in the availability and diversity of conversational tasks, datasets, and methods. However, with numerous tasks being explored simultaneously, the current landscape of conversational AI becomes fragmented. Therefore, initiating a well-thought-out model for a dialogue agent can pose significant challenges for a practitioner. Towards highlighting the critical ingredients needed for a practitioner to design a dialogue agent from scratch, the current study provides a comprehensive overview of the primary characteristics of a dialogue agent, the supporting tasks, their corresponding open-domain datasets, and the methods used to benchmark these datasets. We observe that different methods have been used to tackle distinct dialogue tasks. However, building separate models for each task is costly and does not leverage the correlation among the several tasks of a dialogue agent. As a result, recent trends suggest a shift towards building unified foundation models. To this end, we propose UNIT, a UNified dIalogue dataseT constructed from conversations of existing datasets for different dialogue tasks capturing the nuances for each of them. We also examine the evaluation strategies used to measure the performance of dialogue agents and highlight the scope for future research in the area of conversational AI.

 

동료들과의 의사소통을 통해 아이디어를 공유하는 것이 인간의 주요한 방식이다 상호 작용. 결과적으로, 광범위한 연구가 다음 분야에서 수행되었다 대화형 AI, 가용성과 다양성의 증가로 이어진다 대화형 작업, 데이터 세트 및 방법. 그러나, 수많은 작업들이 있기 때문에 동시에 탐구된 대화형 AI의 현재 풍경은 조각난. 따라서 대화 에이전트를 위해 잘 고안된 모델을 시작합니다 의사에게 중대한 도전을 제기할 수 있다. 다음을 강조하기 위해 의사가 대화 에이전트를 설계하는 데 필요한 중요한 요소 스크래치, 현재 연구는 기본에 대한 포괄적인 개요를 제공합니다 대화 에이전트의 특성, 지원 업무, 해당 업무 개방형 도메인 데이터 세트 및 이러한 데이터 세트를 벤치마킹하는 데 사용되는 방법. 우리가 별개의 대화를 해결하기 위해 다른 방법이 사용되었음을 관찰하다 작업. 그러나 각 작업에 대해 별도의 모델을 구축하는 것은 비용이 많이 들고 비용이 들지 않는다 대화 에이전트의 여러 작업 간의 상관 관계를 활용합니다. 로서 결과적으로, 최근의 추세는 통일된 기반을 구축하는 방향으로 전환을 시사한다 모델. 이를 위해, 우리는 UNIT, 통일된 DIALOGYE 데이터를 제안한다 다양한 대화 작업을 위한 기존 데이터셋의 대화를 통해 캡처 그들 각각의 뉘앙스. 우리는 또한 사용된 평가 전략을 검토한다 대화 에이전트의 성과를 측정하고 미래의 범위를 강조한다 대화형 인공지능 분야의 연구. 

 

 

Detecting LLM-Generated Text in Computing Education: A Comparative Study for ChatGPT Cases

 

Due to the recent improvements and wide availability of Large Language Models (LLMs), they have posed a serious threat to academic integrity in education. Modern LLM-generated text detectors attempt to combat the problem by offering educators with services to assess whether some text is LLM-generated. In this work, we have collected 124 submissions from computer science students before the creation of ChatGPT. We then generated 40 ChatGPT submissions. We used this data to evaluate eight publicly-available LLM-generated text detectors through the measures of accuracy, false positives, and resilience. The purpose of this work is to inform the community of what LLM-generated text detectors work and which do not, but also to provide insights for educators to better maintain academic integrity in their courses. Our results find that CopyLeaks is the most accurate LLM-generated text detector, GPTKit is the best LLM-generated text detector to reduce false positives, and GLTR is the most resilient LLM-generated text detector. We also express concerns over 52 false positives (of 114 human written submissions) generated by GPTZero. Finally, we note that all LLM-generated text detectors are less accurate with code, other languages (aside from English), and after the use of paraphrasing tools (like QuillBot). Modern detectors are still in need of improvements so that they can offer a full-proof solution to help maintain academic integrity. Further, their usability can be improved by facilitating a smooth API integration, providing clear documentation of their features and the understandability of their model(s), and supporting more commonly used languages.

 

대형 언어 모델의 최근 개선 및 광범위한 가용성으로 인해 (LLMs), 그들은 교육의 학문적 청렴성에 심각한 위협이 되었다. 현대 LLM에서 생성된 텍스트 탐지기는 다음을 제공함으로써 문제를 해결하려고 시도한다 일부 텍스트가 LLM에서 생성되었는지 여부를 평가하는 서비스를 제공하는 교육자. 이 점에서. 일, 우리는 이전에 컴퓨터 과학 학생들로부터 124개의 제출물을 수집했다 ChatGPT의 창제. 그리고 나서 우리는 40개의 ChatGPT 제출물을 생성했다. 이거 썼어요 다음을 통해 공개적으로 사용 가능한 LLM 생성 텍스트 탐지기 8개를 평가하기 위한 데이터 정확성, 잘못된 긍정 및 탄력성의 척도. 이것의 목적 작업은 LLM 생성 텍스트 탐지기가 작동하는 것을 지역사회에 알리는 것이다 그것은 그렇지 않지만, 교육자들이 더 잘 유지할 수 있는 통찰력을 제공한다 그들 과정의 학문적 성실성. 우리의 결과는 CopyLeaks가 가장 정확한 LLM 생성 텍스트 검출기, GPTKit는 최고의 LLM 생성 텍스트 검출기입니다 잘못된 긍정을 줄이기 위한 텍스트 검출기, 그리고 GLTR은 가장 탄력적이다 LLM에서 생성된 텍스트 디텍터입니다. 우리는 또한 52개의 잘못된 긍정에 대한 우려를 표명한다 (114명의 인간 서면 제출 중) GPTZero에 의해 생성되었다. 마지막으로, 우리는 주목한다 모든 LLM 생성 텍스트 탐지기는 코드 및 다른 언어를 사용할 때 정확도가 떨어집니다 (영어와는 별도로), 그리고 (퀼봇과 같은) 패러프레이징 도구를 사용한 후. 현대의 탐지기들은 여전히 개선이 필요하다. 그래서 그것들은 그것들을 제공할 수 있다 학문적 무결성을 유지하는 데 도움이 되는 완벽한 솔루션. 게다가, 그들의 사용성은 원활한 API 통합을 촉진함으로써 개선될 수 있다 그들의 특징과 그들의 이해 가능성에 대한 명확한 문서화 모델 및 보다 일반적으로 사용되는 언어를 지원합니다. 

 

 

반응형

댓글