Semantic-Conditional Diffusion Networks for Image Captioning
Recent advances on text-to-image generation have witnessed the rise of diffusion models which act as powerful generative models. Nevertheless, it is not trivial to exploit such latent variable models to capture the dependency among discrete words and meanwhile pursue complex visual-language alignment in image captioning. In this paper, we break the deeply rooted conventions in learning Transformer-based encoder-decoder, and propose a new diffusion model based paradigm tailored for image captioning, namely Semantic-Conditional Diffusion Networks (SCD-Net). Technically, for each input image, we first search the semantically relevant sentences via cross-modal retrieval model to convey the comprehensive semantic information. The rich semantics are further regarded as semantic prior to trigger the learning of Diffusion Transformer, which produces the output sentence in a diffusion process. In SCD-Net, multiple Diffusion Transformer structures are stacked to progressively strengthen the output sentence with better visional-language alignment and linguistical coherence in a cascaded manner. Furthermore, to stabilize the diffusion process, a new self-critical sequence training strategy is designed to guide the learning of SCD-Net with the knowledge of a standard autoregressive Transformer model. Extensive experiments on COCO dataset demonstrate the promising potential of using diffusion models in the challenging image captioning task. Source code is available at \url{this https URL}.
텍스트-이미지 생성에 대한 최근의 발전은 다음과 같은 증가를 목격했다. 강력한 생성 모델로 작용하는 확산 모델 그럼에도 불구하고 그렇다. 종속성을 포착하기 위해 그러한 잠재 변수 모델을 활용하는 것은 사소한 일이 아니다. 별개의 단어들 사이에서 그리고 한편으로 복잡한 시각 언어 정렬을 추구한다. 이미지 캡션 이 논문에서, 우리는 깊이 뿌리박힌 관습을 깨뜨린다. 트랜스포머 기반 인코더-디코더 학습 및 새로운 확산 모델 제안 이미지 캡션, 즉 시맨틱-컨디션을 위해 맞춤화된 기반 패러다임 확산 네트워크(SCD-Net). 기술적으로 각 입력 이미지에 대해 먼저 교차 검색 모델을 통해 의미론적으로 관련된 문장을 검색한다. 포괄적인 의미 정보를 전달하다 풍부한 의미론은 더 멀리 있다. 확산 변압기 학습을 촉발하기 전에 의미론적으로 간주된다. 이것은 확산 과정에서 출력 문장을 생성한다. SCD-Net에서 다중 확산 변압기 구조는 점진적으로 강화하기 위해 적층된다. 더 나은 시각 언어 정렬 및 언어학적인 출력 문장 계단식 일관성 또한 확산을 안정화하기 위해 프로세스, 새로운 자기 비판적 시퀀스 교육 전략은 지침을 제공하도록 설계되었습니다. 표준 자기 회귀 지식을 이용한 SCD-Net 학습 변압기 모델. COCO 데이터 세트에 대한 광범위한 실험을 통해 도전적인 이미지에서 확산 모델을 사용하는 유망한 잠재력 캡션 작업 소스 코드는 다음 위치에서 사용할 수 있습니다. \url{이 https URL}입니다.
INCLUSIFY: A benchmark and a model for gender-inclusive German
Gender-inclusive language is important for achieving gender equality in languages with gender inflections, such as German. While stirring some controversy, it is increasingly adopted by companies and political institutions. A handful of tools have been developed to help people use gender-inclusive language by identifying instances of the generic masculine and providing suggestions for more inclusive reformulations. In this report, we define the underlying tasks in terms of natural language processing, and present a dataset and measures for benchmarking them. We also present a model that implements these tasks, by combining an inclusive language database with an elaborate sequence of processing steps via standard pre-trained models. Our model achieves a recall of 0.89 and a precision of 0.82 in our benchmark for identifying exclusive language; and one of its top five suggestions is chosen in real-world texts in 44% of cases. We sketch how the area could be further advanced by training end-to-end models and using large language models; and we urge the community to include more gender-inclusive texts in their training data in order to not present an obstacle to the adoption of gender-inclusive language. Through these efforts, we hope to contribute to restoring justice in language and, to a small extent, in reality.
성 포함 언어는 성 평등을 달성하기 위해 중요하다. 독일어와 같이 성조가 있는 언어들 저으면서. 논란, 그것은 기업과 정치에 의해 점점 더 채택되고 있다. 제도 사람들의 사용을 돕기 위해 소수의 도구가 개발되었다. 일반적인 남성의 사례를 식별함으로써 성별을 구분하는 언어. 보다 포괄적인 개혁을 위한 제안을 제공합니다. 이 보고서에서 우리는 자연어 처리의 관점에서 기초적인 작업을 정의한다. 데이터 세트와 이를 벤치마킹하기 위한 조치를 제시한다. 우리는 또한 모델을 제시한다. 포괄적인 언어 데이터베이스를 결합하여 이러한 작업을 구현합니다. 표준 사전 훈련된 모델을 통한 정교한 처리 단계 시퀀스 우리들의 모델은 우리의 벤치마크에서 0.89의 리콜과 0.82의 정밀도를 달성한다. 배타적 언어 식별; 그리고 그것의 상위 5개 제안 중 하나가 선택된다. 44%의 사례에서 실제 텍스트에서 발견되었습니다. 우리는 그 지역이 어떻게 더 멀리 있을 수 있는지 스케치한다. 종단 간 모델을 훈련하고 대규모 언어 모델을 사용함으로써 발전했다. 그리고 지역 사회에 양성평등 텍스트를 더 많이 포함할 것을 촉구한다. 성별 차별의 채택에 장애물을 제시하지 않기 위한 데이터 언어. 이러한 노력을 통해, 우리는 의 정의를 회복하는데 기여하기를 바란다. 언어와, 어느 정도는, 현실에서.
CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain
The field of cybersecurity is evolving fast. Experts need to be informed about past, current and - in the best case - upcoming threats, because attacks are becoming more advanced, targets bigger and systems more complex. As this cannot be addressed manually, cybersecurity experts need to rely on machine learning techniques. In the texutual domain, pre-trained language models like BERT have shown to be helpful, by providing a good baseline for further fine-tuning. However, due to the domain-knowledge and many technical terms in cybersecurity general language models might miss the gist of textual information, hence doing more harm than good. For this reason, we create a high-quality dataset and present a language model specifically tailored to the cybersecurity domain, which can serve as a basic building block for cybersecurity systems that deal with natural language. The model is compared with other models based on 15 different domain-dependent extrinsic and intrinsic tasks as well as general tasks from the SuperGLUE benchmark. On the one hand, the results of the intrinsic tasks show that our model improves the internal representation space of words compared to the other models. On the other hand, the extrinsic, domain-dependent tasks, consisting of sequence tagging and classification, show that the model is best in specific application scenarios, in contrast to the others. Furthermore, we show that our approach against catastrophic forgetting works, as the model is able to retrieve the previously trained domain-independent knowledge. The used dataset and trained model are made publicly available
사이버 보안 분야는 빠르게 발전하고 있다. 전문가에게 알려야 합니다. 과거, 현재, 그리고 최선의 경우 다가오는 위협에 대해, 공격하기 때문에 점점 더 발전하고, 목표는 더 커지고, 시스템은 더 복잡해지고 있습니다. 이렇게 수동으로 해결할 수 없습니다. 사이버 보안 전문가는 기계에 의존해야 합니다. 학습 기술 텍스처 영역에서, 사전 훈련된 언어 모델은 다음과 같다. BERT는 추가로 좋은 기준선을 제공함으로써 도움이 되는 것으로 나타났다. 미세 조정의 그러나 도메인 지식과 많은 기술 용어 때문에 사이버 보안 일반 언어 모델은 텍스트의 요지를 놓칠 수 있다. 정보, 따라서 득보다 실이 많다. 이러한 이유로, 우리는 고품질 데이터 세트를 제공하고 특별히 맞춤화된 언어 모델을 제시한다. 사이버 보안 도메인, 그것은 기본적인 구성 요소로 작용할 수 있다. 자연어를 다루는 사이버 보안 시스템 모델이 비교됩니다. 15개의 서로 다른 도메인 의존적 외인성을 기반으로 하는 다른 모델과 함께. SuperGLUE 벤치마크의 일반 작업뿐만 아니라 본질적인 작업도 포함됩니다. 에서 한편, 본질적인 작업의 결과는 우리의 모델이 개선된다는 것을 보여준다. 다른 모델과 비교하여 단어의 내부 표현 공간. 에서 반면, 시퀀스로 구성된 외부 도메인 의존적 작업, 도메인 의존적 작업. 태그 지정 및 분류, 모델이 특정 응용 분야에서 가장 우수함을 보여줍니다. 다른 시나리오와 대조적으로. 게다가, 우리는 우리의 접근 방식을 보여준다. 모델이 복구할 수 있기 때문에, 재앙적인 망각 작업에 대항하여. 이전에 훈련된 도메인 독립 지식. 사용된 데이터 세트와 교육된 데이터 세트 모델이 공개되다
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-12-10] 오늘의 자연어처리 (0) | 2022.12.10 |
---|---|
[2022-12-09] 오늘의 자연어처리 (0) | 2022.12.09 |
[2022-12-07] 오늘의 자연어처리 (0) | 2022.12.07 |
[2022-12-06] 오늘의 자연어처리 (0) | 2022.12.06 |
[2022-12-05] 오늘의 자연어처리 (0) | 2022.12.05 |
댓글