본문 바로가기
오늘의 자연어 처리

[2023-01-08] 오늘의 자연어처리

by 지환이아빠 2023. 1. 8.
반응형

Reprogramming Pretrained Language Models for Protein Sequence Representation Learning

 

Machine Learning-guided solutions for protein learning tasks have made significant headway in recent years. However, success in scientific discovery tasks is limited by the accessibility of well-defined and labeled in-domain data. To tackle the low-data constraint, recent adaptions of deep learning models pretrained on millions of protein sequences have shown promise; however, the construction of such domain-specific large-scale model is computationally expensive. Here, we propose Representation Learning via Dictionary Learning (R2DL), an end-to-end representation learning framework in which we reprogram deep models for alternate-domain tasks that can perform well on protein property prediction with significantly fewer training samples. R2DL reprograms a pretrained English language model to learn the embeddings of protein sequences, by learning a sparse linear mapping between English and protein sequence vocabulary embeddings. Our model can attain better accuracy and significantly improve the data efficiency by up to $10^5$ times over the baselines set by pretrained and standard supervised methods. To this end, we reprogram an off-the-shelf pre-trained English language transformer and benchmark it on a set of protein physicochemical prediction tasks (secondary structure, stability, homology, stability) as well as on a biomedically relevant set of protein function prediction tasks (antimicrobial, toxicity, antibody affinity).

 

단백질 학습 과제를 위한 기계 학습 안내 솔루션이 만들었습니다 최근 몇 년간 상당한 진전을 이루었습니다. 그러나 과학적 발견의 성공 잘 정의되고 레이블이 지정된 내부 도메인의 액세스 가능성으로 인해 작업이 제한됨 데이터. 낮은 데이터 제약을 해결하기 위해 딥 러닝의 최근 적응 수백만 개의 단백질 서열에 대해 사전 훈련된 모델들은 유망함을 보여주었다, 그러한 도메인별 대규모 모델의 구성은 계산적이다 비싼. 여기서는 사전 학습을 통한 표현 학습을 제안한다 (R2DL), 우리가 재프로그래밍하는 엔드 투 엔드 표현 학습 프레임워크 단백질에서 잘 수행할 수 있는 대체 도메인 작업에 대한 심층 모델 훨씬 적은 교육 샘플로 속성 예측. R2DL 프로그램 단백질 임베딩을 배우기 위해 사전에 훈련된 영어 모델 영어와 단백질 사이의 희박한 선형 매핑을 학습함으로써 시퀀스 시퀀스 어휘 임베딩. 우리의 모델은 더 나은 정확도를 얻을 수 있고 데이터 효율성을 최대 $10^5$배 향상시킵니다 사전 훈련 및 표준 감독 방법에 의해 설정된 기준선. 이를 위해 우리는 기성 영어 변환기를 재프로그래밍하고 일련의 단백질 물리 화학적 예측 작업(2차)에서 벤치마크한다 구조, 안정성, 상동성, 안정성) 및 생물학적으로 관련 단백질 기능 예측 작업 세트(항균, 독성, 항체 친화성). 

 

 

GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods

 

A key goal for the advancement of AI is to develop technologies that serve the needs not just of one group but of all communities regardless of their geographical region. In fact, a significant proportion of knowledge is locally shared by people from certain regions but may not apply equally in other regions because of cultural differences. If a model is unaware of regional characteristics, it may lead to performance disparity across regions and result in bias against underrepresented groups. We propose GIVL, a Geographically Inclusive Vision-and-Language Pre-trained model. There are two attributes of geo-diverse visual concepts which can help to learn geo-diverse knowledge: 1) concepts under similar categories have unique knowledge and visual characteristics, 2) concepts with similar visual features may fall in completely different categories. Motivated by the attributes, we design new pre-training objectives Image Knowledge Matching (IKM) and Image Edit Checking (IEC) to pre-train GIVL. Compared with similar-size models pre-trained with similar scale of data, GIVL achieves state-of-the-art (SOTA) and more balanced performance on geo-diverse V&L tasks.

 

AI의 발전을 위한 핵심 목표는 서비스를 제공하는 기술을 개발하는 것이다 한 그룹의 필요뿐만 아니라 그들의 요구에 관계없이 모든 공동체의 필요 지리적 지역. 사실, 상당한 비율의 지식은 지역적이다 특정 지역의 사람들이 공유하지만 다른 지역에서는 동일하게 적용되지 않을 수 있습니다 문화적 차이 때문에 지역들. 모델이 지역을 인식하지 못하는 경우 특성, 지역 간 성능 격차 및 결과를 초래할 수 있습니다 대표자가 부족한 집단에 대한 편견으로. 지리적으로 GIVL을 제안합니다 포괄적인 비전 및 언어 사전 교육 모델. 의 두 가지 속성이 있다 지리적 지식을 학습하는 데 도움이 될 수 있는 지리적 시각 개념: 1) 유사한 범주 아래의 개념들은 독특한 지식과 시각을 가지고 있다 특성, 2) 유사한 시각적 특징을 가진 개념은 다음과 같다 완전히 다른 범주. 특성에 자극을 받아 새로운 디자인을 합니다 사전 교육 목표 이미지 지식 일치(IKM) 및 이미지 편집 확인 (IEC) GIVL을 사전 교육합니다. 다음과 같이 사전 훈련된 유사한 크기의 모델과 비교합니다 비슷한 규모의 데이터, GIVL은 최첨단(SOTA)을 달성하고 더 균형 잡힌 지리적으로 다양한 V&L 작업에 대한 성능. 

 

 

Topic Segmentation Model Focusing on Local Context

 

Topic segmentation is important in understanding scientific documents since it can not only provide better readability but also facilitate downstream tasks such as information retrieval and question answering by creating appropriate sections or paragraphs. In the topic segmentation task, topic coherence is critical in predicting segmentation boundaries. Most of the existing models have tried to exploit as many contexts as possible to extract useful topic-related information. However, additional context does not always bring promising results, because the local context between sentences becomes incoherent despite more sentences being supplemented. To alleviate this issue, we propose siamese sentence embedding layers which process two input sentences independently to get appropriate amount of information without being hampered by excessive information. Also, we adopt multi-task learning techniques including Same Topic Prediction (STP), Topic Classification (TC) and Next Sentence Prediction (NSP). When these three classification layers are combined in a multi-task manner, they can make up for each other's limitations, improving performance in all three tasks. We experiment different combinations of the three layers and report how each layer affects other layers in the same combination as well as the overall segmentation performance. The model we proposed achieves the state-of-the-art result in the WikiSection dataset.

 

주제 세분화는 과학 문서를 이해하는 데 중요하다 그것은 더 나은 가독성을 제공할 뿐만 아니라 다운스트림 작업을 용이하게 한다 정보 검색 및 적절한 생성을 통한 질문 답변과 같은 것 절 또는 단락. 주제 세분화 과제에서 주제 일관성은 다음과 같다 분할 경계를 예측하는 데 중요합니다. 대부분의 기존 모델 유용한 것을 추출하기 위해 가능한 한 많은 맥락을 이용하려고 노력했다 주제 관련 정보. 그러나 추가 컨텍스트가 항상 필요한 것은 아닙니다 유망한 결과들, 왜냐하면 문장들 사이의 지역적 맥락이 되기 때문이다 더 많은 문장이 보충되었음에도 불구하고 일관성이 없다. 이 문제를 완화하기 위해, 우리는 두 개의 입력 문장을 처리하는 샴 문장 임베딩 레이어를 제안한다 방해받지 않고 적절한 양의 정보를 얻기 위해 독립적으로 과도한 정보에 의해. 또한, 우리는 멀티태스킹 학습 기법을 채택한다 동일한 주제 예측(STP), 주제 분류(TC) 및 다음 포함 문장 예측(NSP). 이 세 개의 분류 계층이 결합된 경우 멀티태스킹 방식으로, 그들은 서로의 한계를 보완할 수 있다, 세 가지 작업 모두에서 성능을 향상시킵니다. 우리는 다른 조합을 실험한다 세 개의 레이어 중에서 그리고 각 레이어가 동일한 다른 레이어에 어떻게 영향을 미치는지 보고합니다 전체적인 세분화 성능뿐만 아니라 조합도 가능합니다. 저희가 모델을 제안된 것은 WikiSection 데이터 세트에서 최첨단 결과를 달성한다. 

 

 

반응형

댓글