Research Stories

인간 RNA 정보에서 바이러스 유발 인산화
및 2'-O-메틸화(2OM) 부위 식별 위한
AI도구 개발

인산화 부위 검출을 위한 메타 학습 접근 방식을 사용한 도구
2OM 부위 식별을 위한 하이브리드 딥러닝 프레임워크를 사용한 도구

융합생명공학과 발라찬드란마나발란 교수

  • 인간 RNA 정보에서 바이러스 유발 인산화▼ 및 2'-O-메틸화(2OM) 부위 식별 위한 ▼AI도구 개발
  • 인간 RNA 정보에서 바이러스 유발 인산화▼ 및 2'-O-메틸화(2OM) 부위 식별 위한 ▼AI도구 개발
Scroll Down

융합생명공학과의 발라찬드란 마나발란 교수가 이끄는 CBBL 연구팀은 인간 RNA에서 바이러스 유발 인산화 부위와 2OM 부위를 식별하기 위한 두 가지 최첨단 AI 기반 도구를 개발했다. 그들의 혁신적인 접근법은 최고 수준의 학술지인 Briefings in Bioinformatics (Impact Factor 9.5 & JCR = 3)에 발표되었다.


1. 메타러닝 접근 방식을 사용한 바이러스 유발 인산화 부위 식별


코로나바이러스(SAR-CoV-2)의 전세계적 확산은 건강에 대한 중요한 우려와 도전을 야기하고 있다. 인산화는 세포내 모든 대사에서 중요한 번역 후 수정 방식 중 하나이며, 해당 인산화 부위의 정확한 식별은 코로나바이러스 감염에 대한 이해와 더불어 코로나19 위기를 완화하는 데 도움이 될 수 있다. 하지만, 관련 기술은 현재 개별 인산화 부위 및 기작들에 대한 국지적 결과만 알려져 있을 뿐, 전반적인 인산화 부위 연구 및 의의에 대한 연구는 태부족한 실정이었다.

이에, 융합생명공학과 전영준 교수, 송민경 교수, 이석찬 교수와 협력하여 메타러닝 접근 방식을 사용한 새로운 MeL-STPhos 예측기를 개발했다 (그림 1). 구체적으로,  Nhat Truong Pham(박사 과정 학생)과 Le Thi Phan(박사 과정 학생)은 관련 공공재 데이터를 추출하고 29개의 특성 설명자(feature descriptor)와 14가지의 분류기를 활용하여 각 데이터셋에 대해 대규모 기초 모델(약 400개)을 구축하고, 성능이 가장 좋은 모델을 결합하여 최종 예측을 위한 MeL-STPhos 모델을 구축하였다. 흥미롭게도 MeL-STPhos는 코로나바이러스 뿐만 아니라 다른 바이러스에 의해 발생하는 인산화를 식별할 수 있는 능력을 가지고 있으며, 하나의 세포 특이적 모델은 트레오닌 인산화 부위를 정확하게 탐지하여 여러 모델 활용의 효과를 보여주었다. MeL-STPhos는 두 데이터셋에서 기존에 발표되었던 최고의 예측 모델보다 월등한 성능을 보여주어, 다양한 특성 설명자, 분류기 및 메타러닝 접근 방식을 체계적으로 활용하는 접근 방식의 중요성을 입증했다.


그림 1. 데이터셋 구축, 메타러닝 접근법, 최적의 특성 및 분류기 식별, 웹서버 개발을 포함하는 MeL-STPhos 프레임워크 개요



본 연구는 대한민국 보건복지부(HI23C0701), 한국보건산업진흥원(KHIDI)을 통한 한국보건기술 R&D 프로젝트의 지원으로 수행되었다. 또한, 과학기술정보통신부, 한국연구재단(NRF) (2021R1A2C1014338, RS-2023-00217881 및 2021R1C1C1007833)의 지원으로 수행되었으며, 본 연구결과는 2023년 12월 6일 Bioinformatics Briefings 저널에 온라인으로 게재되었다.

(https://doi.org/10.1093/bib/bbad433).


2. 하이브리드 딥러닝 프레임워크를 통한 인간 RNA에서 2’-O-메틸화 (2OM) 위치 식별


2’-O-메틸화(2OM)는 RNA의 가장 일반적인 전사 후 수정으로, RNA 접합, RNA 안정성 및 선천적 면역에서 중요한 역할을 하며 다양한 관련 연구에도 불구하고, 2OM의 화학적 안정성 때문에 메신저 RNA(mRNA)에서 탐지 및 식별하는 것은 어려운 것으로 알려져 왔다. 관련하여, 본 연구팀의 Nhat Truong Pham박사과정 학생은 2OM 부위를 정확하게 식별하기 위한 새로운 하이브리드 학습 접근법 H2Opred(그림 2)를 개발했다. H2Opred는 스택방식의 1D 컨볼루셔널 뉴럴 네트워크 - convolutional neural network(1D-CNN) 블록과 주목 기반 양방향 게이트 순환 유닛-bidirectional gated recurrent unit(Bi-GRU-Att) 블록을 활용하여 모델 구축에 성공하였다. 구체적으로, 1D-CNN 블록은 14개의 전통적 특성 설명자(feature descriptor)로부터 효과적인 특성 표현을 학습하였고, Bi-GRU-Att 블록은 RNA 시퀀스에서 추출된 자연 언어 처리 기반 임베딩 5개로부터 특성 표현을 학습했다. 해당 학습을 통하여 개발된 H2Opred 모델은 다양한 데이터셋에서 뛰어난 성능을 보여주었으며, 기존에 발표되었던 예측모델 및 다른 네 개의 뉴클레오티드 특이 H2Opred 모델들을 크게 능가했다.



그림 2. 데이터셋 구축, 특성 추출 및 모델 구축, 특성 융합 및 웹서버 개발을 포함한 H2Opred 프레임워크 개요



본 연구는 과학기술정보통신부, 한국연구재단(NRF) (2021R1A2C1014338 및 2021R1I1A1A01056363)의 지원으로 및 한국보건산업진흥원(KHIDI)을 통한 한국보건기술 R&D 프로젝트의 지원으로 수행되었다. 본 연구결과는 2024년 1월 4일 Bioinformatics Briefings 저널에 온라인으로 게재되었다.

(https://doi.org/10.1093/bib/bbad476).


본 연구진은 관련접근 방식들은 2OM이나 인산화 부위를 식별하는 것에만 국한되지 않고, 펩타이드 치료 기능의 식별 및 유전자 발현 데이터를 사용한 알츠하이머병(AD) 예측을 포함한 다른 연구 영역에도 적용 할 계획을 가지고 후속 연구를 수행하고 있다.



COPYRIGHT ⓒ 2017 SUNGKYUNKWAN UNIVERSITY ALL RIGHTS RESERVED. Contact us