Research Stories

View All

Research Stories

성균관대학교 통계학과 이은령 교수,
고차원 데이터 분석의 난제를 푸는
차세대 전이학습 기술 개발

기존 전이학습의 한계를 극복한 혁신적 알고리즘 설계

통계학과 이은령 교수

  • 성균관대학교 통계학과 이은령 교수, ▼고차원 데이터 분석의 난제를 푸는 ▼차세대 전이학습 기술 개발
  • 성균관대학교 통계학과 이은령 교수, ▼고차원 데이터 분석의 난제를 푸는 ▼차세대 전이학습 기술 개발
Scroll Down

성균관대학교 통계학과 이은령 교수(제1저자)가 데이터 부족으로 인한 고차원 분석의 한계를 극복할 수 있는 새로운 통계적 방법론을 개발했다. 이은령 교수는 연세대 박세영 교수, 예일대 Hongyu Zhao 교수 연구팀과 공동으로 타겟 데이터와 외부 원천 데이터 간의 차이가 '저계급(Low-rank)' 구조를 갖는다는 점에 착안, 유용한 정보만을 선별해 학습 성능을 극대화하는 '전이학습 알고리즘'을 구현하는 데 성공했다. 이 성과는 표본 수가 적어 분석이 어려웠던 희귀 질환 연구나 정밀 의료 분야에서, 외부 빅데이터를 효과적으로 통합하여 예측 정확도를 획기적으로 높일 수 있는 길을 열었다.


■ 기존 전이학습의 한계를 극복한 혁신적 알고리즘 설계

이번 연구는 빅데이터 시대에도 여전히 존재하는 '스몰 데이터(Small Data)'의 예측 불확실성과 기존 전이학습의 부작용을 해결하는 데 초점을 맞췄다. 유전체 분석과 같은 고차원 회귀 문제에서는 변수는 수만 개에 달하지만 정작 관심 있는 타겟 샘플은 매우 적어 정확한 모형 추정이 어렵다. 이를 보완하기 위해 외부 데이터를 가져다 쓰는 전이학습이 시도되어 왔으나, 타겟과 관련 없는 데이터를 무분별하게 사용할 경우 오히려 예측 성능이 떨어지는 '부정적 전이(Negative Transfer)' 문제가 빈번하게 발생했다.

연구팀은 이러한 문제를 해결하기 위해 '저계급 회귀모형(Low-Rank Regression)' 프레임워크 안에서 타겟 모델과 원천 모델 간의 구조적 차이를 효과적으로 제어하는 2단계 추정법을 제안했다. 특히 연구팀이 고안한 '전진 원천 선택(Forward Source Detection, FSD)' 기법은 수많은 외부 데이터셋 중에서 타겟 분석에 실질적으로 도움이 되는 정보원만을 순차적으로 탐지해낸다. 이는 데이터 간의 공통된 신호는 증폭시키고 불필요한 노이즈는 차단하여, 고차원 환경에서도 편향 없는 정밀한 추정을 가능하게 한다.


■ 뛰어난 예측 성능과 이론적 최적성 입증

이론적 검증 결과, 새로 개발된 전이학습 방법론은 타겟 데이터만 단독으로 사용할 때보다 통계적 수렴 속도가 훨씬 빠르며, 미니맥스(Minimax) 관점에서도 최적의 효율을 달성함이 증명되었다. 실제 데이터 적용에서도 그 우수성이 확인되었다. 연구팀은 암 세포주 백과사전(CCLE) 데이터를 활용해, 샘플 수가 28개에 불과한 특정 폐암 변이(KRAS-mutant NSCLC)의 항암제 반응을 예측하는 실험을 수행했다. 그 결과, 제안된 알고리즘은 폐암과 유전적 특성이 유사한 다른 암종의 데이터를 효과적으로 선별 및 통합함으로써, 기존의 통합 분석 방식이나 단순 마진 선별 방식 대비 월등히 높은 예측 정확도를 기록했다.


■ 다양한 분야 응용 가능성

이 연구의 '전진 원천 선택 전이학습(FSD-Trans-NR)' 기술은 데이터의 차원이 샘플 수보다 훨씬 큰 고차원 환경에서도 안정적으로 작동하도록 설계되었으며, 저계급 구조뿐만 아니라 희소(Sparse) 구조가 결합된 복잡한 데이터 상황에서도 유연하게 적용될 수 있다. 이러한 특성은 바이오메디컬 분야의 약물 반응 예측뿐만 아니라, 데이터 확보가 어렵고 비용이 많이 드는 금융 리스크 분석, 신소재 개발 등 다양한 분야의 예측 모델링에 폭넓게 활용될 수 있을 것으로 기대된다.


이번 연구는 한국연구재단(NRF)과 미국 국립보건원(NIH) 등의 지원으로 수행되었다 . 본 연구성과는 통계학 분야의 세계 최고 권위지인 Journal of the American Statistical Association (JASA) 에 2025년 10월 온라인 게재되었다.



※논문명: Transfer Learning Under Large-Scale Low-Rank Regression Models

※학술지: Journal of the American Statistical Association (JASA)

※논문링크: https://doi.org/10.1080/01621459.2025.2555057

COPYRIGHT ⓒ 2017 SUNGKYUNKWAN UNIVERSITY ALL RIGHTS RESERVED. Contact us