Research Stories

View All

Research Stories

초고차원 데이터 분석의 난제를 푼 이은령 교수, Annals of Statistics 게재 논문으로
2025년 올해의 대한민국 통계연구자상 수상

초고차원 자료분석 위한 새로운 통계 이론·계산 방법 제시…독창성과 실용성 동시에 인정받아

통계학과 이은령 교수

  • 초고차원 데이터 분석의 난제를 푼 이은령 교수, Annals of Statistics 게재 논문으로 ▼2025년 올해의 대한민국 통계연구자상 수상
Scroll Down

성균관대학교 통계학과 이은령 교수는 2024년 8월 국제 통계학계의 최고 권위 저널 가운데 하나인 Annals of Statistics에 게재된 논문 Efficient Functional Lasso Kernel Smoothing for High-Dimensional Additive Regression의 연구 성과를 인정받아 2025년 제2회 올해의 대한민국 통계연구자상을 수상하였다. 시상식은 2025년 8월 28일 서울 웨스틴조선호텔에서 열린 제14회 국가통계발전포럼에서 진행되었으며, 본 상은 통계청이 국가통계 발전의 기반이 되는 통계학 연구를 장려하고 우수 연구자를 발굴·격려하기 위해 제정한 통계청장상이다.


이번 논문은 변수의 수가 표본 수보다 훨씬 많은 초고차원 데이터 환경에서, 중요한 변수를 효과적으로 선별하면서도 각 변수의 비선형 효과를 정밀하게 추정할 수 있는 새로운 통계 방법론을 제시한 연구이다. 현대 데이터 분석에서는 수많은 변수들 가운데 실제로 의미 있는 신호를 찾아내는 일과, 그 변수들이 반응값에 어떤 방식으로 영향을 미치는지를 유연하게 설명하는 일이 동시에 중요하지만, 이를 함께 만족시키는 방법을 설계하는 것은 매우 어려운 문제로 여겨져 왔다.


이은령 교수 연구팀은 이러한 한계를 극복하기 위해 functional Lasso와 smooth backfitting을 결합한 새로운 커널 기반 방법을 개발하였다. 이 방법은 중요한 변수를 자동으로 선택하는 동시에, 선택된 변수의 효과를 비선형 함수 형태로 정밀하게 추정할 수 있도록 설계되었으며, 계산 효율성과 이론적 타당성도 함께 확보하였다. 또한 편향을 보정한 추론 절차를 함께 제안함으로써 단순한 예측을 넘어 신뢰구간 구성과 유의성 검정까지 가능하게 하였다는 점에서 학문적 의미가 크다.


연구팀은 제안한 방법을 암세포주 유전자 발현자료와 항암제 반응자료에 적용하여 실제 빅데이터 분석에서도 우수한 성능을 확인하였다. 이를 통해 약물 반응과 관련된 중요한 유전자를 효과적으로 식별할 수 있음을 보였으며, 제안한 방법이 바이오정보학과 정밀의료는 물론 금융, 환경, 사회과학 등 다양한 고차원 자료 분석 문제에도 폭넓게 활용될 수 있음을 제시하였다. 이번 수상은 초고차원 자료분석을 위한 새로운 통계 이론과 계산 방법을 함께 제시한 연구의 독창성과 실용성이 동시에 높게 평가받은 성과라 할 수 있다.

논문 게재 성과 SKKU RESEARCH STORY

Efficient functional Lasso kernel smoothing for high-dimensional additive regression


▲ fLasso-SBF의 핵심 아이디어를 "입력 → 방법 → 출력" 세 단계로 요약한 도식.


  • 왼쪽 (Input) 표본 크기보다 훨씬 많은 수의 후보 공변량에 대한 산점도를 격자로 배열한다. 
  • 대부분의 공변량(회색)은 반응변수와 거의 무관한 잡음이며, 빨강·초록·파랑으로 강조된 세 개의 공변량만이 실제로 반응변수에 의미 있는 비선형 효과를 갖는다. 
  • 본 논문이 다루는 고차원 희소 가법 모형의 전형적인 상황을 보여준다.
  • 가운데 (Method) 제안 기법 fLasso-SBF는 커널 기반 평활 백피팅에 함수형 Lasso 벌점을 결합한 목적함수를 최소화한다. 
  • 그 해는 "소프트 역치화 + 사영"이라는 한 번의 갱신 단계로 표현되며, 기존의 평활 백피팅 알고리즘에 역치화 한 단계만 추가된 간결한 형태여서 구현과 이론 분석이 모두 용이하다.
  • 오른쪽 (OutputfLasso-SBF로 얻은 추정 성분함수들을 겹쳐 그린 그림. 실제로 활성이었던 세 공변량의 성분함수만 부드러운 곡선으로 복원되고, 
  • 나머지 비활성 공변량의 추정 성분은 자동으로 0 근방으로 축소된다. 즉, 변수 선택과 비모수적 함수 추정이 한 번의 절차로 동시에 이루어지며, 
  • 디바이어싱 과정을 통해 신뢰구간 구성과 가설검정까지 지원한다.

COPYRIGHT ⓒ 2017 SUNGKYUNKWAN UNIVERSITY ALL RIGHTS RESERVED. Contact us