- 영상 내 핵심 행동 요소를 도출, 행동의 속도와 길이 다양성에 대응
- 컴퓨터 비전 분야 세계 최고 학술대회인 CVPR에서 Oral Presentation(채택률 0.74%)으로 선정
소프트웨어학과
허재필
교수
성균관대학교 소프트웨어학과 허재필 교수 연구팀이 적은 수의 예시 영상만으로도 새로운 행동을 정확히 인식할 수 있는 인공지능(AI) 기술을 개발했다.
일반적으로 인공지능이 사람의 복잡한 동작을 이해하기 위해서는 방대한 학습 데이터가 필요하다. 하지만 실제 현장에서는 특정 행동에 대한 영상을 충분히 확보하기 어려운 경우가 많다. 연구팀은 이러한 한계를 극복하기 위해, 단 몇 개의 예시만으로도 새로운 행동의 특징을 빠르게 학습하고 구별하는 영상 인식 기술인 Few-shot Action Recognition 연구에 주목했다.
연구팀이 제안한 방식의 핵심은 영상 전체를 시간 순서대로 일일이 대조하는 기존의 복잡한 연산 방식에서 벗어나, 영상 내 핵심적인 움직임만을 효율적으로 요약해 비교하는 것이다. 이를 위해 영상의 주요 정보를 몇 가지 기준으로 요약하고, 같은 기준으로 정리된 정보끼리 비교함으로써 행동의 공통점과 차이점을 보다 정확하게 파악할 수 있도록 했다.
특히 이 기술은 영상의 재생 속도나 전체 길이가 서로 다르더라도 행동의 본질을 유연하게 파악할 수 있다는 점에서 강점이 있다. 동일한 동작이라도 사람의 습관이나 촬영 환경에 따라 움직임의 속도와 길이가 달라질 수 있는데, 연구팀의 알고리즘은 이러한 시간적 변동성에도 안정적으로 대응해 새로운 행동을 효과적으로 인식할 수 있다.
이번 연구 성과는 학술적 가치와 우수성을 세계적으로 인정받아, 컴퓨터 비전 및 인공지능 분야 최고 권위의 학술대회인 CVPR 2025에서 구두 발표 논문으로 선정되었다.
본 기술은 향후 스포츠 동작 분석, 지능형 보안 시스템을 통한 위험 상황 감지, 로봇의 자율 행동 학습 등 영상 이해 기술이 필요한 다양한 산업 분야에서 핵심적인 역할을 할 것으로 기대된다.
※논문명: Temporal Alignment-Free Video Matching for Few-shot Action Recognition
※학술대회: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025