2024 SW 인재페스티벌 대상
RISE팀 정기용(소프트웨어학과 23) 학우

  • 555호
  • 기사입력 2025.01.09
  • 취재 박명준 기자
  • 편집 임진서 기자
  • 조회수 1179

[사진설명 : 정희성, 정기용, 이규민, 이상엽, 이상준 (왼쪽부터)]


24년 12월 5일과 6일 양일간 과학기술정보통신부가 주최하고, 정보통신기획평가원과 SW중심대학협의회가 주관한 2024 SW 인재페스티벌이 열렸다. 페스티벌에서는 ‘SW로 연결하는 AI 세상’을 주제로 SW 중심 대학 58개교의 주요 성과 및 우수 성과물을 소개·전시·시상했다. 이번 페스티벌에서 성균관대학교 소프트웨어학과 학생 5명으로 구성된 RISE 팀은 한국어 차트학습 데이터셋 구축을 통해 차트 인식 성능을 향상하여 대상(과학기술정보통신부장관상)을 수상했다. 인터뷰를 통해 RISE팀의 팀장 정기용 학우를 만나보자.


| 2024 SW 인재 페스티벌에 참여하게 된 계기가 궁금합니다.

소프트웨어학과에는 산학협력 프로젝트라는 1년짜리 과정이 있어요. 그 과정을 이수하는 약 20개 팀 중에서 유망한 팀을 교수님들이 회의를 통해 선정하시고, 대회에 학교 대표로 출전할 기회를 주시거든요. 그렇게 교수님이 제안하셔서 ‘깨어나다’, ‘비상하다’라는 의미를 가진 ‘RISE’라는 이름으로 대회에 참가하게 되었습니다.


| RISE팀이 'ChartBrain.AI'로 대상을 받으셨는데 'ChartBrain.AI'에 대한 설명 부탁드립니다.

ChartBrain.AI는 차트 이미지를 표 텍스트로 바꿔주는 소형 인공지능 모델입니다. 저희가 프로젝트를 시작한 4월 당시에 GPT-4o 모델이 일반적인 사진과 그림은 잘 이해하지만, 차트 이미지에 대해서는 이해를 못 하고 수치 파악과 같은 능력이 부족했습니다. 이 점을 보완하고자 차트 이미지를 *LLM(Large Language Model)이 잘 이해할 수 있는 표 텍스트로 변환하는 소형 인공지능 모듈을 개발하는 것을 목표로 프로젝트를 시작했습니다.


클라우드 기반의 GPT-4o 모델은 정보 유출의 위험이 있어서 일반적으로 기업에서는 보안이 중요한 사내 보고서와 차트 이미지들을 이해시키는 데 GPT-4o 모델을 사용하지 않고 사내에 자체 LLM을 두어 사용합니다. 이런 곳에 저희 ChartBrain.AI를 적용할 수 있습니다. 크기도 작고, 성능도 국내 모델에서는 현재 수준에서 가장 정확도가 높은 모델을 의미하는 SOTA(State of the Art)를 달성했기 때문입니다.


ChartBrain.AI를 만든 과정은 다음과 같습니다. 구글 리서치에서 발표한 *디플롯(Deplot)이라는 영어 모델에 한국어를 이해할 수 있도록 1차로 학습을 시키고, 차트-표 데이터 쌍 112만 건을 구축해서 추가로 디플롯(Deplot)에 학습시켜 완성했습니다. 이 중 32만 건은 저희 팀이 자체 제작한 합성 차트 이미지들로 기존 오픈소스 차트 이미지 데이터셋의 부족한 다양성을 보충하고 더 복잡한 차트도 이해할 수 있게 만들어주는 역할을 했습니다.


*LLM(Large Language Model, 대형 언어 모델): 수많은 파라미터를 보유한 인공 신경망으로 구성되는 언어 모델.

*디플롯(Deplot) 공식 코드 링크: https://github.com/google-research/google-research/tree/master/deplot


| 우리 대학 부스에서 대상 작품을 설명하실 때, RISE팀 학우들이 성균관 유생들이 입었던 청금복을 입었다고 들었습니다. 입게 되신 계기와 소감을 듣고 싶습니다.

저희가 직접 청금복을 준비한 것은 아니었고, 부스를 준비해 주신 소프트웨어융합대학 담당 선생님이 발표할 때 입고 발표해 보라고 조언을 해주셨습니다. 솔직히 입고 돌아다닐 때는 부끄럽기도 했는데, 후에 사진 찍힌 걸 보니 누가 봐도 성균관대학교 학생들인 게 한눈에 보여서 나중에는 만족했습니다. 선생님들이 선견지명이 있으셨던 것 같습니다.



| 프로젝트를 진행하면서 팀장으로서 중요하게 생각했던 것이 있으셨나요?

산학협력 프로젝트는 기업에서 주제를 제시하고, 최종 결과물을 기업에 제출합니다. 그래서 학교에서 과제를 하는 것보다 더 책임감을 느꼈고, ‘이거 제대로 결과를 못 내면 큰일 난다’ 같은 생각에 더 열심히 했습니다. 저희가 아무리 열심히 했더라도 최종 프로그램의 성능이 저조하다면 모두 물거품이 되는 것이라 원하는 결과가 나올 때까지 노력해야만 했습니다. 그 과정이 쉽지는 않았지만, 끝까지 노력한 결과 우수한 결과를 낼 수 있었다고 생각합니다.


| 페스티벌에 프로그램을 제출하기까지 어려웠던 점은 무엇이었고, 이를 어떻게 극복하셨는지 궁금합니다.

정말 모든 게 처음이었습니다. 여름 방학에 ‘산학협력 하계집중근무 프로그램’이라고 있습니다. 학교 강의실을 하나 빌려 아침 9시부터 오후 6시까지 인턴 생활을 하는 것처럼 매일 출근해서 평일에 기술 개발하고, 논문 읽는 프로그램에 참여하여 열심히 노력했습니다. 이 과정에서 논문을 읽고 선행 연구를 실험해 보고, 실험 결과를 토대로 연구 방향성을 세우고, 가설을 세워 모델을 학습시키고, 결과를 보고 다시 부족한 점을 찾는 사이클 자체를 처음 경험했습니다. 팀장이라 더 책임감이 컸던 것 같습니다. 좋은 결과가 나온 것에는 지도 교수님의 적극적인 지도와 팀원들의 열성적인 참여가 큰 지분을 차지한다고 생각합니다. 특히 지도 교수님이 안계셨다면 성공하기 힘든 프로젝트였다고 생각합니다.


| 프로젝트 진행 과정에서 특별히 인상깊었던 일들이 있었나요?

저희가 처음부터 큰 상을 받았던 건 아니었습니다. 대상을 받기 전에 두 개의 공모전에 나갔는데, 둘 다 1차에서 낙선했습니다. 처음 공모전에 나갈 때는 다들 열심히 했습니다. 기숙사 통금 시간인 1시까지 남아서 개발하고. 두 번째 공모전 나갈 때는 기존 것에서 조금 더 개선했고, 이게 세 번째 대회였습니다. 이번 대회에 나갈 때는 첫 번째 공모전에 나갔을 때보다 많이 사기가 떨어지긴 했지만, 결국 빛을 보게 되어 좋습니다 .


| 같은 프로젝트로 대회를 여러 번 나가셨는데, 프로그램 성능 자체도 차이가 크게 났나요?

네. 성능 면에서 차이가 크게 났습니다. 앞서 말했듯, 저희의 비교 대상은 GPT-4 Omni 모델이었습니다. 저희의 ChartBrain.AI와 동시에 그 모델도 같이 발전해서, 여름 방학에는 우리가 성능이 더 좋다고 열심히 얘기했는데, 12월쯤에는 GPT-4 Omni가 저희 모델을 따라잡기도 했습니다. 마지막에는 저희 모델도 많이 발전해 비교 우위를 가져올 수 있었습니다. 이 점이 대상을 받는 데 큰 도움이 됐던 것 같습니다.


| RISE팀이 전부 소프트웨어학과인데  이번 프로젝트 진행하는데 도움이 됐던 수업이나 대외 활동이 있으신가요?

저는 학회 활동이 도움이 된 것 같습니다. 저희 학교 내에 ‘TNT’라는 인공지능 학회에 가입을 해서 논문 스터디를 했습니다. 이제 막 2학년이 된 시점에 TNT에서 논문을 많이 읽고, 논문을 리뷰하고 서로 질문하기도 하면서 어떤 논문이 좋은 논문인지에 대해서도 배울 수 있었습니다. 개인적으로 TNT에서 했던 논문 리뷰가 가장 도움이 되었습니다.


[이규민, 정희성, 이상엽, 정기용, 이상준(왼쪽부터)]



| 본인이 생각하는 소프트웨어학의 매력은 무엇인가요?

소프트웨어는 결국 프로그래밍을 해서 문서로 남겨놓는 일이잖아요. 어느 회사에 들어가도 제가 할 수 있는 일은 그 수많은 문서에 한두 글자 정도 고치는 일인데, 이 한두 글자가 굉장히 큰 영향력을 가질 수 있다는 것이 흥미로운 것 같습니다. 글자는 쉽게 복사가 되니까 작은 아이디어를 통해 어느 한 부분만 개선해도 그것이 무한한 영향력을 미칠 수 있다는 점, 그게 가장 큰 매력이자 승부욕을 자극하는 점인 것 같습니다.


| 앞으로의 진로나 목표가 궁금합니다.

단기적인 목표는 이번에 대상 받은 프로젝트로 학부생 논문을 내년 5~6월쯤 작성해 볼 생각입니다. 현재 제가 개발할 때는 체감상 GPT가 5할, 다른 온라인 정보가 3할을 도와주는 것 같아서 이 프로젝트를 진행할 때도 제가 완벽하게 이해했다는 느낌이 잘 안 들거든요. 그래서 수학, 영어, 알고리즘에 대해 더 깊게 공부할 수 있도록 대학원에 진학하는 것이 저의 장기적인 목표입니다.


| 소프트웨어 관련 공모전을 준비하려는 학우들에게 조언 한마디 부탁드립니다.

공모전을 준비하는 학우들이면 되게 열심히 하고 계시는 분들이라고 생각이 들어서, 팁 아닌 팁을 생각해 봤습니다. 프로젝트를 진행하다 보면, 개인적으로 어떤 아이디어를 본인은 굉장히 사랑하게 되거든요. 이 생각을 다른 사람들에게 설명하는 것이 어려운 일인 것 같아요. 공모전을 진행하면서 저는 그 부분에서 제일 많이 막혔습니다. 그래서 내 사랑스러운 아이디어를 다른 사람들에게 어떻게 설명할 수 있을지, 특히 심사위원들에게 어떻게 설명할지 많이 고민했습니다. 개인적으로 그 설득은 PPT 1~2페이지에서 끝난다고 생각합니다. 그 부분에 집중해서 공모전에서 좋은 결과를 얻으셨으면 좋겠습니다. 가능한 모든분들을 설득해서 꼭 좋은 결과를 얻길 바랍다.