GDSC yonse

gdcs

몇가지의 AI 프로젝트들을 진행하면서 쌓은 경험과 개념들이 어떻게 경험있는 팀원들과 의미있는 소프트웨어에 적용하고 기여할 수 있을지가 궁금합니다. 여러 모델 최적화와 창의적인 제품들을 만들어내는 기회가 되었으면 합니다. 원래 관심있게 지켜보던 GDG의 GDSC가 연세대학교에서 진행하는 것을 보고 지원하기로 결심하였습니다.

관심 배경 및 흥미

컴퓨터과학 공부를 시작한 이유도, 우연히 커즈와일의 "특이점이 온다"를 접했을 때부터 개인적인 목표도 모두 AI에 있어왔습니다. LLM과 Multimodal AI가 산업부터 생활 전반에 다양한 분야에 영향을 줄것이라 예측하고 있고, 앞으로 파급력이 가장 클 기술에 노력을 쏟을 생각입니다.

프로젝

LLaMa2 GPTQ프로젝트는 LLaMA2를 이용해 Local에서 실행가능하도록 ChatAI를 구현한 프로젝트입니다. LLaMa2 7B, 13B를 GPTQ 4bit model quantization을 진행하여 최적화하였습니다. ChromaDB 벡터 데이터베이스에 문서정보를 저장하여 최소한의 시간으로 추론 가능하도록 Prompt Engineering 설계하였습니다. (github.com/seonglae/llama2gptq) AI summarization 프로젝트로 RTSum을 진행하였습니다. Abstractive summarization시 LLM의 고질적인 문제로 발생하는 hallucination problem을 최소화하기 위해 문장을 triple로 분해하고 재결합하는 아이디어로 프로젝트를 진행하였습니다. Document를 Knowledge Graph 형태로 분해한 후 Graph algorithm을 적용하여 가장 중요한 지식 정보 단위인 top-k triple들을 선정하였습니다. 선정된 Top-k releation triple들을 문장으로 변환만 적용되도록 bart를 훈련시켜서 최종 요약을 생성합니다. 큰 CNN dailymail dataset을 트리플로 openie5로 처리하는 과정에서 분산처리의 중요성을 깨닫기도 하였습니다. 결과적으로 RTSum 프로젝트는 소프트웨어 종합설계 교내 최우수상 수상과, EMNLP 2023 데모논문으로 제출하였습니다. (github.com/seonglae/RTSum)

지원동기

컴퓨터과학 공부를 시작한 이유도, 우연히 커즈와일의 "특이점이 온다"를 접했을 때부터 개인적인 목표도 모두 AI에 있어왔습니다. LLM과 Multimodal AI가 산업부터 생활 전반에 다양한 분야에 영향을 줄것이라 예측하고 있고, 앞으로 파급력이 가장 클 기술에 노력을 쏟을 생각입니다. 그에 맞추어 AI분야에서 일해보는 경험은 꼭 저에게 필요했습니다. 혼자서 또는 교내에서 진행하던 AI 프로젝트들을 진행하면서 쌓은 경험과 개념들이 어떻게 실무에 적용하고 기여할 수 있을지가 궁금합니다. 여러 모델 최적화와 창의적인 제품들을 만들어내는 산업전반의 AI생태계에 잘 녹아들 수 있는 기회가 되었으면 합니다. AI 회사에서 일해본 경험은 없었고, 원래 관심있게 지켜보던 기업과 리스펙하는 CEO가 있는 기업이 연세대학교와 학점연계형태로 프로그램을 진행한다는 것을 확인하고 당장 지원하기로 결심하였습니다.

자기소개

선택에 대해 신중하고 모든 선택의 장단점을 보려고 합니다. 눈앞의 결과만 보고 선택하기보다는 앞으로 벌어질 오류와 장기적으로 지속가능한 방향으로 가려합니다. 그래서 제 선택을 가치있게 생각하고 그것으로 만들어지는 지식과 과정을 모두 구조화하여 기록으로 남겨둡니다. 때문에 빠르게 배우고 적응합니다. 생산상을 중요시 여기어, GTD같은 방법론들로 맡겨지는 일들을 효율적으로 진행합니다. 기존에 있던 것들을 학습하는 것 외에도 안주하기보다 기존에 있던 것들보다는 창의적으로 행동하고 말하는 것을 추구합니다. 카카오 모빌리티시절 팀내 소통채널을 만들고 그룹 다이나믹을 끌어올리기도 하였습니다. 협업에 있어서 상대방을 존중하는 방식을 회사를 경험하며 많은 방식으로 고민했습니다. 조직에서 팀워크와 책임감의 중요성을 느끼고 겸손하게 배우는 마음으로 소통하려 노력합니다. 룰보다 일이 중요하다는 것에 공감하고 비난보다는 피드백을 하고자 합니다. 감정에 깊이 의존하지 않으려 합니다. 하지만 여러가지 문화를 접하고 저만의 색깔을 찾아나가는 것에 흥미를 느낍니다. 훌륭한 음악을 찾고 남들에게 추천하기나 의미있는 영화를 보고 평가하기는 저에게 있어 중요한 취미입니다. 다양한 문화와 컨텐츠만큼 우리가 자주 볼 수 있는 것들에서 아름다움을 찾을 수 있다고 생각합니다. 건물, 가구나 소품들의 생김새와 용도를 유심히 관찰하고, 매일은 아니지만 자주 산책을 하면서 노을을 보는 것도 비슷한 맥락입니다. 러닝을 하면 평소에 가만히 있으면 볼 수 없던 것들을 볼수가 있어, 가끔 뛰어다닙니다.

대학생활

창의플랫폼을 진행하면서 4명의 리더가 되어 프로젝트를 진행하였습니다. 같은 기숙사에서 생활하며 밤마다 만나서 밀도있는 프로젝트를 진행하면서 나오는 창의력에 대한 경험이 이후에도 팀플을 진행할 때 좋은 참고가 되었습니다. 또한 학과에서 과 대표를 역임하면서 다수의 사람들에게 해당하는 업무를 책임진다는 의미를 체감하였습니다. 대학생활 중 소프트웨어 개발자로서 역량을 기르고, 사람들에게 도움이 되는 소프트웨어를 만들어보고 싶어서 진행한 개인 프로젝트 Intuiter를 진행하였습니다. 프로젝트 과정에서 배포를 위한 웹기술과 개발과 사용을 위한 버전관리, 문서작성에 익숙해지는 경험이었습니다.

AI/ML 관련 어려웠던 경험과 해결 방안

RTSum프로젝트중 OpenIE5라는 NLP라이브러리로 로컬에서 실행시킨 서버에 요청하도록 사용했습니다. 전체 모델 성능에서 시간소모 보틀넥이 있다는 것을 파악하고 asyncio와 aiohttp를 사용하여 병렬요청을 보내고 docker compose의 scale 옵션으로 서버를 부하분산시켜 해당모듈 시간소모를 80%가량 최적화시켰습니다. 프로젝트를 진행하다보면 다양한 라이브러리들을 사용하지만 모든 라이브러리가 완벽하게 작동하지는 않습니다. 소스코드를 직접 확인하고 문제를 파악해서 사용하는 경험이 의미있었습니다. LLaMa2 GPTQ 프로젝트를 진행하며 QA가능한 Chat AI를 구현했습니다. 답변 파트 구현중 AI가 질문파트까지 생성해버리는 문제가 있었습니다. 이부분을 Reddit에 질문 후 transformers의 StoppingCriteria를 이용할 수 있다는 답변을 받고 구현에 적용하여 해결하였습니다. 프롬프팅에서와 Generative AI를 사용하며 여러 예상하지 못한 이슈였습니다. 또한 QA AI에서 참고할 Documents들을 Vector DB에 저장한 것을 context로 제공하는 것이 아니라 query와 유사성을 비교하는 것으로 성능과 속도를 개선했습니다.