기존 연구 한계와 개선방안
- classcification 모델 들이 있지만 기존 모델들은 explanable 하지 않았다는 문제
- 스스로를 평가하는 기존의 성격유형 검사방식에서 ai를 활용한 연구들이 진행되고 있지만 평소 의식하지 않은 상태에서 만들어낸 데이터로 평가하는 성격검사 framework
의의
- big 5같은 심리학 검사 뿐만 아니라 iq검사 방식 등을 대체할수 있도록 어려곳에 이식가능
- 지금 ai를 평가하는 방식이 human evaluation에서 ai evaluation으로 대체되고 학습 데이터도 web data에서 ai generated data로 대체되는 것처럼
과정
- mbti 분석을 대상
- 상호작용성이 높은 chat 데이터 기반을 중심으로 진행
- voice 경우 데이터 양이 많지 않고 음성인식 발화자 분리 등 이슈로 우선순위 낮춤
엔지니어링
- 없는 말을 하지는 않는대 다른 사람이 한 말을 인용하는 hallucination 제거가 어려웠는데 명시적 dynamic system생성으로 해결
- 객관성 유지 위해 query에는 mbti정보없이 retrieval 하기 때문에 mbti 관련 대화를 의도적으로 가져오지 않고 객관성 추가
- using in memory retrieval for considering privacy first
- 모든 정보 ecrypted해서 보호
- privacy 를 위해서 nickname사용해 api 요청
- split을 작게 할수로 좋았다.
- embedding openai embedding "asymmetric" task
- privacy때문에 적용한 nickname에서 얻은 직관 english 모델은 nickname gpt 모델은
학습
- 웹서비스에 rag 결합한 어플리케이션 개발로 web ai app 개발 경험
- ai에 대한 지식과 web에 대한 지식을 결합하여 작동하는 서비스 구현
- 비즈니스 모델 구축 - 본인이 기대하던 mbti 안나오면 결제 (욕망에 기반한)
- 가장 중요하게 업계 비밀로 json 으로 response하는 gpt 사용할 때 autoregressive causal language model 중요한 property를 뒤로 미루는 게 중요
- 생각의 흐름과 동일하게
Limitation
- 결과는 매우 설득력있고 흥미로웠지만 채팅 데이터에 대한 mbti golden 데이터가 없어서 정확도에 대한 분석은 진행하지 못함
- 프롬프팅을 하더라도 gpt가 넓은 문맥을 고려하여 증거를 찾는것 보단 좁은 문맥만 고려하여 제시하는 한계로 이는 프레임워크의 문제라기보단 gpt성능문제
- 증거들을 통해 score를 제시하기는 하지만 score 자체가 어떻게 산출되었는지는 explainable하지 못하다
- 채팅방에 대한 메타 정보가 없고, 채팅방안에서의 모습은 한정되어 있기 때문에, 평소의 전체적인 성격보다 특정 사람과와 interaction일 때의 모습만 볼 수 있다.
- 하지만 사람들에 학술적 의미를 가지는 성격유형 검사가 아니라 대하는 사람에 따라 달라지는 모습을 보면 높아지는 스스로에 대한 이해가 목적이라면 의미있다
- 이제 seed 를 지원하지만 일반적으로 같은 데이터라도 반복적인 결과가 보장되지 않는다
GenAI 활용 경진대회 - 자료실
"나도 이 대회 참가해 보고 싶다!" 고 생각하신다구요?
https://sites.google.com/yonsei.ac.kr/genaicontest/자료실?authuser=0
Seonglae Cho