한국어 LLM 벤치마크의 현재

오픈 Ko-LLM 리더보드

’23년 9월 한국어 LLM의 성능을 평가하기 위한 오픈 Ko-LLM 리더보드가 출시되었다.

오픈 Ko-LLM 리더보드는 영어 리더보드인 오픈 LLM 리더보드의 한국어판으로, 업스테이지에서 평가를 운영하며 NIA에서 데이터 세트를 제공하였다.
해당 리더보드에서는 LLM의 추론, 언어 이해, 일반 상식, 환각 방지 능력을 평가하기 위해 5개 벤치마크 데이터에 대한 평가가 진행된다.

오픈 Ko-LLM 리더보드는 모델 간의 경쟁을 통해 한국어 LLM 생태계가 점점 자라날 수 있는 공동체로 기능한다. 리더보드에 등록된 모델은 오픈 라이선스를 가지고 있으므로 누구나 성능이 좋은 원하는 모델을 가져다가 사용할 수 있으며, 상황에 따라 다양한 실험을 시도하고 기존 모델을 보완하여 제출할 수 있기 때문이다.

오픈 Ko-LLM 리더보드는 오픈된 데이터와 모델 생태계로 한국어 LLM 기술 발전에 이바지하였다.

기존 벤치마크 한계 도달

오픈 Ko-LLM 리더보드에서 1위를 차지한 모델이 관심을 받게 됨에 따라, 이제는 기업들이 정상을 두고 쟁탈전을 벌이고 있다. 모델이 리더보드 1위를 달성하면 기사가 올라가고 이를 기반으로 기업의 주가를 올리거나 투자금을 얻을 수 있기 때문이다.

오픈 Ko-LLM 리더보드에는 현재 리더보드의 상위권 모델을 병합(Merge)하거나 복잡한 보상 모델 없이 인간 선호도를 직접 반영(Direct Preference Optimization)하거나 벤치마크와 연관성이 떨어지는 데이터 세트를 제거하여 학습한 모델들이 상위권을 차지하고 있다. 이러한 상위권 모델을 사용해 보면 의미 없는 대답을 하는 등 상위권 모델이 점수만큼의 기량을 보여 주지 않아 리더보드를 신뢰할 수 없다는 평가가 있다. AI 개발 속도가 급격하게 빨라지며 평가 수단이 이를 따라가지 못하고 있다는 지적도 있다.

새로운 한국어 LLM 평가 수단 속속 등장

이에 최근에는 새로운 평가 수단이 등장하고 있다.

네이버는 한국판 MMLU인 KMMLU를 공개하였다. MMLU(Massive Multitask Language Understanding)는 수학·물리학·역사·법률·의학·윤리 등 57개의 주제를 복합적으로 활용해 AI의 지식과 문제 해결 능력을 평가하는 지표이다. 하이퍼클로바 엑스는 KMMLU 평가 항목 중 ‘한국 특화 지식(Korea-Specific)’에서 제미나이 프로, GPT-4보다 더 높은 점수를 기록하였다.
instruct.kr는 LLM 기반의 평가를 진행하는 LogicKor를 제작하였다. 대화 능력 지표 MT-Bench를 기반으로 추론, 수학, 글쓰기, 코딩, 이해, 문법 6가지의 주제에 질문을 제작하였다. 이 질문 세트를 LLM에 주고 답변을 얻은 뒤, GPT-4를 이용해서 해당 답변을 평가하는 방식이다.
웨이트앤바이어스(Weights & Biases)는 호랑이 리더보드를 공개하였다. Q&A 형식의 언어 이해 llm-jp-eval의 한국어판 llm-kr-eval과 대화 능력 지표 MT-Bench를 통해 한국어에 대한 종합적인 평가를 수행한다.
업스테이지는 ’24년 4월 LLM 종합 평가 플랫폼 ‘이벨버스(Evalverse)’를 출시하였다. 수학적 추론(GSM8K)과 상식 추론(WinoGrade) 등을 추가하였다.

한국어 LLM 벤치마크 간의 경쟁에 따라 향후 한국어 LLM이 얼마나 발전할지 기대된다.

참고 문헌

https://littlefoxdiary.tistory.com/124
https://huggingface.co/spaces/upstage/open-ko-llm-leaderboard
https://www.aitimes.com/news/articleView.html?idxno=158785
https://arca.live/b/alpaca/102052014
https://didi-universe.tistory.com/entry/호랑이Horangi-한국어-LLM-리더보드-리뷰
http://tech.kakaobank.com/posts/2401-openllm/
https://www.arxiv.org/abs/2305.18290
https://www.ajunews.com/view/20240221171157638
https://www.arxiv.org/abs/2402.11548
https://lk.instruct.kr
https://wandb.ai/wandb-korea/korean-llm-leaderboard/reports/Horangi-LLM-%2D-Vmlldzo3MzIyNDE2

이 글은 학술적인 연구 결과가 아님
양지원 박사/팀장(jwyang@vaiim.com)

오픈 Ko-LLM 리더보드

기존 벤치마크 한계 도달

새로운 한국어 LLM 평가 수단 속속 등장

참고 문헌

Related Posts

시도해 볼 만한 5가지 벡터 저장소