LLM Evaluation Metrics: 궁극의 LLM 평가 가이드

LLM Evaluation Metrics로 “The Ultimate LLM Evaluation Guide” 란 article을 검토해 봅니다. 이 article은 대형 언어 모델(LLM)의 평가 지표와 관련된 다양한 정보를 제공하며, 초보자를 위해 문서에 나오는 용어에 대한 설명도 함께 포함했습니다.

LLM Evaluation Metrics: 궁극의 LLM 평가 가이드

대형 언어 모델(LLM)의 출력 결과를 평가하는 것은 LLM 응용 프로그램을 제대로 출시하려는 사람들에게 필수적이지만, 여전히 많은 사람들에게는 어려운 작업입니다. 모델의 정확성을 미세 조정하거나 RAG(검색 보강 생성) 시스템의 문맥적 관련성을 개선하려는 경우, 적절한 LLM 평가 지표를 개발하고 선택하는 방법을 이해하는 것이 강력한 LLM 평가 파이프라인을 구축하는 데 필수적입니다.

이 문서에서는 LLM 평가 지표에 대해 알아야 할 모든 것을 설명합니다. 이 가이드에서는 다음 내용을 다룹니다:

LLM 평가 지표란 무엇이며, 어떻게 LLM 시스템을 평가하는 데 사용되는가
LLM 평가 지표 점수를 계산하는 다양한 방법과 LLM-as-a-judge가 왜 가장 좋은 평가 방법인가
적절한 LLM 평가 지표를 구현하고 결정하는 방법

LLM Evaluation Metrics(LLM 평가 지표)란 무엇인가?

LLM Evaluation Metrics(LLM 평가 지표)는 LLM 시스템의 출력을 특정 기준에 따라 점수화하는 메트릭입니다. 이들은 LLM 평가에서 매우 중요합니다. LLM 시스템의 성능을 정량화하고, 평가 대상 작업의 성능을 모니터링할 수 있습니다.

가장 중요한 일반적인 지표는 다음과 같습니다:

답변 관련성(Answer Relevancy): 주어진 입력에 대해 정보성 있고 간결한 방식으로 답변을 제공할 수 있는지 평가합니다.
정확성(Correctness): 출력이 사실적으로 정확한지 평가합니다.
환상(Hallucination): 출력에 잘못된 정보나 가짜 정보가 포함되어 있는지 평가합니다.
문맥 관련성(Contextual Relevancy): RAG 기반 LLM 시스템에서 검색된 정보가 얼마나 적절한지 평가합니다.
책임성 관련 지표(Responsible Metrics): 편향성(Bias)과 독성(Toxicity) 같은 해로운 콘텐츠가 포함되어 있는지 평가합니다.

LLM Evaluation Metrics의 좋은 평가 지표란 무엇인가?

좋은 평가 지표는 다음 세 가지 속성을 가져야 합니다:

정량적이어야 함: 평가 시 점수를 산출할 수 있어야 하며, 최소 통과 기준을 설정해 LLM 응용 프로그램이 충분히 좋은지 판단할 수 있어야 합니다.
신뢰성이 있어야 함: 점수는 일관되고 신뢰할 수 있어야 합니다.
정확해야 함: 점수는 LLM 응용 프로그램의 성능을 정확히 반영해야 합니다.

평가 점수를 계산하는 다양한 방법

LLM 평가 점수는 여러 방식으로 계산될 수 있으며, 대표적으로 다음과 같은 방식이 있습니다:

통계적 평가 방식

BLEU: 번역 모델의 출력을 참조 텍스트와 비교하여 n-그램 일치율을 계산합니다.
ROUGE: 요약 성능을 평가하며, n-그램 중첩을 통해 요약 결과와 참조 텍스트의 일치 정도를 계산합니다.
METEOR: n-그램 일치뿐만 아니라 동의어와 같은 언어적 차이까지 고려하여 점수를 계산합니다.
Levenshtein 거리: 두 텍스트 간의 최소 편집 횟수를 기반으로 평가합니다.

모델 기반 평가 방식

통계적 방법은 정확성이 떨어질 수 있기 때문에, 자연어 처리 모델을 사용하는 평가 방식도 있습니다. 대표적인 모델 기반 평가 방식은 **NLI(자연어 추론)**와 BLEURT가 있습니다.

G-Eval: LLM 평가의 새로운 접근법

G-Eval은 GPT-4를 활용한 새로운 LLM 평가 방법으로, LLM 출력의 논리적 일관성 및 다양한 기준을 평가하는 방식입니다. 이 방식은 LLM 스스로 평가 단계를 생성하고, 이를 통해 점수를 산출하는 방법입니다.

결론

LLM 평가 지표는 LLM 응용 프로그램의 성능을 평가하는 데 필수적이며, 다양한 방식으로 평가 점수를 산출할 수 있습니다. G-Eval, QAG 등의 LLM 기반 평가 방식은 특히 신뢰성과 정확성이 뛰어난 평가 방법으로 자리 잡고 있습니다.

[초보자용 용어설명]

LLM (Large Language Model): 대규모 언어 모델이라는 뜻입니다. 이는 수많은 텍스트 데이터를 바탕으로 학습된 인공지능(AI) 모델로, 사람이 쓰는 언어를 이해하고, 그에 맞는 응답을 생성하는 역할을 합니다. 예를 들어, 우리가 질문을 하면 이 모델은 그 질문을 이해하고 자연스럽게 답을 제공할 수 있습니다. 대표적인 예로는 구글의 GPT-4나 ChatGPT 같은 AI 챗봇이 있습니다.
RAG (Retrieval-Augmented Generation): 검색 보강 생성이라는 개념으로, 미리 학습된 AI 모델이 필요할 때 적절한 정보를 검색하고, 그 정보를 바탕으로 새로운 텍스트를 생성하는 방식입니다. 예를 들어, AI가 어떤 질문에 답할 때, 그 질문에 관련된 정보를 먼저 검색한 다음 그 정보를 이용해 답변을 만드는 시스템입니다. 이는 챗봇이나 정보 검색 시스템에서 자주 사용됩니다.
BLEU: 번역 평가 지표로, 번역된 문장이 원래 문장과 얼마나 비슷한지를 계산하는 방법입니다. 이때 n-그램이라는 개념을 사용합니다. n-그램이란 단어 묶음(예: 2-그램은 두 단어의 묶음)을 말하며, BLEU는 번역된 텍스트와 원본 텍스트 사이에서 이런 단어 묶음이 얼마나 일치하는지를 기준으로 점수를 매깁니다. 즉, BLEU 점수가 높을수록 번역의 품질이 더 좋다고 볼 수 있습니다.
ROUGE: 요약 평가 지표로, 텍스트 요약이 얼마나 잘 이루어졌는지를 평가합니다. BLEU와 비슷하게, 요약된 텍스트와 원본 텍스트 간의 n-그램(단어 묶음)이 얼마나 많이 겹치는지를 계산하여 점수를 매깁니다. ROUGE 점수가 높을수록 요약된 텍스트가 원본의 핵심 정보를 더 잘 포함하고 있다는 뜻입니다.
METEOR: 번역 및 요약 평가 지표로, BLEU나 ROUGE보다 더 복잡한 평가 방식입니다. 단어의 일치뿐만 아니라 동의어(같은 의미의 다른 단어)도 고려하여 번역 또는 요약의 품질을 평가합니다. 예를 들어, “커피”와 “카페인 음료”는 의미가 비슷하므로 둘을 동일하게 취급할 수 있습니다. METEOR는 이런 유사성을 고려하여 번역 품질을 평가하는 방식입니다.
Levenshtein 거리: 편집 거리라고도 불리는 개념으로, 두 문장을 비교할 때 하나의 문장을 다른 문장으로 바꾸기 위해 필요한 최소한의 수정 작업(삽입, 삭제, 교체 등)의 횟수를 계산합니다. 예를 들어, “고양이”라는 단어를 “강아지”로 바꾸려면 글자 몇 개를 바꿔야 하죠? 그 필요한 수정 횟수를 계산해서 두 문장이 얼마나 비슷한지를 평가하는 방법입니다.
NLI (Natural Language Inference): 자연어 추론이라고 부르며, 한 텍스트가 다른 텍스트와 논리적으로 맞는지(일관성 있는지)를 판단하는 인공지능 모델입니다. 예를 들어, “오늘 비가 온다”라는 문장이 있을 때, “나는 우산을 가져가야겠다”라는 문장은 이와 일관된 내용입니다. 이런 식으로 두 문장 간의 관계를 분석하여 모순이 없는지 평가하는 모델입니다.
G-Eval: GPT-4를 사용해 LLM이 생성한 텍스트의 품질을 평가하는 방법입니다. 예를 들어, 텍스트가 얼마나 일관성 있게 쓰였는지, 주어진 기준에 따라 점수를 매깁니다. G-Eval은 평가 기준에 따라 LLM이 스스로 평가 단계를 만들고, 그 과정을 통해 최종 점수를 산출합니다. 이는 특히 LLM 시스템의 성능을 더욱 정밀하게 평가할 수 있는 방식입니다.