LLM as a Judge: 자동화 및 확장 가능한 평가 방법

“LLM as a Judge(판사 역할을 하는 LLM)”라는 용어를 점점 더 자주 듣게 되었는데, 이에 대한 해외 article을 review해 보겠습니다.

https://www.confident-ai.com/blog/why-llm-as-a-judge-is-the-best-llm-evaluation-method

LLM as a Judge: 자동화 및 확장 가능한 평가 방법

최근 들어 “LLM as a Judge(판사 역할을 하는 LLM)”라는 용어를 점점 더 자주 듣게 되었습니다. 이는 제가 LLM 평가 분야에서 일하기 때문에 더 많이 접하는 것일 수 있지만, 사실 LLM이 평가자로 자리 잡아가고 있습니다. 왜냐하면 이는 느리고 비용이 많이 들며, 노동 집약적인 인간 평가자에 비해 훨씬 나은 대안임이 점점 더 명확해지고 있기 때문입니다.

하지만 LLM을 평가자로 사용할 때 주의하지 않으면 실망스러운 결과를 초래할 수 있습니다. 이 글에서는 지금까지 제가 알고 있는 LLM 평가자를 LLM(시스템) 평가에 사용하는 방법에 대해 알려드리겠습니다. 여기에는 다음 내용이 포함됩니다:

LLM as a Judge란 무엇이고 왜 이렇게 인기가 있는가?
LLM 평가자로서의 대안들과 그들이 왜 충분하지 않은가?
LLM 평가자의 한계와 그 문제를 해결하는 방법.
DeepEval을 통한 LLM 평가 지표에 LLM 평가자를 사용하는 방법.

LLM as a Judge란 정확히 무엇인가?

LLM-as-a-Judge는 특정 기준에 따라 LLM 응답을 평가하는 강력한 솔루션입니다. 즉, LLM을 이용하여 LLM(시스템)을 평가하는 것입니다. 인간 평가가 비용이 많이 들고 시간이 오래 걸리는 경우에 대한 대안으로, Judging LLM-as-a-Judge with MT-Bench와 Chatbot Arena 논문에서 소개되었습니다. LLM 평가자의 세 가지 유형은 다음과 같습니다:

단일 출력 점수 평가(참조 없이): 평가 기준을 제공받은 LLM이 다양한 요인에 따라 LLM 응답에 점수를 매깁니다.
단일 출력 점수 평가(참조와 함께): 이상적인 참조 답변이 주어졌을 때 더 일관된 점수를 반환하는 방식입니다.
쌍대 비교: 두 개의 LLM 응답을 비교하여 더 나은 결과를 선택합니다. 이때 ‘더 나은’ 응답을 결정할 기준이 필요합니다.

이 개념은 매우 간단합니다. 평가 기준을 제공하면 LLM이 이를 기반으로 자동으로 평가를 수행합니다.

LLM 평가자 대신 다른 방법은?

LLM 평가를 위한 두 가지 일반적인 대안이 있습니다. 하지만 이들은 자주 잘못 선호됩니다:

인간 평가: 맥락과 뉘앙스를 이해할 수 있어 자주 최고의 평가 방법으로 여겨집니다. 하지만 시간과 비용이 많이 들고, 주관적인 해석 때문에 일관성이 떨어집니다.
전통적인 NLP 평가 방법(BERT, ROUGE): 빠르고 저렴하며 신뢰할 수 있지만, 참조 텍스트가 없으면 작동하지 않으며, 의미적 분석에서 한계를 보입니다.

LLM 평가자의 장점과 한계

연구에 따르면, LLM이 적절히 사용될 경우 GPT-4 같은 최신 LLM은 인간 평가와 85%까지 일치할 수 있습니다. 이는 GPT-4가 비교적 안정적인 내부 평가 기준을 가지고 있다는 것을 의미하며, 이는 Chain-of-Thought(CoT) 기법을 통해 더욱 향상될 수 있습니다.

그러나 LLM 평가자도 몇 가지 단점이 있습니다:

자기 편향: LLM은 자신이 생성한 답변을 더 선호할 수 있습니다.
길이 편향: LLM은 간결한 답변보다 긴 답변을 선호할 수 있습니다.
세부적인 평가에서의 불안정성: 세밀한 점수를 매길 때 일관성이 떨어질 수 있습니다.

LLM 평가자의 한계를 극복하는 방법

다음과 같은 기술을 사용하여 이러한 한계를 해결할 수 있습니다:

Chain-of-Thought(CoT) Prompting: LLM이 더 신뢰할 수 있는 평가를 하도록 세부 평가 단계를 포함하는 방법입니다.
Few-Shot Prompting: 몇 가지 예시를 추가해 LLM 평가자의 일관성을 높입니다.
확률 기반 평가: LLM이 세밀한 점수를 매길 때의 불안정성을 줄이기 위해 출력 토큰의 확률을 사용해 점수를 계산합니다.

마지막으로, LLM 평가자는 현재 가장 널리 사용되는 LLM 시스템 평가 도구입니다. GPT-4와 같은 모델은 CoT와 Few-Shot Prompting을 통해 편향을 줄일 수 있으며, 이를 통해 더 나은 성능을 보여줍니다.

[용어설명]

LLM (Large Language Model): 대규모 언어 모델. 사람처럼 자연스러운 텍스트를 생성하고 이해할 수 있는 인공지능 모델입니다. GPT-4 같은 모델이 이에 해당합니다.
LLM as a Judge: LLM을 이용하여 또 다른 LLM의 성능을 평가하는 방법입니다.
Single Output Scoring: LLM의 응답 하나에 대해 평가 기준을 적용해 점수를 매기는 방식입니다.
Pairwise Comparison: 두 개의 LLM 응답을 비교하여 더 나은 답변을 선택하는 방식입니다.
BERT, ROUGE: 전통적인 자연어 처리 모델로, 텍스트 비교 및 평가에 사용되지만, 최신 LLM과 비교하면 한계가 있습니다.
Chain-of-Thought(CoT) Prompting: LLM이 평가를 수행할 때 논리적 사고 과정을 설명하게 하여 더 정확한 결과를 도출하는 방법입니다.
Few-Shot Prompting: 몇 가지 예시를 제공하여 LLM이 더 나은 성능을 발휘하도록 돕는 기법입니다.

[추가 상세 설명]

BERT (Bidirectional Encoder Representations from Transformers)

BERT는 구글이 2018년에 발표한 자연어 처리(NLP) 모델로, 텍스트의 맥락을 양방향으로 이해하는 방식이 특징입니다. 이를 통해 문장의 전후 관계를 모두 고려하여 보다 정확한 언어 처리를 할 수 있습니다. BERT는 Transformer라는 인공지능 모델 구조를 기반으로 하며, 특히 자연어의 의미를 깊이 이해하는 데 초점을 맞추고 있습니다.

BERT의 핵심 개념:

양방향 언어 모델링: 기존의 NLP 모델들은 텍스트를 왼쪽에서 오른쪽으로 또는 오른쪽에서 왼쪽으로만 처리하는 경향이 있었습니다. 하지만 BERT는 양방향으로 문장을 이해하여, 문장 내 모든 단어의 문맥을 동시에 분석합니다. 즉, 문장 내 앞뒤 단어를 모두 고려하여 단어의 의미를 파악합니다.
사전 훈련(Pretraining)과 미세 조정(Fine-tuning): BERT는 방대한 양의 텍스트 데이터를 이용해 미리 훈련된 후, 특정 작업에 맞춰 미세 조정됩니다. 이로 인해 문장 분류, 질의응답, 텍스트 요약 등 다양한 작업에 쉽게 적용할 수 있습니다.
사용 사례: BERT는 검색 엔진 최적화(SEO), 감정 분석, 질의 응답 시스템, 언어 번역 등 다양한 NLP 작업에 적용됩니다. 예를 들어, 구글 검색 엔진은 BERT를 통해 사용자의 검색 의도를 더 잘 이해하고 정확한 검색 결과를 제공합니다.

BERT의 한계:

고성능 컴퓨팅 필요: BERT는 매우 큰 모델이기 때문에 훈련과 추론 과정에서 많은 컴퓨팅 자원을 요구합니다.
한정된 이해: BERT는 문장의 의미를 깊이 이해하지만, 완전히 새로운 상황이나 매우 복잡한 맥락에서는 한계가 있을 수 있습니다.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

ROUGE는 텍스트 요약 성능을 평가하는 데 주로 사용되는 지표로, 2004년에 처음 제안되었습니다. 요약된 텍스트가 원본 텍스트와 얼마나 유사한지를 평가하는 데 사용되며, 주로 단어 또는 구문 수준에서의 일치 정도를 기반으로 평가합니다.

ROUGE의 주요 유형:

ROUGE-N: 요약된 텍스트와 원본 텍스트 간의 n-그램(n-gram, 연속된 단어의 묶음) 일치 정도를 측정합니다.
- ROUGE-1: 단일 단어의 일치 정도를 측정합니다.
- ROUGE-2: 두 단어씩 묶인 일치 정도를 측정합니다.
- ROUGE-N: N개의 단어로 이루어진 n-그램의 일치 정도를 측정합니다.
ROUGE-L: 두 텍스트 간의 가장 긴 공통 시퀀스(LCS, Longest Common Subsequence)를 기반으로 평가합니다. 이는 텍스트가 얼마나 자연스럽게 흐르고 있는지를 측정할 수 있습니다.
ROUGE-S: 문장에서 순서를 유지하며 비연속적인 단어 쌍의 일치 정도를 평가합니다.

ROUGE의 평가 방식:

정밀도(Precision): 요약된 텍스트가 원본 텍스트와 얼마나 일치하는지 측정하는 방법입니다. 요약된 내용 중 실제로 원본과 일치하는 비율을 계산합니다.
재현율(Recall): 원본 텍스트에 포함된 중요한 내용이 얼마나 잘 요약되었는지 측정하는 방법입니다. 원본 내용 중 요약된 텍스트에 포함된 비율을 계산합니다.
F1 점수: 정밀도와 재현율을 조화롭게 평가하는 값입니다. 이는 정밀도와 재현율 간의 균형을 맞추기 위해 사용됩니다.

ROUGE의 한계:

단순한 일치 평가: ROUGE는 단어 일치에 의존하기 때문에, 텍스트의 의미나 문맥을 잘 반영하지 못할 수 있습니다. 단순히 단어가 같다고 해서 내용이 잘 요약되었다고 보기 어려운 경우도 있습니다.
다양한 표현 반영 어려움: 같은 의미를 지닌 다른 표현이나 문장 구조를 ROUGE는 잘 인식하지 못합니다. 예를 들어, “개는 짖었다”와 “강아지가 소리쳤다”는 같은 의미이지만, ROUGE에서는 낮은 점수를 받을 수 있습니다.