LLM이 사람처럼 대화하고 글을 생성하는 능력을 가졌다고 해도, 항상 완벽한 것은 아니기에 LLM이 얼마나 잘 작동하는지 평가하는 것이 매우 중요합니다. LLM as a Judge 논문, “Evaluating Large Language Models using LLM-as-a-Judge”을 읽어 보려 합니다.
초보자를 위한 LLM as a Judge 이해하기
서론
LLM이란 무엇인가?
LLM은 대형 언어 모델(Large Language Model)의 약자입니다. 간단히 말해, LLM은 컴퓨터가 사람처럼 텍스트를 이해하고 생성할 수 있도록 만든 인공지능 모델입니다. 예를 들어, 우리가 일상적으로 사용하는 챗봇이나 자동 번역 서비스 뒤에는 LLM이 있습니다. 유명한 LLM으로는 GPT-4와 같은 모델이 있으며, 이들은 방대한 양의 텍스트 데이터를 학습해 질문에 답을 하거나 텍스트를 생성하는 데 사용됩니다.
왜 LLM 평가가 중요한가?
LLM이 사람처럼 대화하고 글을 생성하는 능력을 가졌다고 해도, 항상 완벽한 것은 아닙니다. 때로는 엉뚱한 답변을 하거나 잘못된 정보를 줄 수 있습니다. 그래서 LLM이 얼마나 잘 작동하는지 평가하는 것이 매우 중요합니다. LLM이 실수 없이 정확한 정보를 제공하는지, 사람들이 이해하기 쉽게 설명하는지 등을 확인하는 과정이 바로 LLM 평가입니다. 이를 통해 우리는 LLM을 더욱 개선하고, 사용자들이 더 나은 경험을 할 수 있도록 도울 수 있습니다.
LLM 평가의 어려움
기존 평가 방식의 한계
기존에는 LLM의 성능을 평가하는 방식이 주로 정해진 답변이 있는 문제를 푸는 것이었습니다. 예를 들어, 퀴즈처럼 선택지를 주고 정답을 고르는 방식이죠. 하지만 이런 평가 방식은 실제 대화나 복잡한 질문에 답변하는 LLM의 능력을 제대로 평가하지 못합니다. 왜냐하면, LLM은 단순한 정답 맞히기뿐 아니라, 개방형 질문에도 답변할 수 있어야 하고, 다양한 상황에서 사용자와 자연스럽게 대화할 수 있어야 하기 때문입니다.
인간 선호도와 LLM 성능 평가의 차이
사람들은 챗봇이 단순히 정답만 말해주는 것이 아니라, 얼마나 친절하고, 이해하기 쉽게 설명하는지도 중요하게 생각합니다. 하지만 기존 평가 방식은 이런 인간의 감성적인 부분을 잘 반영하지 못했습니다. 다시 말해, LLM이 기술적으로는 완벽해도, 실제 사용자가 느끼는 만족도와는 차이가 있을 수 있습니다. 그래서 최근에는 LLM이 얼마나 사람들의 기대에 맞는 답변을 하는지도 중요한 평가 요소로 보고 있습니다.
LLM-as-a-Judge란 무엇인가?
LLM 평가자의 개념
LLM-as-a-Judge는 말 그대로 **LLM(대형 언어 모델)**을 평가자로 사용하는 개념입니다. 즉, LLM이 다른 LLM의 답변을 평가하는 방식입니다. 왜 이게 필요할까요? 기존에는 사람이 직접 LLM의 답변을 평가했습니다. 하지만 사람을 동원해서 수많은 답변을 평가하는 것은 시간과 비용이 많이 듭니다. 반면, LLM을 평가자로 사용하면 훨씬 더 빠르고 효율적으로 평가할 수 있습니다.
쉽게 말해, LLM-as-a-Judge는 AI가 AI를 평가하는 시스템입니다. 챗봇처럼 대화하는 LLM이 다른 LLM의 대화 응답이 얼마나 좋은지, 사용자의 질문에 맞게 답했는지 등을 점수로 평가해 줍니다. 이 방식은 인간의 평가를 대체하거나 보완할 수 있는 훌륭한 대안이 됩니다.
왜 LLM을 평가자로 사용하는가?
LLM을 평가자로 사용하는 이유는 간단합니다. 더 빠르고, 더 많이, 더 정확하게 평가할 수 있기 때문입니다. 사람들은 시간도 오래 걸리고, 주관적인 평가를 내릴 수도 있습니다. 하지만 LLM은 일관성 있게 평가할 수 있으며, 수천 개의 답변을 매우 빠르게 분석할 수 있습니다.
또한, LLM은 한 번 학습한 데이터를 바탕으로 계속해서 스스로 개선할 수 있기 때문에 시간이 지남에 따라 더 나은 평가를 제공할 수 있습니다. 즉, LLM을 평가자로 사용하면 효율성과 정확성을 동시에 높일 수 있습니다.
MT-bench와 Chatbot Arena: LLM 평가를 위한 새로운 벤치마크
MT-bench: 다중 회차 질문을 통한 평가
MT-bench는 LLM의 성능을 여러 회차에 걸친 질문으로 평가하는 시스템입니다. 여기서 중요한 점은, LLM이 단순한 단답형 문제를 푸는 것이 아니라, 대화가 이어지는 여러 차례의 질문에 대해 어떻게 반응하는지를 본다는 것입니다. 예를 들어, LLM이 첫 번째 질문에 대답한 후, 그 답변을 기반으로 다음 질문이 나옵니다. 이렇게 이어지는 질문과 답변을 통해, LLM이 얼마나 일관성 있게 대화를 이어나가는지 평가할 수 있습니다.
MT-bench는 다양한 주제에 걸쳐 질문을 던지며, LLM이 실제로 사람과 대화하는 것처럼 자연스럽게 답할 수 있는지를 테스트합니다. 이 방법은 LLM의 대화 능력을 평가하는 데 매우 유용합니다.
Chatbot Arena: 크라우드소싱을 통한 실제 상호작용 평가
Chatbot Arena는 조금 다른 방식으로 LLM을 평가합니다. 이 시스템에서는 실제 사용자들이 두 개의 LLM과 동시에 대화하며, 어느 LLM이 더 나은 답변을 제공하는지 투표합니다. 이 방식은 크라우드소싱을 기반으로 하며, 많은 사람들의 평가를 통해 더 정확한 결과를 얻을 수 있습니다.
Chatbot Arena는 사전에 정해진 질문을 사용하지 않고, 사용자가 자유롭게 질문을 던질 수 있기 때문에 LLM이 실제 상황에서 어떻게 반응하는지를 평가하는 데 매우 효과적입니다. 예를 들어, 사용자는 두 챗봇에게 동일한 질문을 던지고, 어느 챗봇이 더 유용하고 정확한 답변을 했는지 투표로 선택합니다. 이렇게 실제 사용자들의 경험을 바탕으로 LLM을 평가할 수 있는 것이 큰 장점입니다.
LLM 평가자의 유형
LLM 평가를 할 때, LLM-as-a-Judge는 다양한 방법으로 다른 LLM의 답변을 평가할 수 있습니다. 이를 쉽게 설명하자면, LLM이 인간처럼 ‘이 답이 맞는지 틀린지’, ‘어느 답이 더 나은지’ 등을 판단하는 방법이 있습니다. LLM 평가자의 유형은 평가하고자 하는 답변의 특성에 따라 크게 세 가지로 나눌 수 있습니다: 쌍대 비교 평가, 단일 답변 평가, 참조 기반 평가입니다. 각각의 방식은 장단점이 있으며, 어떤 상황에서든 효율적으로 LLM의 성능을 평가할 수 있습니다. LLM 평가자의 사용은 LLM의 발전에 큰 도움을 주고 있으며, 다양한 질문과 답변을 정확하게 분석하는 데 유용한 도구입니다.
쌍대 비교 평가 (Pairwise Comparison)
쌍대 비교 평가는 LLM이 두 개의 답변을 비교해서 어느 쪽이 더 나은지 결정하는 방법입니다. 이 방법은 마치 두 사람이 동일한 질문에 대해 답을 했을 때, 어느 쪽이 더 잘 대답했는지 가리는 것과 같습니다. 평가자가 두 답변을 보고 더 좋은 답변을 선택하거나, 때로는 동점을 선언할 수도 있습니다.
예를 들어:
- 질문: “기후 변화가 무엇인가요?”
- 답변 A: “기후 변화는 지구의 온도가 점차 상승하는 현상입니다.”
- 답변 B: “기후 변화는 대기 중의 온도가 장기간에 걸쳐 변하는 것을 의미합니다.”
LLM 평가자는 이 두 답변을 비교해, 어느 답변이 더 명확하고 정확한지 판단합니다.
장점: 쌍대 비교는 둘 중 더 나은 답을 명확히 고를 수 있기 때문에 평가가 직관적입니다.
단점: 두 개의 답변을 일일이 비교해야 하기 때문에, 평가 대상이 많아지면 시간이 오래 걸릴 수 있습니다.
단일 답변 평가 (Single Answer Grading)
단일 답변 평가는 하나의 답변에 대해 점수를 매기는 방식입니다. 마치 교사가 학생의 시험 답안지를 보고 10점 만점에 몇 점을 줄지 평가하는 것과 비슷합니다. LLM이 한 개의 답변을 보고, 미리 정해진 기준에 따라 점수를 부여합니다.
예를 들어:
- 질문: “기후 변화가 무엇인가요?”
- 답변: “기후 변화는 지구의 온도 변화입니다.”
LLM 평가자는 이 답변이 정확하고 관련성이 있는지를 기준으로 점수를 매깁니다. 예를 들어, 이 답변이 10점 만점에 7점을 받을 수 있습니다.
장점: 이 방식은 간단하고 빠르게 답변의 질을 평가할 수 있습니다.
단점: 세부적인 차이를 구분하기 어려울 수 있으며, 답변에 대한 점수가 주관적일 수 있습니다.
참조 기반 평가 (Reference-Guided Grading)
참조 기반 평가는 모범 답안이 있는 경우에 사용됩니다. LLM은 답변을 평가할 때, 미리 주어진 정답이나 이상적인 답변과 비교하여 평가를 합니다. 이 방식은 특히 수학 문제나 논리적으로 딱 맞는 답이 있는 질문에 유용합니다.
예를 들어:
- 질문: “2 + 2는 무엇인가요?”
- 답변: “4입니다.”
이때, 모범 답안이 “4”로 정해져 있다면, LLM은 이 답변이 정답과 일치하는지 확인하고 평가합니다. 참조 답안이 있기 때문에 평가가 더 정확해집니다.
장점: 정확한 기준에 따라 답변을 평가할 수 있어, 평가가 명확하고 일관성이 있습니다.
단점: 참조 답안이 필요한 경우에만 사용할 수 있습니다. 즉, 개방형 질문에는 적합하지 않을 수 있습니다.
LLM-as-a-Judge의 장점과 한계
확장성 및 설명 가능성
확장성은 LLM을 평가자로 사용하는 가장 큰 장점 중 하나입니다. 사람이 수백 개의 답변을 평가하려면 시간도 오래 걸리고, 비용도 많이 듭니다. 하지만 LLM은 매우 빠르게 수많은 답변을 평가할 수 있습니다. 즉, LLM은 더 큰 규모의 데이터를 짧은 시간 안에 처리할 수 있습니다.
또한, 설명 가능성이란 LLM이 왜 그런 결정을 내렸는지를 설명할 수 있는 능력을 말합니다. LLM은 단순히 점수만 매기는 것이 아니라, 왜 그 답변이 더 좋은지 또는 왜 낮은 점수를 받았는지를 함께 설명할 수 있습니다. 이렇게 하면 평가의 이유를 쉽게 이해할 수 있어 투명성이 높아집니다.
위치 편향, 장황함 편향, 자기 강화 편향 문제
하지만 LLM 평가자는 몇 가지 편향 문제를 가지고 있습니다.
- 위치 편향(Position Bias):
LLM이 첫 번째로 제시된 답변을 더 선호하는 경향을 말합니다. 예를 들어, 두 개의 답변 중 첫 번째로 본 답변이 더 좋다고 평가할 수 있습니다. 이 경우, 두 답변의 순서를 바꾸어도 결과가 동일해야 하지만, 순서에 따라 평가가 달라질 수 있는 문제가 생깁니다. - 장황함 편향(Verbosity Bias):
LLM은 때때로 긴 답변을 더 좋은 답변으로 판단하는 경향이 있습니다. 하지만 길다고 해서 항상 좋은 답변은 아닙니다. 짧고 핵심을 잘 짚은 답변이 더 나을 수도 있지만, LLM은 더 많은 내용을 포함한 답변을 선호할 수 있습니다. - 자기 강화 편향(Self-enhancement Bias):
LLM이 자신의 모델이 만든 답변을 더 긍정적으로 평가하는 경향이 있습니다. 예를 들어, GPT-4가 스스로 생성한 답변을 평가할 때, 그 답변이 실제로는 그다지 좋지 않더라도 높은 점수를 줄 수 있습니다.
이러한 편향 문제는 LLM 평가자의 신뢰성에 영향을 줄 수 있지만, 이를 줄이기 위한 다양한 해결책이 연구되고 있습니다.
LLM 평가자와 인간 평가자의 일치도
확장성 및 설명 가능성
LLM 평가자가 인간 평가자와 얼마나 일치하는지는 중요한 요소입니다. 특히, GPT-4 같은 최신 LLM은 인간 평가자와 매우 높은 일치율을 보이고 있습니다.
GPT-4와 인간 평가자의 높은 일치율
연구에 따르면, GPT-4는 80% 이상의 경우 인간 평가자와 동일한 결정을 내린다고 합니다. 이는 GPT-4가 답변의 질을 인간처럼 잘 판단할 수 있음을 의미합니다. 실제로, 인간들끼리 평가할 때도 100% 일치하지는 않기 때문에, GPT-4의 80% 이상의 일치율은 매우 높은 수준이라고 할 수 있습니다.
모델 간 성능 차이에 따른 평가 일치도
또한, LLM 평가자와 인간 평가자의 일치도는 모델 간 성능 차이에 따라 달라질 수 있습니다. 예를 들어, 성능이 크게 차이 나는 두 모델을 평가할 때는 일치도가 더 높습니다. 이는 더 나은 모델이 명확하게 우수한 답변을 제공하기 때문에, LLM 평가자와 인간 평가자가 쉽게 같은 결론에 도달하는 것입니다.
반면, 성능이 비슷한 모델 간의 비교에서는 평가가 더 어려워질 수 있습니다. 이 경우, LLM과 인간 평가자의 의견이 다를 때가 있을 수 있습니다. 하지만 전체적으로 볼 때, LLM 평가자는 인간 평가자와 매우 유사한 판단을 내리는 것으로 나타났습니다.
LLM 평가에서 인간 선호 벤치마크와 표준화된 벤치마크의 결합
LLM(대형 언어 모델)을 평가할 때, 우리는 두 가지 중요한 방식으로 성능을 측정할 수 있습니다. 하나는 인간 선호 벤치마크, 다른 하나는 표준화된 벤치마크입니다. 두 가지 모두 각기 다른 장점이 있어서, 두 가지 방법을 함께 사용하는 것이 가장 좋습니다.
MT-bench와 Chatbot Arena의 역할
MT-bench와 Chatbot Arena는 LLM 평가를 위한 중요한 도구들입니다. 이 도구들은 LLM이 실제 사용자의 기대에 얼마나 잘 맞추는지 평가하는 데 사용됩니다.
1. MT-bench: 다중 회차 질문을 통한 평가
MT-bench는 여러 단계의 질문을 사용해 LLM을 평가합니다. 여기서 중요한 점은 LLM이 다양한 질문에 일관성 있는 답변을 할 수 있는지를 테스트한다는 것입니다. 예를 들어, LLM에게 처음에는 일반적인 질문을 하고, 그 다음에 그 답변에 기반한 더 복잡한 질문을 던집니다. 이를 통해 LLM이 여러 차례의 대화에서도 논리적으로 일관된 답변을 제공할 수 있는지를 확인합니다.
- MT-bench의 장점: 복잡한 질문에도 답변을 이어가는 능력을 평가할 수 있습니다.
- MT-bench의 역할: LLM이 대화형 질문을 얼마나 잘 처리하는지 테스트합니다.
2. Chatbot Arena: 크라우드소싱을 통한 실제 상호작용 평가
Chatbot Arena는 실제 사용자가 두 개의 LLM과 대화를 나누며, 어떤 LLM이 더 나은 답변을 제공하는지를 투표하는 방식입니다. 이 시스템에서는 사용자가 실제로 질문을 하고 답변을 받은 후, 어느 답변이 더 유용했는지 직접 선택할 수 있습니다. 이 과정에서 익명의 대화 모델이 사용되기 때문에 사용자는 편견 없이 투표할 수 있습니다.
- Chatbot Arena의 장점: 다양한 사용자들이 참여하여 실제 상황에서 LLM을 테스트할 수 있습니다.
- Chatbot Arena의 역할: 실제 사용자 경험을 바탕으로 LLM이 얼마나 유용한 답변을 제공하는지 평가합니다.
종합적인 평가의 필요성
MT-bench와 Chatbot Arena는 각각 중요한 역할을 하지만, 둘 중 하나만으로는 충분하지 않습니다. 왜냐하면 LLM은 단순히 기술적인 능력뿐만 아니라, 사용자가 얼마나 만족하는지도 중요한 요소이기 때문입니다. 표준화된 벤치마크는 LLM의 정확성을 평가하는 데 적합하지만, 인간 선호 벤치마크는 LLM이 실제 사람들과의 상호작용에서 얼마나 잘 작동하는지를 확인할 수 있습니다.
- 표준화된 벤치마크: 정해진 문제를 푸는 능력을 평가.
- 인간 선호 벤치마크: 실제 사용자가 느끼는 만족도를 평가.
따라서 종합적인 평가는 LLM이 얼마나 정확하고, 유용하며, 사람들에게 적합한지를 한꺼번에 평가하는 데 매우 중요합니다. MT-bench와 Chatbot Arena를 함께 사용하면, LLM이 기술적 성능과 사용자 만족도 모두에서 뛰어난지 확인할 수 있습니다.
결론
LLM(대형 언어 모델)을 평가하는 데 있어서 LLM-as-a-Judge는 빠르고 효율적인 방법을 제공합니다. 기존에 사람이 일일이 평가하던 방식보다 더 많은 데이터를 빠르게 평가할 수 있기 때문에, 앞으로 더 많은 분야에서 활용될 가능성이 큽니다.
LLM-as-a-Judge의 가능성
LLM-as-a-Judge는 LLM을 평가하는 데 있어 미래의 중요한 도구가 될 것입니다. 특히, 확장성과 설명 가능성 덕분에 수천 개의 답변을 빠르고 일관되게 평가할 수 있습니다. 또한, 사람과 유사한 평가를 제공하며 비용과 시간을 절약할 수 있습니다. 앞으로 더 발전하게 된다면, 다양한 분야에서 자동화된 평가 도구로 자리 잡을 것입니다.
하지만, 여전히 몇 가지 해결해야 할 문제가 있습니다. 위치 편향이나 장황함 편향 같은 문제가 남아 있으며, LLM이 스스로 만든 답변을 더 긍정적으로 평가하는 자기 강화 편향도 연구가 필요합니다. 이러한 문제들이 해결되면, LLM-as-a-Judge는 더욱 강력한 도구로 발전할 수 있을 것입니다.
향후 연구 방향
LLM-as-a-Judge의 발전을 위해서는 다음과 같은 연구 방향이 중요합니다:
- 편향 문제 해결: 위치 편향이나 자기 강화 편향 같은 문제를 줄이기 위한 추가 연구가 필요합니다.
- 더 다양한 벤치마크 개발: 현재 사용되는 MT-bench와 Chatbot Arena 외에도, 다양한 평가 방법이 개발되어야 합니다. 특히, 창의적인 질문이나 감성적인 답변을 평가하는 도구도 필요합니다.
- LLM의 윤리적 평가: LLM이 제공하는 답변이 안전하고 윤리적인지 평가할 수 있는 시스템도 중요합니다. LLM이 정확한 정보뿐만 아니라 해롭지 않은 정보를 제공하는지도 검토해야 합니다.
[용어 설명]
LLM (Large Language Model):
대형 언어 모델을 의미하며, 컴퓨터가 사람처럼 텍스트를 이해하고 생성하는 데 사용됩니다. GPT-4 같은 모델이 대표적입니다.
MT-bench:
여러 회차에 걸친 질문을 통해 LLM의 대화 능력을 평가하는 시스템입니다. LLM이 질문에 일관된 답변을 제공할 수 있는지를 확인합니다.
Chatbot Arena:
실제 사용자가 두 개의 LLM과 대화하며 어느 답변이 더 나은지 투표하는 시스템입니다. 크라우드소싱 방식으로 다양한 사람들의 의견을 모아 평가합니다.
쌍대 비교 (Pairwise Comparison):
LLM이 두 개의 답변 중 어느 것이 더 나은지 선택하는 평가 방법입니다. 간단하면서도 직관적인 방식으로 평가할 수 있습니다.
단일 답변 평가 (Single Answer Grading):
LLM이 하나의 답변에 대해 점수를 매기는 방식입니다. 답변의 질을 점수로 평가하여, 어느 정도로 정확한 답변인지 확인할 수 있습니다.
Origianl 논문: