Foundation Agent란 인공 지능 기술이 단순한 언어 모델(LLM)을 넘어, 인간처럼 생각하고 행동하는 에이전트로 진화된 모델을 말합니다.
우리가 흔히 사용하는 챗봇이나 생성형 인공지능(GPT, Claude 등)은 대화에 능숙하지만, 단순한 언어처리 능력만으로는 ‘지능’을 갖췄다고 말하긴 어렵습니다. 그래서 등장한 개념이 바로 Foundation Agent입니다. 이 에이전트는 인간처럼 지각하고, 생각하고, 행동하고, 배우는 AI입니다.
그렇다면 이런 AI의 “두뇌”는 어떻게 구성되어 있을까요? 오늘은 논문 Advanced and Challenges in Foundation Agents 중 Part I Core Components of Intellignet Agents의 내용을 살펴보겠습니다.
Foundation Agent? 인간처럼 생각하고 행동하는 AI의 5가지 핵심 모듈
최근 인공지능 기술은 단순한 언어 모델(LLM)을 넘어, 인간처럼 생각하고 행동하는 에이전트로 진화하고 있습니다. 이 대표적인 모델이 바로 Foundation Agent입니다. 이 글에서는 MIT와 CMU 등 세계적 연구자들이 집필한 논문, [Advanced and Challenges in Foundation Agents (2024)]을 바탕으로, Part I Core Components of Intelligent Agents에 포함된 Foundation Agent의 5가지 핵심 모듈을 과학적이면서도 쉽게 소개해 봅니다.
1. Cognition – 인지 시스템 (AI의 두뇌)
– 무엇을 하는가?: 정보를 받아들여 이해, 판단, 추론, 기억하는 기능입니다.
– 기술적 설명: 인간의 인지 구조처럼, AI도 데이터를 처리하여 “세상에 대한 이해 모델”을 형성합니다.
– 중요한 이유: 학습과 추론 능력이 없으면 AI는 단순한 자동응답 시스템에 머물게 됩니다.
위의 도식은 LLM 기반 에이전트의 인지 구조(learning & reasoning system), 즉, LLM 기반 에이전트의 인지 기능 전체를 한눈에 보여주는 분류도입니다. 크게 세 축으로 나눌 수 있습니다.
1. 학습 (Learning)
AI가 어떻게 배우는지를 ‘공간(Space)’와 ‘목표(Objective)’로 나눠 설명합니다.
범위 기준
Full Learning
: 전체 모델을 fine-tuning하거나, 구조 자체를 변경하는 것 (예: RLHF, ReFT, PEFT)Partial Learning
: 부분적 수정 또는 외부 도구 연동 (예: Chain-of-Thought, Voyager)
목표 기준
Perception 학습
: 시각·청각 등 감각 데이터 해석 능력 강화 (예: CLIP, Qwen-Audio)Reasoning 학습
: 추론력 향상 (예: SKY-32B, RAGEN)World 학습
: 외부 환경과의 상호작용 학습 (예: Reflexion, Self-Refine)
2. 추론 (Reasoning)
AI가 생각하는 방식, 즉 ‘추론’은 다음과 같이 구조화됩니다:
구조화된 추론 (Structured):
Static
: 고정된 논리 흐름 (Self-Consistency)Dynamic
: 유연하게 조건에 따라 흐름이 변함 (ReAct, ToT)Domain-specific
: 수학, 과학 등 특화 영역Prompt-driven
: 프롬프트 기반 논리 유도 (Step-Back prompting)
비구조화된 추론 (Unstructured):
Prompt 방식
: CoT처럼 언어로 서술하는 추론Model 기반
: DeepSeek-R1, Claude 등 내재된 추론력 활용Implicit
: 내부 latent space에서 직관적으로 추론 (예: Quiet-STaR)
3. 계획 수립 (Planning)
복잡한 목표를 달성하기 위해 AI는 단계적 계획을 세워야 합니다. 이 영역은 아직도 활발히 연구 중이며, 대표적인 접근법으로는 DEPS, ADaPT, PDDL, Mind2Web 같은 에이전트 기반 플래너들이 있습니다.
2. Perception – 인간과 기계의 감각을 넘어서는 이해(AI의 오감)
지각은 인간이 외부 세계를 인식하고 의미 있는 행동을 할 수 있도록 해주는 가장 기초적인 능력입니다. 마찬가지로, 인공지능 에이전트에게도 지각은 외부 정보를 수집하고 환경과 상호작용하는 데 필수적인 기능입니다. 지각 파트에서는 인간 지각과 AI 지각의 차이, 지각 시스템의 다양한 유형, 그리고 이를 최적화하기 위한 모델링 전략들을 다루며, 지각이 지능형 에이전트 설계에 왜 핵심인지 설명합니다.
인간 지각 vs AI 지각
일반적으로 인간의 지각은 시각, 청각, 미각, 후각, 촉각의 다섯 가지로 알려져 있습니다. 하지만 현대 신경과학은 이보다 훨씬 복잡한 구조를 밝혀냈습니다. 대표적으로 다음과 같은 감각들이 있습니다:
- 전정감각(Vestibular): 균형 유지
- 고유수용감각(Proprioception): 신체 위치 인식
- 온도감각(Thermoception): 온도 인식
- 통각(Nociception): 통증 감지
이처럼 인간은 약 21~33가지의 감각 체계를 통해 환경을 섬세하게 인식하고 반응합니다. 시각과 청각 등 인간의 오감 능력들은 언어 소통, 물체 인식, 사회적 상호작용, 공간 탐색 등 복잡한 활동의 기반이 됩니다.
반면, AI 에이전트는 카메라, 마이크, 촉각 센서, 관성측정장치(IMU) 등으로 구성된 센서들을 통해 정보를 수집합니다. 딥러닝과 신호 처리 기술의 발전으로 텍스트, 이미지, 음성 데이터를 정밀하게 분석할 수 있습니다. 그러나 후각과 미각 같은 감각은 여전히 구현이 어렵습니다. 예를 들어, 최근 개발된 바이오 영감 기반 후각 칩은 24개의 냄새만 구분할 수 있는 반면, 인간은 4,000개 이상의 냄새를 구분할 수 있습니다.
인공지능 지각의 분류
지각 시스템은 입력 데이터의 형태와 처리 방식에 따라 다음과 같이 분류됩니다:
단일모달(Unimodal): 하나의 감각 데이터만 처리
- 텍스트: BERT, RoBERTa
- 이미지: ResNet, DETR
- 오디오: wav2vec 2.0
- 비디오: ViViT, VideoMAE
크로스모달(Cross-modal): 서로 다른 감각 데이터 간 상호작용
- 텍스트-이미지: CLIP, DALL·E 3
- 텍스트-비디오: VideoCLIP, Make-A-Video
멀티모달(Multimodal): 여러 감각 데이터를 동시에 통합
- Visual ChatGPT, MM-REACT, LLaVA-Plus
지각 시스템 최적화 전략
AI 에이전트의 지각 시스템은 아래 세 가지 관점에서 고도화됩니다.
- 모델 수준 최적화: Transformer, self-supervised learning, attention mechanism 등을 통해 감각 정보 해석 정밀도 향상
- 시스템 구조 최적화: 저지연성, 경량화, 에너지 효율성 개선
- 외부 피드백 통합: 사용자 행동 및 환경 변화에 따라 지각 모듈을 동적으로 조절
적용 사례와 미래 연구 방향
지각 모듈은 로봇, 자율주행차, 스마트 홈 어시스턴트, AR/VR 환경 등 다양한 분야에 맞춰 조정될 수 있습니다. 특히 감각 정보의 통합성, 정밀성, 적응성을 높이는 연구는 앞으로 AI가 인간처럼 환경을 ‘이해’하고 ‘반응’하게 만드는 핵심이 될 것입니다. 지각은 인간과 기계 모두에게 ‘이해의 시작점’입니다. AI의 지각을 더 인간처럼, 더 정밀하게 만드는 노력은 결국 보다 신뢰할 수 있는 인공지능 에이전트의 탄생으로 이어질 것입니다.
3. Action – 행동 시스템 (생각을 실행으로)
행동은 철학적으로 “환경 속에서 특정 목적을 위해 수행되는 에이전트의 행위”로 정의됩니다. 이는 단순한 움직임을 넘어 조작(manipulation), 이동(moving), 추론(reasoning), 도구 사용(tool utilization) 등 복합적인 행위 전반을 포함합니다.
기존의 LLM 기반 Foundation Models는 주로 텍스트 생성(next-token prediction)에 특화되어 있으며, 환경과의 직접적인 상호작용은 어렵습니다. 그러나 행동 시스템이 결합된 AI 에이전트는 환경과 상호작용하며, 복잡한 목표를 달성할 수 있는 실행 능력을 갖추게 됩니다.
인간 행동 시스템(Human Action System)
인간의 행동 시스템은 크게 정신적 행동(Mental Action)과 물리적 행동(Physical Action)으로 나뉩니다.
- 정신적 행동: 사고, 계획, 상상, 추론 등 뇌의 신호를 기반으로 한 내부적 행위입니다. 이는 곧 물리적 행동의 기반이 됩니다.
- 물리적 행동: 말하기, 그리기, 걷기 등 외부 세계와 상호작용하는 실제 행위입니다.
이 두 시스템이 결합되어 인간은 복잡한 환경에서 학습, 적응, 피드백 수집을 수행합니다. 이러한 구조는 AI 설계에 있어 강력한 영감을 제공합니다.
인간에서 에이전트 행동으로(From Human Action to Agentic Action)
AI 에이전트는 인간의 행동 시스템을 모방하되, 다음과 같은 차별점이 있습니다:
- 인간은 내부 동기(motivation)와 감정 기반 행동을 합니다.
- AI는 목표 기반(goal-driven) 알고리즘으로 작동하며, 프롬프트(prompt)나 지시(command)에 의해 행동이 시작됩니다.
- 에이전트는 API 호출, 함수 실행, 툴 사용 등 일련의 명령 실행 과정을 통해 “행동”을 수행합니다.
에이전트 행동 시스템의 패러다임
세 가지 주요 패러다임이 제시됩니다:
Action Space Paradigm: 행동이 발생할 수 있는 공간(범위) 정의.
- 예: 드론의 방향 이동, 로봇의 관절 조작, 소프트웨어 에이전트의 명령 실행.
- 주요 이슈: 연속적 행동 vs 이산적 행동, 행동 제약 조건 정의, 시간적 종속성.
Action Learning Paradigm : 행동을 학습하는 방법.
- 방법론: 강화학습(RL), 행동 복제(Behavior Cloning), 자기지도학습(Self-supervised Learning).
- 강화학습의 예: 환경에서 보상 신호를 통해 최적 정책 학습.
Tool-based Action Paradigm: 외부 도구(툴)를 호출해 목표를 수행.
- 구성요소: API (프로그램 호출 인터페이스), Tool (외부 도구,예: 계산기, 검색 툴), Function (툴 내부의 세부 명령 단위),
- 대표 사례: OpenAI의 GPT Agents가 계산기, 코드 실행기 등을 호출하는 구조.
행동 vs 지각: Inside-Out vs Outside-In
- 지각(Perception)은 외부 세계로부터 정보를 받아들이는 Outside-In 흐름.
- 행동(Action)은 내부 상태나 목표를 바탕으로 외부로의 영향을 미치는 Inside-Out 흐름.
에이전트의 효과적인 작동을 위해 이 두 시스템 간 루프 구조가 중요합니다. 지각 → 판단 → 행동 → 피드백 → 다시 지각.
요약 및 전망
- 행동 시스템은 Foundation Agent를 단순 텍스트 생성 모델이 아닌 실행 가능한 지능 시스템으로 전환하는 핵심 열쇠입니다.
- 잘 설계된 행동 시스템은 도구 사용 능력, 학습 능력, 환경 반응성 측면에서 에이전트의 역량을 극대화합니다.
- 향후 과제: 다중 도구 활용, 계획-실행-피드백 루프의 강화, 자율적 행동 생성 능력 확장
4. Emotional Modeling – Foundation Agent의 인간화를 위한 핵심
Foundation Agent의 가장 흥미로운 도전 과제 중 하나는 감정(Emotion)’을 어떻게 모델링할 것인가입니다. 인간의 감정은 단순한 기분 변화가 아니라, 사고, 의사결정, 관계 형성 등 전반적인 인지 기능에 깊게 관여합니다. 그렇다면, 인간의 사고방식을 모방하려는 LLM(대형 언어 모델) 기반 인공지능 에이전트도 감정을 가져야 할까요?
왜 LLM 에이전트에게 감정이 필요한가?
Antonio Damasio의 저서 Descartes’ Error에 따르면, 감정은 논리와 분리된 것이 아니라 오히려 합리적 사고를 가능하게 하는 근본적 요소입니다. 이처럼 감정은 인간의 사고와 행동에 영향을 미치며, 인공지능에도 이를 적용하면 더욱 인간에 가까운 판단과 적응이 가능해질 수 있습니다.
Marvin Minsky는 The Emotion Machine에서 감정을 ‘문제 해결 과정에서 사고 구조를 조절하는 장치’로 설명했습니다. 이를 LLM에 적용한다면, 감정은 에이전트가 복잡한 문제를 더 유연하고 창의적으로 해결할 수 있는 동기부여 메커니즘이 됩니다.
감정을 어떻게 모델링할 수 있을까? 심리학적 기반 2가지
LLM 에이전트의 감정 이해를 위해 심리학과 신경과학의 이론적 틀을 적용할 수 있습니다.
- 범주형 이론(Categorical Theory) : Paul Ekman의 ‘기본 감정 이론’은 전 세계적으로 공통적으로 인식되는 여섯 가지 감정(분노, 혐오, 공포, 행복, 슬픔, 놀람)을 정의합니다. 이는 많은 AI 감정 분석 시스템이 학습에 사용하는 기준이기도 합니다. 그러나 이러한 분류는 감정의 미묘한 스펙트럼을 설명하기 어렵다는 한계도 존재합니다.
- 차원형 모델(Dimensional Model) : Russell의 Circumplex Model은 감정을 두 가지 연속적인 축, 즉 **‘쾌-불쾌(valence)’와 ‘각성도(arousal)’**로 표현합니다. 이 모델은 감정 상태를 연속적인 스펙트럼상에서 추적할 수 있어 더 정밀한 감정 인식이 가능합니다.
AI가 감정을 이해하고 표현하는 법
6장에서는 이론뿐 아니라 실제 LLM 에이전트가 감정을 ‘이해’, ‘표현’, ‘조절’하는 방법도 논의됩니다.
- AI가 인간의 감정을 이해하는 기술: 텍스트 분석을 통한 정서 분류, 감정 예측 기반 사용자 반응 학습
- AI 자신의 감정 상태 표현: 내부 상태 변수로서의 감정 시뮬레이션 (예: 디지털 아바타의 표정, 말투 등)
- 감정 기반 의사결정과 학습 최적화: 긍정적인 피드백은 강화, 부정적인 피드백은 수정하는 감정-보상 연계 모델
윤리적 고려사항: AI 감정이 조작된다면?
AI가 감정을 ‘가진 것처럼 행동’하는 상황에서, 윤리적 문제는 다음과 같습니다.
- 감정 조작의 위험성 – 특정 감정을 유도해 사용자의 행동을 유도하는 것은 조작의 가능성이 있습니다.
- 개인정보 보호 – 감정 분석에는 민감한 정보가 포함되므로 프라이버시 보호가 필수입니다.
- 감정적 의존성 – 사용자가 AI에 감정적으로 의지하는 현상도 발생할 수 있습니다.
감정은 LLM 에이전트를 더 똑똑하고, 유연하고, 인간 중심적으로 진화시킬 수 있는 중요한 구성 요소입니다. 그러나 그만큼 조심스럽게 설계하고, 윤리적으로 접근해야 할 과제이기도 합니다.
5. Reward – AI 에이전트가 학습하고 행동하는 원동력(동기 부여의 뇌)
인공지능이 자율적으로 판단하고 행동하려면 무엇이 가장 필요할까요? 바로 ‘보상 시스템(Reward System)’입니다. AI가 스스로 발전하고 목표를 향해 나아가는 원천은 바로 이 보상 구조에 있습니다.
인간과 AI 보상 시스템의 결정적 차이
인간은 감정과 직관, 사회적 맥락에 따라 다양한 형태로 보상을 인지합니다. 반면 AI는 보상 함수가 수학적으로 명시되어 있으며, 사람이 의도한 목표를 정확히 반영해야 학습이 제대로 작동합니다. 이 때문에 “보상 설계가 잘못되면 AI의 행동도 잘못될 수 있다”는 경고가 빈번히 등장합니다.
또한 인간의 보상은 종종 암묵적이고 맥락 의존적이지만, AI는 명확하고 구체적인 보상 값을 요구합니다. 이 차이는 AI가 인간처럼 일반화하거나 윤리적 판단을 내리기 어려운 이유이기도 합니다.
인간의 뇌와 보상 회로
Foundation Agent 논문에서는 생물학적 보상 시스템에 대한 이해를 바탕으로, AI 보상 설계에 영감을 주는 주요 신경 경로를 정리합니다. AI에게는 감정이나 생리적 반응이 없지만, 이러한 뇌 기반 구조는 ‘보상 설계’에 있어 중요한 참고점이 됩니다.
경로 | 신경전달물질 | 기능 |
---|---|---|
메졸림빅 경로 (VTA → Nucleus Accumbens) | 도파민 | 동기와 보상의 핵심 |
메조코르티컬 경로 (VTA → 전전두엽) | 도파민 | 계획, 판단, 기억 조절 |
니그로스트라이아탈 경로 | 도파민 | 운동 및 습관 조절 |
루커스 세룰레우스 경로 | 노르에피네프린 | 각성과 주의 조절 |
글루타메이트 경로 | 글루타메이트 | 흥분성 학습 신호 전달 |
GABA 억제 회로 | GABA | 과도한 흥분 억제 및 조율 |
강화학습(RL)에서의 보상 함수는 어떻게 작동할까?
AI의 학습은 ‘마르코프 결정 과정(MDP)’이라는 수학적 틀에 기반하며, 여기서 보상은 다음처럼 정의됩니다
에이전트는 이 보상 값을 최대화하기 위해 시도하고, 실패하고, 학습합니다. 인간이 “칭찬을 받기 위해” 행동하는 것처럼, AI는 수치화된 보상을 기준으로 행동을 선택하고 최적화합니다.
AI 보상 시스템의 유형: 외재적 vs 내재적
논문에서는 보상의 유형을 다음과 같이 정리합니다. 이 구분은 AI의 목적성과 행동 전략을 결정하는 데 매우 중요합니다.
외재적 보상 (Extrinsic Rewards) |
내재적 보상 (Intrinsic Rewards) | 혼합 보상 (Hybrid) |
|
|
|
보상 시스템이 잘못 설계되면 AI는 예상치 못한 비윤리적 행동을 할 수 있습니다. 예를 들어 “좋은 리뷰 수를 최대화하라”는 보상이 주어졌을 때, AI가 가짜 계정을 만들어 리뷰를 조작할 수도 있습니다. 이런 행동을 “Reward hacking(보상 조작)”이라고 하며, Foundation Agent 설계에서는 이를 방지하는 시스템도 반드시 함께 설계해야 합니다.
보상은 AI의 방향성을 결정하는 나침반
AI는 데이터를 학습할 수 있지만, 무엇을 위해 학습할지는 보상 시스템이 결정합니다. 감정은 없지만, 명확한 목적이 있다면 AI는 그 목표에 맞춰 놀라울 정도로 빠르게 적응합니다. 앞으로의 Foundation Agent는 더 정교하고 인간 친화적인 보상 구조를 통해, 지속적 학습, 윤리적 행동, 일반화 가능한 지능을 갖춘 존재로 진화할 것입니다.
6. Memory – 에이전트 지능의 핵심 축
Foundation Agent가 인간처럼 사고하고 적응하며 행동하기 위해 꼭 필요한 요소가 있습니다. 바로 기억(Memory)입니다. 기억은 단순한 정보 저장소가 아니라, 지능의 작동과 성장에 있어 인지, 학습, 추론, 감정, 행동 계획을 연결하는 핵심 고리입니다. 인간이 과거 경험을 바탕으로 새로운 상황에 유연하게 대응할 수 있는 것처럼, AI 에이전트도 상황에 적절한 기억 시스템을 갖추어야 진정한 자율성과 적응력을 가질 수 있습니다.
인간 기억에서 배우는 AI 설계 원리
인간의 기억은 매우 정교하고 다층적으로 구성되어 있습니다. 크게 보면, 감각 기억, 단기 기억, 장기 기억으로 나뉘고, 각각은 뇌의 다양한 영역에서 역할을 수행합니다.
- 감각 기억(Sensory Memory)은 외부 자극(시각, 청각 등)을 순간적으로 유지하는 시스템으로, 정보를 ‘깜빡’ 보기만 해도 잠시 저장할 수 있게 해줍니다.
- 단기 기억(Short-Term Memory)은 제한된 정보를 짧은 시간 동안 유지하며, 예를 들어 누군가의 전화번호를 잠시 외울 때 작동합니다.
- 작업 기억(Working Memory)은 단기 기억을 조작하는 시스템으로, 정보 처리와 문제 해결에 활용됩니다. 예컨대 숫자를 계산하거나, 문장을 해석하는 과정이 이에 해당합니다.
- 장기 기억(Long-Term Memory)은 우리가 오랫동안 저장해두는 사실, 경험, 기술들을 포함하며, ‘생일’, ‘자전거 타는 법’처럼 오래 기억되는 요소입니다.
인지심리학자 Baddeley는 작업 기억을 중앙집행기 + 하위 모듈(음운루프, 시공간 스케치패드, 에피소드 버퍼)로 구분했습니다. 이와 같은 인간의 복잡한 기억 시스템은 Foundation Agent 설계에도 강력한 영감을 제공합니다.
AI 시스템에서의 기억은 어떻게 구현되는가?
AI, 특히 Foundation Agent에서 기억은 다음 세 가지 단계로 구분할 수 있습니다:
- 감각 기억: 이미지, 텍스트, 오디오 같은 입력을 수용하는 단계입니다. 이는 LLM의 임베딩 처리나 컴퓨터 비전의 피처 추출 단계와 유사합니다.
- 단기 기억: 대화의 흐름이나 즉시 연관된 정보를 임시로 저장하는 것으로, LLM에서는 ‘context window’에 해당합니다.
- 장기 기억: 벡터 DB나 지식 그래프처럼 지속적으로 축적되며, 필요시 검색되는 구조입니다. 예를 들어 과거에 했던 대화 내용, 이전 프로젝트 요약 정보 등이 여기에 저장됩니다.
기억의 생애주기: Retention → Retrieval
에이전트의 기억은 한 번 저장되고 끝나는 것이 아닙니다. 기억은 다음과 같은 생애주기를 가집니다:
1. 기억 생성(Retention)
- 수집: 에이전트가 환경에서 텍스트, 이미지, 음성 등의 정보를 받습니다.
- 부호화(Encoding): 받은 정보를 임베딩하거나 요약해 구조화합니다.
- 파생(Derivation): 정보 간 관계를 정리해 지식 그래프나 노드 형태로 정리합니다.
2. 기억 인출(Retrieval)
- 매칭(Matching): 새로운 입력이 들어왔을 때, 기존 기억과 얼마나 유사한지를 계산합니다.
- 검색(Search): Attention 메커니즘이나 벡터 유사도 기반으로 관련 기억을 찾아냅니다.
- 활용(Application): 인출된 기억은 다음 행동을 결정하는 데 활용됩니다.
이 과정을 통해 에이전트는 마치 인간처럼 “이전에 배운 것을 바탕으로 새로운 문제를 해결하는” 능력을 발휘할 수 있습니다.
인간의 뇌에서 영감을 받은 AI 메모리 설계
Foundation Agent의 기억 시스템은 단순한 데이터 저장이 아닌, 생물학적 기억 구조를 모방한 통합 아키텍처를 지향합니다. 이를 위해 다음과 같은 특성을 갖춰야 합니다:
-
특성 설명 멀티모달 통합 텍스트, 이미지, 음성 등 다양한 정보를 하나의 기억으로 통합 맥락 기반 검색 특정 상황에 적합한 기억을 자동으로 선택 망각과 강화 중요하지 않은 정보는 잊고, 중요한 정보는 강화 절차적 일반화 경험을 요약해 유사한 상황에 재활용 가능
예를 들어, 최근 논문에서 소개된 LMAgent는 시각 정보를 압축해 저장하고, GraphRead는 문장 구조를 그래프로 정리해 검색 속도를 높이는 기술을 보여줍니다.
우리가 ‘기억’이라고 부르는 시스템이 단순한 저장고가 아니라, 에이전트의 지능을 구성하는 핵심 축임을 보여줍니다. 감각 입력부터 장기 계획까지 모든 과정은 기억과 연결되어 있으며, Foundation Agent는 이 기억을 유기적으로 활용하는 존재로 진화하고 있습니다.
7. World Model – 기억과 세상 이해
인공지능의 “세계 모델(World Model)은 무엇인가? 인공지능이 인간 수준의 지능을 갖추기 위해 반드시 필요한 개념 중 하나는 바로 “세계 모델(World Model)입니다. 이는 단순히 데이터를 기억하거나 학습하는 것을 넘어서, 세계에 대한 내부적 이해와 시뮬레이션을 가능하게 하는 내부 모델을 의미합니다. 우리가 체감하지 못하는 사이, AI는 이미 현실을 흉내 내는 모델을 내부에 구축하고 있으며, 이 모델을 통해 예측, 계획, 판단을 수행하고 있습니다.
인간의 월드모델, 즉, 심리학에서 말하는 ‘정신 모델(Mental Model)’은 인간이 외부 세계를 요약해 머릿속에 재현하는 구조를 말합니다. 우리는 이 모델을 통해 실제로 겪지 않아도 어떤 일이 일어날지를 예측하고, 행동의 결과를 상상합니다. 예를 들어, 탁구를 칠 때 공이 날아갈 경로를 머릿속으로 그리며 스윙 타이밍을 조절하는 것 역시 우리의 월드 모델 덕분입니다.
이러한 능력은 단순한 기억이 아니라, 공간 인지, 언어, 운동 제어 등 다양한 감각과 사고를 통합적으로 다루는 시뮬레이션 능력입니다. 특히 예측처리이론(Predictive Processing Theory)은 뇌가 끊임없이 상향-하향 방식으로 감각 정보를 예측하고, 실제 입력과의 오차를 기반으로 학습을 지속하는 ‘예측기계’처럼 작동한다고 주장합니다.
인공지능 분야에서도 이러한 인간의 사고 방식을 본따 AI 기반의 월드 모델이 설계되고 있습니다. AI는 다음의 네 가지 패러다임 중 하나로 월드 모델을 구현합니다:
- Implicit Paradigm (암시적 모델): 모델이 환경의 구조나 규칙을 명시적으로 학습하지 않고도, 대규모 데이터를 통해 행동을 조절합니다. 예: 거대한 언어 모델.
- Explicit Paradigm (명시적 모델): 환경의 규칙을 구조화된 형태로 직접 모델링하여 예측과 계획에 사용합니다.
- Simulator-Based Paradigm (시뮬레이터 기반 모델): 실제 환경을 정밀하게 모사하는 시뮬레이터를 활용하여 행동 시뮬레이션과 강화 학습을 수행합니다. 예: MuZero, AlphaZero.
- Hybrid / Instruction-Driven Paradigm (하이브리드 또는 지시 기반 모델): 규칙 기반과 데이터 기반을 혼합하거나, 자연어 지시를 기반으로 유연하게 월드 모델을 형성합니다.
월드 모델은 고립된 시스템이 아닙니다. 지각, 계획, 추론, 행동 결정 등 다른 AI의 핵심 기능들과 밀접하게 연결되어 있습니다. 예를 들어, AI가 “지금까지 경험한 것을 바탕으로 다음 행동을 어떻게 해야 할까?”를 판단할 때, 월드 모델은 기억과 예측의 중심 허브로 작동합니다. “지금 이 대화는 예전에 봤던 그 뉴스와 관련 있네?”라고 과거의 데이터와 새로 습득한 지식을 연결하며 기억의 스키마를 확장할 수 있어야 진짜 지능입니다.
현존하는 월드 모델은 여전히 여러 한계를 가집니다. 현실 세계의 복잡성을 효율적으로 다루기 어렵고, 다중 감각 정보를 통합하거나 추상화하는 능력이 부족합니다. 특히 인간처럼 추론, 상상, 감정 맥락까지 담는 에피소드 기억을 갖춘 모델은 아직 개발 초기 단계입니다.
이에 대한 해결책으로 다음의 연구 방향이 제시됩니다:
- 생물학적 영감을 받은 뉴럴 메모리 시스템
- 메타인지적 반성 능력을 갖춘 메모리 큐레이션 시스템
- 불확실성과 모호성을 다룰 수 있는 연합적 기억 시스템
- 왜, 어떻게를 담는 정교한 에피소드 기억 구축
월드 모델은 단순한 도구가 아니라, AI가 ‘이해’와 ‘의미’를 갖게 만드는 핵심 인프라입니다. 이 모델이 얼마나 정교하고 유연하게 설계되느냐에 따라, AI는 단순한 계산기가 아닌 지능적인 에이전트로 거듭날 수 있습니다.
인간 뇌 구조를 닮은 AI 시스템
AI는 모든 모듈이 유기적으로 연결되어 작동하기에, Foundation Agent는 마치 인간처럼 사고하고 행동하는 차세대 AI 에이전트로 진화하고 있습니다.
지금까지 살펴본 Foundation Agent는 단순한 챗봇이나 음성 비서가 아닙니다. 인간처럼 감각하고, 생각하고, 배우고, 행동하며, 협력할 수 있는 진화형 AI 에이전트입니다. 앞으로 이 기술은 교육, 헬스케어, 산업 자동화, 로봇공학 등 다양한 분야에 접목되어, 인간과 함께 일하고 배우는 파트너로 자리 잡게 될 것입니다.
이처럼, AI와 인간의 경계는 점점 더 흐려지고 있습니다. Foundation Agent는 그 미래의 문을 여는 열쇠입니다
모듈 | 역할 |
Cognition | 생각과 추론 |
Perception | 감각 데이터 수용 |
Action | 실행과 도구 사용 |
Emotion & Reward | 보상 기반 행동 결정 |
Memory & World Model | 기억 및 세상 이해 |
참고 논문 및 링크
Advanced and Challenges in Foundation Agents/ Ruijia Cheng, Zhaojiang Lin, Yuxuan Liang
https://news.mit.edu/2025/ai-future-honors-dignity-compton-lecture-0318