말랑말랑제리스타일

강화 학습에서의 에이전트와 환경: 역할과 상호작용 구조 이해하기 본문

프로그래밍/강화학습

강화 학습에서의 에이전트와 환경: 역할과 상호작용 구조 이해하기

제리제리 2025. 5. 9. 09:42

강화 학습은 에이전트가 환경과 상호작용하며 학습해 나가는 구조로 이루어집니다.
이 둘의 관계를 명확히 이해하는 것이 전체 흐름을 파악하는 데 매우 중요합니다.

이번 글에서는 에이전트(agent)와 환경(environment)이 각각 어떤 역할을 하며,
어떻게 상호작용하면서 학습이 이뤄지는지를 살펴보겠습니다.

에이전트(Agent)란?

에이전트는 행동을 결정하고 보상을 받으며 학습하는 주체입니다.
강화 학습에서의 주인공이라고 보면 됩니다.

에이전트는 현재 상태(state)를 관찰하고,
정책(policy)을 기반으로 행동(action)을 선택한 뒤,
그 결과로 보상(reward)을 받습니다.

예시

자율주행차 시뮬레이션: 자동차가 에이전트

게임 AI: 게임 내 플레이어 캐릭터가 에이전트

로봇 제어 문제: 팔 움직임을 제어하는 로봇이 에이전트

 

에이전트는 이 과정을 반복하면서 보상이 높은 방향으로 정책을 수정해 나갑니다.

환경(Environment)이란?

환경은 에이전트가 상호작용하는 외부 세계입니다.
에이전트가 어떤 행동을 했을 때, 그에 따른 결과를 계산해주는 역할을 합니다.

즉, 에이전트의 행동을 받아 상태를 변화시키고, 보상을 반환하는 시스템이라고 보면 됩니다.

환경이 하는 일

  1. 에이전트로부터 행동(action)을 받음
  2. 그 행동의 결과로 새로운 상태(state′)와 보상(reward)을 반환
  3. 게임이 끝났는지 여부(done)를 알려줌

에이전트와 환경의 상호작용 구조

강화 학습에서는 이 두 주체가 일정한 루프 구조를 통해 반복적으로 상호작용합니다.
이를 Markov Decision Process(MDP)라 부르며, 전체 프로세스는 아래와 같습니다:

  1. 환경은 상태 St를 에이전트에게 전달
  2. 에이전트는 그 상태를 바탕으로 행동 At를 선택
  3. 환경은 그 행동에 따라
    • 새로운 상태 St+1를 전달
    • 보상 rt 획득
    • 종료 여부(done)를 반환
  4. 에이전트는 이 경험을 바탕으로 학습

이 구조는 반복되며, 에이전트는 점점 더 합리적인 방향의 정책을 학습하게 됩니다.

강화학습 에이전트와 Environment의 학습 구조
강화학습 에이전트와 Environment의 학습 구조

마무리

에이전트와 환경은 각각의 역할이 명확하게 나뉘어 있지만,
둘 사이의 상호작용이 제대로 이뤄져야 학습이 가능해집니다.

이 구조에 익숙해지면 강화 학습 알고리즘이 어떻게 작동하는지를 이해하기가 훨씬 수월해집니다.

Comments