목록2025/05/09 (2)
말랑말랑제리스타일

강화 학습은 에이전트가 환경과 상호작용하며 학습해 나가는 구조로 이루어집니다.이 둘의 관계를 명확히 이해하는 것이 전체 흐름을 파악하는 데 매우 중요합니다.이번 글에서는 에이전트(agent)와 환경(environment)이 각각 어떤 역할을 하며,어떻게 상호작용하면서 학습이 이뤄지는지를 살펴보겠습니다.에이전트(Agent)란?에이전트는 행동을 결정하고 보상을 받으며 학습하는 주체입니다.강화 학습에서의 주인공이라고 보면 됩니다.에이전트는 현재 상태(state)를 관찰하고,정책(policy)을 기반으로 행동(action)을 선택한 뒤,그 결과로 보상(reward)을 받습니다.예시자율주행차 시뮬레이션: 자동차가 에이전트게임 AI: 게임 내 플레이어 캐릭터가 에이전트로봇 제어 문제: 팔 움직임을 제어하는 로봇이 ..

강화 학습을 이해하려면, 기본이 되는 구성 요소들을 정확하게 알고 있어야 합니다.처음에는 개념이 조금 헷갈릴 수 있지만, 각각이 어떤 역할을 하는지 하나씩 짚어보면 의외로 단순한 구조라는 걸 알 수 있습니다.이번 글에서는 강화 학습을 구성하는 핵심 개념들인 상태(state), 행동(action), 보상(reward), 정책(policy), 가치 함수(value function) 를 정리해봅시다상태(State)상태는 에이전트가 현재 어떤 상황에 있는지를 나타냅니다.예를 들어, 자율주행차라면 현재 속도, 차선 위치, 주변 차량의 위치 등이 하나의 상태가 될 수 있습니다.이 정보들을 바탕으로 에이전트는 어떤 행동을 취할지 결정하게 됩니다.강화학습에서는 주로 상태를 S 또는 St로 표기합니다행동(Action)행..