[강화학습] 1.Introduction_RL

Study

[강화학습] 1.Introduction_RL_1

dev-hyena 2025. 4. 5. 18:43

이 글은 DeepMind의 David Silver가 진행한 RL 강의 중 Lecture 1: Introduction to Reinforcement Learning의 주요 내용을 정리한 것이다.

강화학습이란?

기계학습(Machine Learning)은 크게 세 가지 유형으로 나뉜다.

지도학습 (Supervised Learning): 정답(label)이 있는 데이터를 기반으로 학습하는 방식이다.
비지도학습 (Unsupervised Learning): 정답 없이 데이터의 패턴을 찾는 방식이다.
강화학습 (Reinforcement Learning): 정답은 없고 보상(Reward)을 통해 학습하는 방식이다.

강화학습의 특징은 다음과 같다.

특징	설명
감독 없음	정답 대신 보상만 주어진다.
피드백 지연	행동에 대한 결과(보상)가 바로 주어지지 않을 수 있다.
시간 순서 중요	행동이 이후 상태와 보상에 영향을 미친다.

강화학습의 예시들

헬리콥터의 곡예 비행 제어
인간보다 뛰어난 아타리 게임 플레이
투자 포트폴리오의 자율적 운용
휴머노이드 로봇의 걷기 제어
전문가 수준의 보드게임 플레이 (예: 백개먼)

이처럼 강화학습은 시행착오를 통해 스스로 행동을 개선해 나가는 학습 방식이다.

Rewards

All goals can be described by the maximisation of expected cumulative reward

모든 목적이 누적된 reward 를 최대화 하는 것으로 표현할 수 있다는 가정

리워드함수 Rt는 스칼라 피드백 시그널이다. -> t번째 타임에 Rt만큼의 시그널이 주어진다.

에이전트가 각 스텝 t마다 얼마나 잘하고 있는지 알려준다.

에이전트의 일은 누적된 보상(cumulative reward)을 최대화하는 것이다.

ex) 한 게임이 끝날때까지 받는 데이터를 축적시켜서 최대화하는 것이다.

강화학습의 기본 구조

강화학습은 에이전트(Agent)와 환경(Environment) 사이의 상호작용을 중심으로 진행된다.

에이전트는 매 시점에서 행동(action)을 선택하며, 이에 따라 환경은 관찰(observation)과 보상(reward)을 반환한다. 이러한 반복적인 상호작용을 통해 학습이 진행된다.

History And State

History는 observations, actions, rewards를 순서에 따라 모아둔 것이다.

-> 그 시간 t 까지 있었던 각각의 timestamp마다 Agent가 수행한 action, observation, reward를 순차적으로 기록한 것

Agent는Action을 결정한다.

Environment는 observation과 reward를 결정한다.

State는 다음에 어떤것을 진행할 지 결정하는데 사용되는 정보이다.

Agent는 다음액션을 결정하기 위해 숫자를 사용한다.

Environment도 Observation과 Reward를 제공하기 위해 숫자를 사용한다.

앞에 언급된 숫자를 State라고한다.

State란, 다음 행동에 쓰이는 모든 정보를 이야기한다.

-> 무엇을 선택하기 위해서 과거를 보는 것은 당연하다.

State는 History의 함수이다.

History의 정보를 가공하여 State를 만든다.

관점에 따른 State

Environment State

- environment가 Next observation과 reward를 계산하기 위해 사용한 모든 정보

ex) Atari game에서 Agent가 선택한 Action에 따라 표기되는 다음 화면(observation)을 계산하기 위해 참고하는 정보들
공의 위치, 현재 박스의 개수 및 구조 등

- State는 보통 Agent에게 보이지 않는다. (너무 복잡한 정보이기 때문에 활용하지않는다.)

Agent State

- Agent가 Next Action을 select 하기 위해 참고하는 정보(직접 정하는 것)

Information State - Marcov state

Definition

- 과거와 미래는 독립적이다.

- 미래를 결정할 때 이전의 State는 필요없고 바로 이전의 State만을 참고하여 결정을 내린다.

Markov State 예시

Rat

1. 최근 3가지의 signal을 state로 정의한다면 : 감전

2. 전체 History에서 각 signal이 등장한 횟수를 state로 정의한다면 : 치즈

결론

History에 대한 Function을 어떻게 정의하는지에 따라 같은 데이터라도 다르게 예측할 수 있다.

Fully Observability

- Environment의 State를 Agent가 볼 수 있는 상황

- Markov decision process : MDP

- Agent State = Environment state = Information state

Partially Observability

- partially observable Markov decision process : POMDP

- Agent state와 Environment state가 다르다.

-> 따라서 Agent는 자신의 State를 표현하기위한 방법을 구축해야한다.

Agent의 State 표현 예시

Complete history

Beliefs of environment state

Recurrent Neural network