강화학습 (Reinforcement Learning)

정의

강화학습(Reinforcement Learning, RL)은 에이전트(agent)가 환경(environment)과 상호작용하며 누적 보상(reward)을 최대화하는 정책(policy)을 학습하는 머신러닝 패러다임이다. 에이전트는 상태(state)를 관찰하고 행동(action)을 선택하며, 환경이 돌려주는 보상과 다음 상태로 학습 신호를 만든다. 지도학습(입력→정답)이나 비지도학습(구조 발견)과 달리, RL 은 “시행착오”와 “지연된 보상”을 명시적으로 다룬다.

왜 중요한가

RL 은 “정답을 직접 알려줄 수 없는 의사결정 문제”에 강하다. 바둑·체스 같은 게임처럼 한 수의 정답이 명확하지 않거나, 로봇 제어처럼 행동의 결과가 한참 뒤에 나타나는 문제에서 위력을 발휘한다. DeepMind 의 AlphaGo 와 AlphaZero, Atari 게임을 사람 수준으로 푼 DQN(Deep Q-Network, 2015) 이 대표적 이정표다. LLM 분야에서는 OpenAI 의 InstructGPT(2022) 가 인간 선호 데이터로 보상 모델을 학습하고 이를 강화학습으로 LLM 에 적용하는 RLHF(Reinforcement Learning from Human Feedback) 를 표준화했고, 이후 Claude 등 대부분의 채팅 LLM 이 비슷한 정렬 절차를 거친다.

Semicolon에서의 의미

Semicolon 위키에서 강화학습은 두 맥락에서 중요하다. 하나는 “게임 AI · 로봇 제어”라는 고전 RL 의 줄기이고, 다른 하나는 RLHF 처럼 LLM 의 안전성·유용성 정렬에 쓰이는 현대적 줄기다. ChatGPT 가 그냥 다음 토큰만 예측하는 모델과 어떻게 다른가를 설명할 때 빠질 수 없는 개념이다.

예시

DQN(2015): Atari 게임을 픽셀 입력만으로 사람 수준으로 풀어낸 딥러닝 + RL 결합
AlphaGo(2016) / AlphaZero(2017): 자기 자신과의 대국 + 탐색 + RL 로 바둑·체스·쇼기 정복
RLHF: 인간이 매긴 선호 비교 데이터로 보상 모델을 학습하고, 이 보상으로 LLM 을 미세조정

주의할 점

RL 은 보상 함수 설계가 어렵다. 잘못 설계된 보상은 의도와 다른 행동을 강화하는 “보상 해킹(reward hacking)”을 일으킨다. LLM 의 RLHF 도 사람 평가의 편향, 보상 모델 오버피팅 같은 한계가 있어, 최근에는 DPO(Direct Preference Optimization) 처럼 단순화된 정렬 방법도 함께 연구된다. 위키에서는 RL 이 “만능 해결책”이 아니라 “보상 신호가 명확히 정의 가능한 문제에 특화된 도구”라는 점을 강조한다.

정의

왜 중요한가

Semicolon에서의 의미

예시

주의할 점

출처