Browser-Native Deep Reinforcement Learning

DQNLab

순수 JavaScript로 구현된 Deep Q-Network.
설치 없이 브라우저에서 바로 학습하고 플레이하세요.

// Environments
PHYSICS SIM
// ENV 01
CartPole

카트 위에 세워진 막대의 균형을 유지하는 고전 제어 문제. DQN 에이전트가 좌우 힘만으로 쓰러지지 않게 학습합니다. 직접 키보드로 조작하거나 AI를 관찰하세요.

⚔ Human vs AI 🤖 WATCH AI ⚡ TRAIN AI Physics Engine
GAME AI
// ENV 02
FlappyBird

Flappy Bird를 스스로 학습하는 DQN 에이전트. 파이프 위치와 새의 속도를 상태로 받아 점프 타이밍을 스스로 터득합니다. 학습 속도를 20x까지 빠르게 돌릴 수 있습니다.

⚔ Human vs AI 🤖 WATCH AI ⚡ TRAIN AI Speed 1x–20x
GRID AI
// ENV 03
SnakeGame

17×17 그리드에서 먹이를 먹으며 자라는 뱀 게임. DQN이 충돌 없이 최대한 많은 먹이를 먹는 전략을 스스로 터득합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Grid World
PHYSICS AI
// ENV 04
LunarLander

달 착륙선을 안전하게 착륙시키는 연속 제어 문제. 중력·속도·각도를 동시에 제어하며 착륙 패드에 부드럽게 내려앉는 법을 학습합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Reward Shaping
PADDLE AI
// ENV 05
PingPong

두 DQN 에이전트가 서로를 상대로 탁구를 배웁니다. 경쟁적 멀티에이전트 환경에서 LEFT vs RIGHT가 동시에 학습하며 점점 더 긴 랠리를 이어갑니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Multi-Agent
GRID PUZZLE
// ENV 06
2048

4×4 보드에서 타일을 합쳐 2048을 만드는 퍼즐 게임. DQN이 장기적인 점수 최대화를 학습합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Sparse Reward
RUNNER AI
// ENV 07
DinoGame

크롬 공룡 게임을 DQN이 스스로 학습합니다. 장애물 거리와 속도를 기반으로 점프 타이밍을 결정합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Fast Speed
BRICK AI
// ENV 08
Breakout

패들로 공을 튕겨 벽돌을 깨는 아케이드 환경. 신경진화 기반 에이전트가 반사 각도와 위치 제어를 스스로 학습합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Brick Physics
// How It Works
01
Experience
에이전트가 환경과 상호작용하며 (s, a, r, s′) 튜플을 리플레이 버퍼에 저장합니다.
02
Sample
버퍼에서 미니배치를 무작위 샘플링하여 상관관계를 깨고 안정적인 학습을 유도합니다.
03
Optimize
Bellman 방정식으로 타겟 Q값을 계산하고 역전파로 폴리시 네트워크를 업데이트합니다.
04
Converge
ε-greedy 탐색이 감쇠하며 에이전트는 점점 더 최적의 정책으로 수렴합니다.
// FAQ
강화학습 AI를 브라우저에서 바로 돌릴 수 있나요?
네. DQN Lab은 설치 없이 웹 브라우저에서 학습/관전/VS를 바로 실행할 수 있도록 구성되어 있습니다.
Human vs AI 모드는 어떻게 시작하나요?
각 게임에서 VS 탭으로 전환한 뒤 START VS를 누르면 됩니다. 저장된 모델이 있으면 선택해서 대결할 수 있습니다.
학습된 모델은 저장되나요?
네. 각 게임은 주기적으로 모델을 브라우저 저장소(localStorage)에 스냅샷으로 저장하며, 선택/삭제가 가능합니다.
모바일에서도 AI 대결이 가능한가요?
모바일에서는 조작 난이도 문제로 일부 Human VS가 제한될 수 있습니다. 학습/관전 모드는 정상 이용 가능합니다.