Can I train reinforcement learning AI directly in the browser?

Yes. DQN Lab runs training, watch mode, and VS mode directly in the browser without installation.

How do I start Human vs AI mode?

Open a game, switch to the VS tab, and press START VS. You can choose a saved model as the opponent.

Are trained AI models saved?

Yes. Models are periodically auto-saved in browser localStorage and can be selected or deleted.

Is Human vs AI available on mobile?

Some Human vs AI modes are restricted on mobile due to control limitations, but training and watching are available.

▶ Browser-Native Deep Reinforcement Learning

DQNLab

순수 JavaScript로 구현된 Deep Q-Network.
설치 없이 브라우저에서 바로 학습하고 플레이하세요.

// Environments

PHYSICS SIM

// ENV 01

CartPole

카트 위에 세워진 막대의 균형을 유지하는 고전 제어 문제. DQN 에이전트가 좌우 힘만으로 쓰러지지 않게 학습합니다. 직접 키보드로 조작하거나 AI를 관찰하세요.

⚔ Human vs AI 🤖 WATCH AI ⚡ TRAIN AI Physics Engine

GAME AI

// ENV 02

FlappyBird

Flappy Bird를 스스로 학습하는 DQN 에이전트. 파이프 위치와 새의 속도를 상태로 받아 점프 타이밍을 스스로 터득합니다. 학습 속도를 20x까지 빠르게 돌릴 수 있습니다.

⚔ Human vs AI 🤖 WATCH AI ⚡ TRAIN AI Speed 1x–20x

GRID AI

// ENV 03

SnakeGame

17×17 그리드에서 먹이를 먹으며 자라는 뱀 게임. DQN이 충돌 없이 최대한 많은 먹이를 먹는 전략을 스스로 터득합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Grid World

PHYSICS AI

// ENV 04

LunarLander

달 착륙선을 안전하게 착륙시키는 연속 제어 문제. 중력·속도·각도를 동시에 제어하며 착륙 패드에 부드럽게 내려앉는 법을 학습합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Reward Shaping

PADDLE AI

// ENV 05

PingPong

두 DQN 에이전트가 서로를 상대로 탁구를 배웁니다. 경쟁적 멀티에이전트 환경에서 LEFT vs RIGHT가 동시에 학습하며 점점 더 긴 랠리를 이어갑니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Multi-Agent

GRID PUZZLE

// ENV 06

2048

4×4 보드에서 타일을 합쳐 2048을 만드는 퍼즐 게임. DQN이 장기적인 점수 최대화를 학습합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Sparse Reward

RUNNER AI

// ENV 07

DinoGame

크롬 공룡 게임을 DQN이 스스로 학습합니다. 장애물 거리와 속도를 기반으로 점프 타이밍을 결정합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Fast Speed

BRICK AI

// ENV 08

Breakout

패들로 공을 튕겨 벽돌을 깨는 아케이드 환경. 신경진화 기반 에이전트가 반사 각도와 위치 제어를 스스로 학습합니다.

⚔ Human vs AI ⚡ TRAIN AI 🤖 WATCH AI Brick Physics

// How It Works

Experience

에이전트가 환경과 상호작용하며 (s, a, r, s′) 튜플을 리플레이 버퍼에 저장합니다.

Sample

버퍼에서 미니배치를 무작위 샘플링하여 상관관계를 깨고 안정적인 학습을 유도합니다.

Optimize

Bellman 방정식으로 타겟 Q값을 계산하고 역전파로 폴리시 네트워크를 업데이트합니다.

Converge

ε-greedy 탐색이 감쇠하며 에이전트는 점점 더 최적의 정책으로 수렴합니다.

// FAQ

강화학습 AI를 브라우저에서 바로 돌릴 수 있나요?

네. DQN Lab은 설치 없이 웹 브라우저에서 학습/관전/VS를 바로 실행할 수 있도록 구성되어 있습니다.

Human vs AI 모드는 어떻게 시작하나요?

각 게임에서 VS 탭으로 전환한 뒤 START VS를 누르면 됩니다. 저장된 모델이 있으면 선택해서 대결할 수 있습니다.

학습된 모델은 저장되나요?

네. 각 게임은 주기적으로 모델을 브라우저 저장소(localStorage)에 스냅샷으로 저장하며, 선택/삭제가 가능합니다.

모바일에서도 AI 대결이 가능한가요?

모바일에서는 조작 난이도 문제로 일부 Human VS가 제한될 수 있습니다. 학습/관전 모드는 정상 이용 가능합니다.