karpathy/autoresearch, /autoresearch 슬래시 커맨드, autoresearch-skill — 세 가지 자율 최적화 접근법의 설계 철학, 평가 방식, 실험 루프를 심층 비교합니다.
Andrej Karpathy가 공개한 LLM/ML 학습 최적화 도구. train.py를 직접 수정하고 val_bpb(bits-per-byte)로 개선도를 측정. GPU 인프라 필수.
Claude Code 슬래시 커맨드. ML/Web/Flutter/Java 등 모든 기술 스택 자동 감지. 설정 가능한 메트릭, git 브랜치 자동 관리, action-log 연동.
Claude Code 스킬 파일 전용 최적화 도구. SKILL.md를 반복 개선하고 이진 yes/no 평가(3~6개)로 개선도 측정. 대시보드 자동 생성.
| 항목 | karpathy/autoresearch | /autoresearch | autoresearch-skill |
|---|---|---|---|
| 최적화 대상 | ML 학습 코드 전용train.py 직접 수정 |
모든 기술 스택 범용 ML, Web, Flutter, Java, 커스텀 |
스킬 프롬프트 전용SKILL.md 파일 |
| 평가 방식 | val_bpb (bits-per-byte) 수치 기반 연속 메트릭 |
설정 가능한 메트릭 자동 감지 + 사용자 정의 |
이진 yes/no 체크리스트 3~6개 평가 기준 |
| 실험 루프 | 약 5분/실험 GPU 필수 환경 |
스택별 자동 설정 병렬 실험 지원 |
빠른 프롬프트 반복 GPU 불필요 |
| 로깅 | results.tsv실험 ID, 설명, 점수 |
results.tsv + experiments.jsonlaction-log 연동 |
changelog.md + dashboard.html시각화 자동 생성 |
| 범용성 | ML 전용 | 범용 | 스킬 전용 |
| Git 통합 | 수동 커밋 | 브랜치 자동 생성autoresearch/exp-{id} |
버전 기록만 |
| 고유 강점 | ML 연구 최적화 특화 검증된 커뮤니티 (43.7k ★) |
모든 프로젝트에서 즉시 사용 가능 |
프롬프트 엔지니어링 전용 워크플로우 |
| 진입 장벽 | 높음 (GPU 인프라 필요) | 낮음 (자동 감지) | 낮음 (텍스트 파일만) |
karpathy는 ML 학습 루프에 완전히 특화되어 있습니다. /autoresearch는 모든 기술 스택을 자동으로 감지해 범용적으로 작동합니다. autoresearch-skill은 Claude Code 스킬 파일이라는 단일 아티팩트에 집중합니다. 범위의 차이가 사용 맥락을 결정합니다.
karpathy의 val_bpb는 연속 수치로 미세한 개선도 포착합니다. /autoresearch는 스택에 따라 메트릭을 동적으로 설정합니다. autoresearch-skill의 이진 평가는 명확하지만 세밀한 구분이 어렵습니다. 메트릭 설계가 실험의 질을 좌우합니다.
karpathy는 GPU 인프라 없이는 실험 자체가 불가능합니다. /autoresearch는 Claude Code 환경만 있으면 어디서든 실행됩니다. autoresearch-skill은 텍스트 파일만 수정하므로 의존성이 가장 낮습니다. 진입 장벽과 활용 범위는 반비례합니다.