Comparative Analysis

Autoresearch:
3 Approaches
to Autonomous
Optimization

karpathy/autoresearch, /autoresearch 슬래시 커맨드, autoresearch-skill — 세 가지 자율 최적화 접근법의 설계 철학, 평가 방식, 실험 루프를 심층 비교합니다.

세 가지 접근법
karpathy/autoresearch

ML 최적화 특화

Andrej Karpathy가 공개한 LLM/ML 학습 최적화 도구. train.py를 직접 수정하고 val_bpb(bits-per-byte)로 개선도를 측정. GPU 인프라 필수.

43.7k
GitHub Stars
5min
실험당 시간
TSV
결과 형식
/autoresearch

범용 자율 최적화

Claude Code 슬래시 커맨드. ML/Web/Flutter/Java 등 모든 기술 스택 자동 감지. 설정 가능한 메트릭, git 브랜치 자동 관리, action-log 연동.

Auto
스택 감지
TSV+
JSONL 로그
Git
브랜치 자동화
autoresearch-skill

스킬 프롬프트 최적화

Claude Code 스킬 파일 전용 최적화 도구. SKILL.md를 반복 개선하고 이진 yes/no 평가(3~6개)로 개선도 측정. 대시보드 자동 생성.

3~6
평가 기준
yes/no
이진 평가
HTML
대시보드
상세 비교표
항목 karpathy/autoresearch /autoresearch autoresearch-skill
최적화 대상 ML 학습 코드 전용
train.py 직접 수정
모든 기술 스택 범용
ML, Web, Flutter, Java, 커스텀
스킬 프롬프트 전용
SKILL.md 파일
평가 방식 val_bpb (bits-per-byte)
수치 기반 연속 메트릭
설정 가능한 메트릭
자동 감지 + 사용자 정의
이진 yes/no 체크리스트
3~6개 평가 기준
실험 루프 5분/실험
GPU 필수 환경
스택별 자동 설정
병렬 실험 지원
빠른 프롬프트 반복
GPU 불필요
로깅 results.tsv
실험 ID, 설명, 점수
results.tsv + experiments.jsonl
action-log 연동
changelog.md + dashboard.html
시각화 자동 생성
범용성 ML 전용 범용 스킬 전용
Git 통합 수동 커밋 브랜치 자동 생성
autoresearch/exp-{id}
버전 기록만
고유 강점 ML 연구 최적화 특화
검증된 커뮤니티 (43.7k ★)
모든 프로젝트에서
즉시 사용 가능
프롬프트 엔지니어링
전용 워크플로우
진입 장벽 높음 (GPU 인프라 필요) 낮음 (자동 감지) 낮음 (텍스트 파일만)
실험 루프 흐름도
karpathy/autoresearch
1
아이디어 생성
LLM이 최적화 가설 제안
2
train.py 수정
아이디어를 코드로 구현
3
GPU 학습 실행
약 5분 소요 / 실험
4
val_bpb 측정
bits-per-byte 수치 확인
5
results.tsv 기록
실험 ID + 점수 저장
6
다음 실험 결정
과거 결과 기반 선택
/autoresearch
1
스택 자동 감지
ML/Web/Flutter/Java 판별
2
메트릭 설정
스택별 최적화 기준 결정
3
git 브랜치 생성
autoresearch/exp-{id}
4
코드 변경 적용
자동 빌드 + 테스트
5
TSV + JSONL 기록
action-log 연동 저장
6
keep / discard 결정
메트릭 비교 후 병합 여부
autoresearch-skill
1
SKILL.md 로드
현재 스킬 프롬프트 분석
2
평가 기준 정의
3~6개 yes/no 체크리스트
3
프롬프트 변형 생성
다양한 개선안 생성
4
이진 평가 실행
각 기준 yes/no 판정
5
changelog.md 업데이트
변경 이력 자동 기록
6
HTML 대시보드 생성
시각화 자동 업데이트
핵심 차이 3가지
01

최적화 대상의 범위

karpathy는 ML 학습 루프에 완전히 특화되어 있습니다. /autoresearch는 모든 기술 스택을 자동으로 감지해 범용적으로 작동합니다. autoresearch-skill은 Claude Code 스킬 파일이라는 단일 아티팩트에 집중합니다. 범위의 차이가 사용 맥락을 결정합니다.

02

평가 메트릭의 성격

karpathy의 val_bpb는 연속 수치로 미세한 개선도 포착합니다. /autoresearch는 스택에 따라 메트릭을 동적으로 설정합니다. autoresearch-skill의 이진 평가는 명확하지만 세밀한 구분이 어렵습니다. 메트릭 설계가 실험의 질을 좌우합니다.

03

인프라 의존성

karpathy는 GPU 인프라 없이는 실험 자체가 불가능합니다. /autoresearch는 Claude Code 환경만 있으면 어디서든 실행됩니다. autoresearch-skill은 텍스트 파일만 수정하므로 의존성이 가장 낮습니다. 진입 장벽과 활용 범위는 반비례합니다.

GitHub 링크