Autoresearch: 3 Approaches

Overview

세 가지 접근법

karpathy/autoresearch

ML 최적화 특화

Andrej Karpathy가 공개한 LLM/ML 학습 최적화 도구. train.py를 직접 수정하고 val_bpb(bits-per-byte)로 개선도를 측정. GPU 인프라 필수.

43.7k

GitHub Stars

5min

실험당 시간

TSV

결과 형식

/autoresearch

범용 자율 최적화

Claude Code 슬래시 커맨드. ML/Web/Flutter/Java 등 모든 기술 스택 자동 감지. 설정 가능한 메트릭, git 브랜치 자동 관리, action-log 연동.

Auto

스택 감지

TSV+

JSONL 로그

Git

브랜치 자동화

autoresearch-skill

스킬 프롬프트 최적화

Claude Code 스킬 파일 전용 최적화 도구. SKILL.md를 반복 개선하고 이진 yes/no 평가(3~6개)로 개선도 측정. 대시보드 자동 생성.

3~6

평가 기준

yes/no

이진 평가

HTML

대시보드

Comparison

상세 비교표

항목	karpathy/autoresearch	/autoresearch	autoresearch-skill
최적화 대상	ML 학습 코드 전용 `train.py` 직접 수정	모든 기술 스택 범용 ML, Web, Flutter, Java, 커스텀	스킬 프롬프트 전용 `SKILL.md` 파일
평가 방식	val_bpb (bits-per-byte) 수치 기반 연속 메트릭	설정 가능한 메트릭 자동 감지 + 사용자 정의	이진 yes/no 체크리스트 3~6개 평가 기준
실험 루프	약 5분/실험 GPU 필수 환경	스택별 자동 설정 병렬 실험 지원	빠른 프롬프트 반복 GPU 불필요
로깅	`results.tsv` 실험 ID, 설명, 점수	`results.tsv` + `experiments.jsonl` action-log 연동	`changelog.md` + `dashboard.html` 시각화 자동 생성
범용성	ML 전용	범용	스킬 전용
Git 통합	수동 커밋	브랜치 자동 생성 `autoresearch/exp-{id}`	버전 기록만
고유 강점	ML 연구 최적화 특화 검증된 커뮤니티 (43.7k ★)	모든 프로젝트에서 즉시 사용 가능	프롬프트 엔지니어링 전용 워크플로우
진입 장벽	높음 (GPU 인프라 필요)	낮음 (자동 감지)	낮음 (텍스트 파일만)

Architecture

실험 루프 흐름도

karpathy/autoresearch

1

아이디어 생성

LLM이 최적화 가설 제안

↓

2

train.py 수정

아이디어를 코드로 구현

↓

3

GPU 학습 실행

약 5분 소요 / 실험

↓

4

val_bpb 측정

bits-per-byte 수치 확인

↓

5

results.tsv 기록

실험 ID + 점수 저장

↓

6

다음 실험 결정

과거 결과 기반 선택

/autoresearch

1

스택 자동 감지

ML/Web/Flutter/Java 판별

↓

2

메트릭 설정

스택별 최적화 기준 결정

↓

3

git 브랜치 생성

autoresearch/exp-{id}

↓

4

코드 변경 적용

자동 빌드 + 테스트

↓

5

TSV + JSONL 기록

action-log 연동 저장

↓

6

keep / discard 결정

메트릭 비교 후 병합 여부

autoresearch-skill

1

SKILL.md 로드

현재 스킬 프롬프트 분석

↓

2

평가 기준 정의

3~6개 yes/no 체크리스트

↓

3

프롬프트 변형 생성

다양한 개선안 생성

↓

4

이진 평가 실행

각 기준 yes/no 판정

↓

5

changelog.md 업데이트

변경 이력 자동 기록

↓

6

HTML 대시보드 생성

시각화 자동 업데이트

Insights

핵심 차이 3가지

01

최적화 대상의 범위

karpathy는 ML 학습 루프에 완전히 특화되어 있습니다. /autoresearch는 모든 기술 스택을 자동으로 감지해 범용적으로 작동합니다. autoresearch-skill은 Claude Code 스킬 파일이라는 단일 아티팩트에 집중합니다. 범위의 차이가 사용 맥락을 결정합니다.

02

평가 메트릭의 성격

karpathy의 val_bpb는 연속 수치로 미세한 개선도 포착합니다. /autoresearch는 스택에 따라 메트릭을 동적으로 설정합니다. autoresearch-skill의 이진 평가는 명확하지만 세밀한 구분이 어렵습니다. 메트릭 설계가 실험의 질을 좌우합니다.

03

인프라 의존성

karpathy는 GPU 인프라 없이는 실험 자체가 불가능합니다. /autoresearch는 Claude Code 환경만 있으면 어디서든 실행됩니다. autoresearch-skill은 텍스트 파일만 수정하므로 의존성이 가장 낮습니다. 진입 장벽과 활용 범위는 반비례합니다.

Source

GitHub 링크

karpathy/autoresearch

ML 학습 자율 최적화 도구
val_bpb 기반 실험 루프

★ 43.7k

jung-wan-kim/autoresearch-builder

/autoresearch 슬래시 커맨드
모든 프로젝트 타입용 자율 실험 루프

plugin

autoresearch dashboard

autoresearch-skill 실험 결과
JSONL 기반 실시간 시각화

→ view dashboard

Autoresearch:3 Approachesto AutonomousOptimization

ML 최적화 특화

범용 자율 최적화

스킬 프롬프트 최적화

최적화 대상의 범위

평가 메트릭의 성격

인프라 의존성

Autoresearch:
3 Approaches
to Autonomous
Optimization