프롬프트가 아니라 운영체계다
이번 정리의 결론은 명확하다. 요구 수준은 Practical L6+ / L7-oriented Personal AI Work OS Harness다. 단순한 스킬 묶음이나 문서화된 프롬프트가 아니라, 사용자 철학이 runtime 규칙·스킬·훅·검증기로 굳어지고, 작업 실패가 self-improve 신호로 회수되는 폐루프다.
자료는 memory-bank와 claude-code-site 양쪽에서 왔다
Autoresearch
.omx/specs/autoresearch-harness-loopy-era-analysis의 승인된 report/result를 기준 근거로 사용했다.
Memory Bank
대화 아카이브, 장기 기억 구조, fact/retrieval/recall layer를 요구 수준의 substrate로 해석했다.
claude-code-site
start-harness, codex-harness, loopy-era, enterprise complexity 문서를 통합했다.
| Kind | Representative path |
|---|---|
| Autoresearch | /Users/jung-wankim/.omx/specs/autoresearch-harness-loopy-era-analysis/report.md |
| Codex Harness | /Users/jung-wankim/Project/Claude/claude-code-site/codex-harness-system.html |
| Loopy-Era | /Users/jung-wankim/Project/Claude/claude-code-site/loopy-era-architecture.html |
| Memory Bank | /Users/jung-wankim/Project/Claude/claude-code-site/memory-bank-analysis.html |
| Enterprise Boundary | /Users/jung-wankim/Project/Claude/claude-code-site/docs/enterprise-harness-complexity-analysis.md |
L6는 폐루프, L7은 Work OS
| Level | Meaning | 판정 |
|---|---|---|
| L0-L2 | 좋은 프롬프트, 스킬, 일부 자동화 | 부족. 세션 종료 후 학습이 닫히지 않는다. |
| L3 | 완료 주장을 evidence로 검증 | 최소 기준. |
| L4 | Memory Bank 기반 반복 실수 방지 | 필수 substrate. |
| L5 | Soft rule을 checkable/HARD로 승격 | 핵심 운영 원칙. |
| L6 | signal → patch → verify → ack/rollback | 목표 최소선. |
| L7 | user/project/plugin/MCP/trend까지 운영체계화 | 지향점. |
13개 요구사항으로 고정한 운영 계약
REQ-AUTO-001
명확하고 비파괴적인 작업은 질문 없이 inspect → execute → verify까지 간다.
REQ-EVID-001
완료는 산출물, 테스트, validator, audit 같은 증거로만 선언한다.
REQ-LOOP-001
마찰과 실패가 self-improve patch와 ack/rollback으로 닫혀야 한다.
REQ-HARD-001
중요 규칙은 Markdown 권고가 아니라 hook/script/validator로 승격한다.
REQ-MEM-001
Memory Bank는 장식적 recall이 아니라 runtime substrate다.
REQ-SCOPE-001
user/project/plugin/MCP 변경 범위를 먼저 분류한다.
REQ-DRIFT-001
config, hook, skill, plugin, MCP 변경의 drift를 inventory로 관리한다.
REQ-VERIFY-001
완료 전 prompt-to-artifact checklist가 반드시 통과해야 한다.
기존 user-scope는 이미 거대한 실행 표면이다
workflow capsules
soft / trend / hard rules
event-time guards
validators & supervisors
native role surfaces
role execution prompts
state/memory/code/trace/wiki
browser/docs/sheets/decks
그래서 해법은 migration이 아니라 control plane이다
기존 ~/.codex는 이미 충분한 실행 표면을 갖고 있다. 따라서 안전한 완성 전략은 기존 파일을 이동하거나 대규모로 수정하는 것이 아니라, ~/.codex/harness를 요구사항·계약·scope classifier·manifest·audit의 control plane으로 추가하는 것이다.
~/.codex/ AGENTS.md # 전역 행동 계약 config.toml # model/MCP/plugin binding hooks.json # hook activation map skills/ # workflow capsules agents/ # native agent TOML prompts/ # role prompt surfaces rules/ # soft/checkable/HARD rules hooks/ # event-time guards scripts/ # validators/supervisors state/ reports/ # runtime evidence trend-harvest/ # external signal loop harness/ # NEW control plane
Loopy-era는 실패를 자산으로 만드는 상태기계다
Intake
Classify
Proposal
Drift
Verify
Rollback
Inject
이 계약은 loopy-era-runtime-contract.md에 고정했다. 중요한 규칙은 모델이 기억하길 기대하는 수준에 머물면 안 된다. hook, script, validator, completion audit 중 하나로 관측 가능해야 HARD gate가 된다.
적용은 9단계, 현재는 Phase 1-2 landed
완료 선언은 53개 검사로 닫았다
verification file /Users/jung-wankim/.codex/harness/reports/completion-verification.json status: pass checks: 53 failed: 0 audit: /Users/jung-wankim/.codex/harness/reports/completion-audit.md
다음은 runtime behavior를 더 단단하게 만드는 단계다
| # | Next patch | Why it matters |
|---|---|---|
| 01 | completion-audit validator script | 완료 전 prompt-to-artifact audit을 fail-closed로 만든다. |
| 02 | scope-classifier CLI | user/project/plugin/MCP 오염을 막는다. |
| 03 | critical skills audit | skill을 검증 가능한 task capsule로 승격한다. |
| 04 | MCP/plugin drift checker | runtime/source drift를 관측 가능하게 만든다. |
| 05 | behavior scenario eval | grep 100점의 천장을 넘는다. |
| 06 | soft → checkable → HARD promotion | 반복 실수를 차단 가능한 gate로 바꾼다. |