Codex User-Scope Loopy-Harness

Report map

One-line verdict
Evidence stack
Target level
Requirements
User-scope inventory
Control-plane structure
Runtime contract
Adoption plan
Verification
Next moves

Verdict

프롬프트가 아니라 운영체계다

당신이 원하는 것은 좋은 답변을 하는 에이전트가 아니라, 실패를 신호로 삼아 스스로 규칙과 검증기를 갱신하는 user-scope harness다.

이번 정리의 결론은 명확하다. 요구 수준은 Practical L6+ / L7-oriented Personal AI Work OS Harness다. 단순한 스킬 묶음이나 문서화된 프롬프트가 아니라, 사용자 철학이 runtime 규칙·스킬·훅·검증기로 굳어지고, 작업 실패가 self-improve 신호로 회수되는 폐루프다.

Evidence Stack

자료는 memory-bank와 claude-code-site 양쪽에서 왔다

Research

Autoresearch

.omx/specs/autoresearch-harness-loopy-era-analysis의 승인된 report/result를 기준 근거로 사용했다.

Memory

Memory Bank

대화 아카이브, 장기 기억 구조, fact/retrieval/recall layer를 요구 수준의 substrate로 해석했다.

Site Archive

claude-code-site

start-harness, codex-harness, loopy-era, enterprise complexity 문서를 통합했다.

Kind	Representative path
Autoresearch	`/Users/jung-wankim/.omx/specs/autoresearch-harness-loopy-era-analysis/report.md`
Codex Harness	`/Users/jung-wankim/Project/Claude/claude-code-site/codex-harness-system.html`
Loopy-Era	`/Users/jung-wankim/Project/Claude/claude-code-site/loopy-era-architecture.html`
Memory Bank	`/Users/jung-wankim/Project/Claude/claude-code-site/memory-bank-analysis.html`
Enterprise Boundary	`/Users/jung-wankim/Project/Claude/claude-code-site/docs/enterprise-harness-complexity-analysis.md`

Target Level

L6는 폐루프, L7은 Work OS

Evidence gate

Memory-grounded

HARD gates

L6+

Closed loop

Level	Meaning	판정
L0-L2	좋은 프롬프트, 스킬, 일부 자동화	부족. 세션 종료 후 학습이 닫히지 않는다.
L3	완료 주장을 evidence로 검증	최소 기준.
L4	Memory Bank 기반 반복 실수 방지	필수 substrate.
L5	Soft rule을 checkable/HARD로 승격	핵심 운영 원칙.
L6	signal → patch → verify → ack/rollback	목표 최소선.
L7	user/project/plugin/MCP/trend까지 운영체계화	지향점.

Requirements

13개 요구사항으로 고정한 운영 계약

`REQ-AUTO-001`

명확하고 비파괴적인 작업은 질문 없이 inspect → execute → verify까지 간다.

`REQ-EVID-001`

완료는 산출물, 테스트, validator, audit 같은 증거로만 선언한다.

`REQ-LOOP-001`

마찰과 실패가 self-improve patch와 ack/rollback으로 닫혀야 한다.

`REQ-HARD-001`

중요 규칙은 Markdown 권고가 아니라 hook/script/validator로 승격한다.

`REQ-MEM-001`

Memory Bank는 장식적 recall이 아니라 runtime substrate다.

`REQ-SCOPE-001`

user/project/plugin/MCP 변경 범위를 먼저 분류한다.

`REQ-DRIFT-001`

config, hook, skill, plugin, MCP 변경의 drift를 inventory로 관리한다.

`REQ-VERIFY-001`

완료 전 prompt-to-artifact checklist가 반드시 통과해야 한다.

Inventory

기존 user-scope는 이미 거대한 실행 표면이다

2522

skills files

workflow capsules

157

rules files

soft / trend / hard rules

134

hooks files

event-time guards

122

scripts files

validators & supervisors

agents

native role surfaces

prompts

role execution prompts

MCP servers

state/memory/code/trace/wiki

plugins

browser/docs/sheets/decks

Structure

그래서 해법은 migration이 아니라 control plane이다

기존 ~/.codex는 이미 충분한 실행 표면을 갖고 있다. 따라서 안전한 완성 전략은 기존 파일을 이동하거나 대규모로 수정하는 것이 아니라, ~/.codex/harness를 요구사항·계약·scope classifier·manifest·audit의 control plane으로 추가하는 것이다.

~/.codex/
  AGENTS.md              # 전역 행동 계약
  config.toml            # model/MCP/plugin binding
  hooks.json             # hook activation map
  skills/                # workflow capsules
  agents/                # native agent TOML
  prompts/               # role prompt surfaces
  rules/                 # soft/checkable/HARD rules
  hooks/                 # event-time guards
  scripts/               # validators/supervisors
  state/ reports/        # runtime evidence
  trend-harvest/         # external signal loop
  harness/               # NEW control plane

Runtime Contract

Loopy-era는 실패를 자산으로 만드는 상태기계다

Signal
Intake

Scope
Classify

Patch
Proposal

Safety
Drift

Apply
Verify

Ack
Rollback

Persist
Inject

이 계약은 loopy-era-runtime-contract.md에 고정했다. 중요한 규칙은 모델이 기억하길 기대하는 수준에 머물면 안 된다. hook, script, validator, completion audit 중 하나로 관측 가능해야 HARD gate가 된다.

Adoption Plan

적용은 9단계, 현재는 Phase 1-2 landed

baseline-freeze-inventory

현재 user-scope 표면과 key file hash를 inventory로 고정.

landed

requirements-control-plane-landing

requirements, structure, contract, scope matrix, manifest를 landing.

landed

skill-application

critical skills를 inputs/outputs/evidence/failure/rollback 구조로 정렬.

planned

rule-hard-gate-application

soft rule을 checkable/HARD gate로 승격.

planned

agent-prompt-application

role boundary와 verifier ownership 강화.

planned

plugin-application

plugin cache 직접 수정 없이 trigger와 evidence contract로 연결.

planned

mcp-application

state, memory, code-intel, trace, wiki 역할을 manifest에 연결.

planned

runtime-verification-expansion

grep 기반 검증을 behavior scenario 기반으로 확장.

planned

operating-loop

session start/end, trend harvest, drift inventory, self-improve ack를 주기 운영.

planned

Verification

완료 선언은 53개 검사로 닫았다

PASS

verification status

checks

failed

prompt mappings

verification file
/Users/jung-wankim/.codex/harness/reports/completion-verification.json

status: pass
checks: 53
failed: 0
audit: /Users/jung-wankim/.codex/harness/reports/completion-audit.md

Next Moves

다음은 runtime behavior를 더 단단하게 만드는 단계다

#	Next patch	Why it matters
01	`completion-audit` validator script	완료 전 prompt-to-artifact audit을 fail-closed로 만든다.
02	`scope-classifier` CLI	user/project/plugin/MCP 오염을 막는다.
03	critical skills audit	skill을 검증 가능한 task capsule로 승격한다.
04	MCP/plugin drift checker	runtime/source drift를 관측 가능하게 만든다.
05	behavior scenario eval	grep 100점의 천장을 넘는다.
06	soft → checkable → HARD promotion	반복 실수를 차단 가능한 gate로 바꾼다.

기준점은 이미 landing 됐다. 다음 작업은 이 기준점을 실제 runtime enforcement로 천천히, 검증하면서 승격하는 것이다.