Harness Evolution History

132

수확

GH topic 22(수렴) · 구루GH 32(수렴) · HF 0(06-26 미발행)+26(06-25 기검토) · arXiv 50(2606.26xxx 06-24 기배치·15 정독평가 14기검토) | 신규 1 | Applied 0(포화)2026-06-26

소스 포화 3연속(129·130·131에 이어) — 전 5소스 재조회 결과 신규 rule 부재. harness-benefit-not-update(변경≠이득)·anti-Goodhart 준수로 약한 후보 강제 적용 없이 정직하게 0건 적용. GitHub topic search(ai-agent 12 + autonomous-agent 10 = 22)·구루 GitHub(anthropics 12 + yoheinakajima 10 + hwchase17 10 = 32)은 전부 기존 rule 의미 중복 수렴 — NousResearch/hermes-agent→autonomous-skill-crystallization(48차), shareAI-lab/learn-claude-code→minimal-bash-agent-harness(56차), zhayujie/CowAgent→durable-agent-workflow·self-referential-evolutionary-improvement, HKUDS/nanobot→deep-agents-harness-primitives, CopilotKit→agent-driven-ui-protocol(108차), lsdefine/GenericAgent→execution-path-crystallization(4차), EvoMap/evolver→auditable-rule-evolution(34차), wanshuiyin/ARIS→cross-model-adversarial-review, Upsonic/skales/flow-next→composable-agent-primitives·agent-desktop-convergence·auto-block-stuck-tasks; anthropics는 SDK 7종/anthropic-cli·claude-plugins-official/community→official-plugin-directory-standard·skill-audit-pipeline(89차)·buffa/connect-rust(protobuf 인프라, 비-loopy)·healthcare(도메인), yoheinakajima는 activegraph 파생(activegraph-lab·ag-tcg·ag-coder·packs — 122차 event-sourced-reactive-graph-runtime)·regimes(도메인), hwchase17은 harbor(eval→scored-agent-benchmarks·llm-eval-as-ci-gate)·stagehand(browser SDK→browser-automation-mcp)·autoresearch-agents/agent-patterns/langgraph-engineer→composable-agent-primitives·deep-agents-harness-primitives. HuggingFace 일별 논문 06-26은 아직 미발행(API: date must be ≤ 2026-06-25), 06-25(26편)은 129~131차 기검토. arXiv firehose는 export.arxiv.org 정상 50편이나 전부 2606.26xxx(06-24) 배치 — 130·131차가 이미 동일 배치를 mining(2606.26057→execution-time-authorization-layer 130차 적용, 2606.20023→agent-least-privilege-tool-selection 131차 적용). 잔여 후보 15편을 abstract 본문까지 정독 평가(agent-assist-not-conclude: 결론은 데이터에 grounded)했으나 전부 도메인/훈련 byproduct이거나 기존 rule 의미중복으로 SKIP, seen.json 14편 기검토·1편만 신규: 2606.26036 Detect-Unlearn-Restore(요약모델 data-poisoning 방어) — 훈련 supply-chain 도메인, experience-learning-execute-distill-verify·agent-skill-security-scanning 의미중복 · 2606.25923 DT² Decision-Targeted Digital Twins(one-step proxy 최소화는 policy ranking에 suboptimal → 다운스트림 결정용으로 학습하라) — eval-predictive-validity(proxy 점수 ≠ 배포 성능)·harness-benefit-not-update 의미중복 · 2606.26094 RevengeBench(behavioral probe로 정책 역공학) — white-box-evidence-guided-optimization·active-investigation-fault-attribution 의미중복+eval 도메인 · 2606.25987 Weave of Formal Thought(constrained decoding+구문검증) — typed-llm-function-parsing 의미중복+모델 추론 도메인 · 2606.26091 On-Policy Self-Distillation(다양성 감소) — 훈련 도메인, experience-learning-execute-distill-verify·judge-as-optimizer-hardening · 2606.25978 Multi-Agent Goal Recognition(RL+B&B) · 2606.26041 OCR-Reasoning Robustness · 2606.26021 Tabular FM MIA · 2606.26006 FORCE VLA RL · 2606.25941 XCF Explainable Control — 전부 RL/VLM/privacy/control 도메인. 이미 130·131차가 SKIP한 2606.26071(Model Forensics)·2606.25973(Helpful/Harmful 패칭)·2606.25899(Manipulation)·2606.26079(Same Evidence→evaluator-committee-bias-contagion)·2606.26080(Progress Advantage RL)·2606.26027(Multi-Step Tool-Use RL Collapse)·2606.25960(Agentic Compressor)·2606.25996(Autodata)·2606.26028(ERC-8004)도 재확인 SKIP. 결론: 신규 적용 0건 — 270 rule 유지. 약한 후보를 streak 유지 위해 강제 적용하는 것은 anti-Goodhart 위반(자기 기준 통과용 fabricate). HF 06-26 발행·arXiv 신규 announce 배치 출현 시 다음 라운드 재평가.

0 적용saturation

소스 포화 라운드 — 신규 rule 부재, fabricate 거부(harness-benefit-not-update · anti-Goodhart)

전 5소스(GitHub trending/topic·구루 GitHub·HF 일별 논문·arXiv firehose) 재조회 결과 rule 부재·loopy-era 전이 높은 신규 후보 0건. arXiv 2606.26xxx(06-24) 배치는 130·131차가 이미 mining(2건 적용), HF 06-26 미발행, 나머지는 전부 도메인/훈련/의미중복. 변경≠이득 원칙으로 약한 후보 강제 적용 없이 0건 종료.

분석: 잔여 arXiv 15편 abstract 정독 평가 — DT²(2606.25923)는 eval-predictive-validity, Detect-Unlearn-Restore(2606.26036)는 experience-learning-execute-distill-verify·agent-skill-security-scanning, RevengeBench(2606.26094)는 white-box-evidence-guided-optimization, Weave of Formal Thought(2606.25987)는 typed-llm-function-parsing로 의미중복, 나머지(OCR/VLA/tabular MIA/control/RL)는 도메인. GitHub·구루도 전부 기존 rule 수렴. seen.json 14편 기검토·1편만 신규
미적용 이유: harness-benefit-not-update(변경≠이득)·acceptance-criteria-completion(anti-Goodhart: 자기 기준 통과용 fabricate 금지)·cross-batch-evidence-accumulation(단발 약신호로 승격 금지) — streak 유지 목적의 강제 rule 생성은 정확히 시스템이 경고하는 Goodhart 실패
다음: HF 06-26 발행 + arXiv 06-25 announce 배치 출현 시 재평가. 구루 GitHub·trending은 수렴 상태 지속 모니터
5축: 해당 없음 (0 적용 — 정직한 포화 기록)

→ 적용 0건 · 기존 270 rule 유지

131

수확

GH 20(기검토 수렴) · 구루GH 36(수렴) · HF 21+29(도메인 다수·3 loopy신규) · arXiv 50(2606.26xxx 기배치·신규 매칭) | 신규 1 | Applied 12026-06-25

소스 포화 지속(130차와 동일 06-25) — 전 5소스 재조회 후 권한(privilege) 클러스터의 rule 부재 핵심 1건(도구 선택 시점 최소권한) 정밀 발굴. GitHub trending(20)·구루 GitHub(anthropics 12 + yoheinakajima 12 + hwchase17 12 = 36)은 130차와 동일 배치로 전부 기존 rule 의미 중복 수렴 — agent skill 보안/메모리 그래프/sandbox/parallel agents/eval framework/browser SDK 류는 agent-skill-security-scanning·cross-agent-memory-persistence·os-level-syscall-sandbox·multi-agent-fleet-management·scored-agent-benchmarks·browser-automation-mcp 등에 이미 명시. HuggingFace 일별 논문 06-25(21편)·06-24(29편)은 대부분 이미지/비디오 생성·음성·로봇·금융 도메인(DomainShuttle·ShutterMuse·Wan-Streamer·MVTrack4Gen·TryOnCrafter·Dziri Voicebot·InvestPhilBench 등) 또는 127/128차 기검토(Hitchhiker's Guide to Agentic AI survey·Autodata·Agentic System as Compressor·ERC-8004 등). arXiv firehose는 export.arxiv.org 정상 50편(2606.26xxx 06-24 배치 — 130차 처리분과 동일)이지만 그 안에서 + HF에서 rule 부재·loopy-era 전이 높은 신규 후보 3건 추출(2606.20023·2606.24083·2606.24775, 전부 seen.json NEW). 그중 가장 강한 1건 적용 → 충분한 저권한 대안이 있으면 고권한 도구를 default로 고르지 마라(over-privileged tool selection), 특히 일시적 실패 직후 반사적 escalate 금지, 안전정렬·프롬프트는 최소권한 선택을 보장하지 않는다. 신규 rule 1건 적용(기존 269→270, dedup 0중복). 핵심 발견 — LLM 에이전트가 도구를 자율 선택하면서 서로 다른 권한 도구 중 무엇을 고르는가가 안전 문제가 됐다. ToolPrivBench(8 도메인·5 반복 위험 패턴)로 측정한 결과 충분한 저권한 대안이 있는데도 고권한 도구를 선택/escalate하는 over-privilege가 주류 에이전트 전반에 만연하며, 일시적 도구 실패(transient failure) 뒤 더 증폭(저권한 한 번 실패 → 곧장 고권한 점프). 더 중요한 두 가지: (1) 일반 안전정렬은 최소권한 도구 선택으로 신뢰성 있게 전이되지 않는다("안전 훈련됐으니 최소권한도 알아서"는 거짓) (2) 프롬프트 수준 통제는 transient failure 하에서 제한적 완화만("최소권한 써라" 지시만으론 부족). 해법 privilege-aware post-training defense(필요할 때만 escalate 학습)는 불필요 고권한 사용을 대폭 줄이면서 일반 능력 보존. 전이 — 같은 목표를 권한 차이로 달성하는 여러 경로(읽기 전용 vs 쓰기, dry-run vs 실행, scoped vs 광범위, anon vs service_role, 조회 vs mutation API)에서 충분한 최소권한을 우선 선택하고, 일시적 실패 뒤 반사적 escalate를 금지하며, 안전정렬·프롬프트가 아니라 도구 선택 시점에 권한 경계를 구조적으로 강제한다 → role-based-agent-permissions(도구 화이트리스트 enforcement)의 selection 선호 확장(허용된 도구 중에서도 충분한 최소권한 선택), permission-mode-safety-tiers(Exploreexecution-time-authorization-layer(130차, in-runtime 제어 escapable)의 선택 시점 적용(최소권한 선택을 프롬프트 아닌 도구 게이트로), brokered-mutation-authority(114차, 비가역 broker)와 결합(고권한 호출 전 인증), hierarchical-local-first-recovery(로컬 대체 소진 후 escalate)의 권한 축 동형(같은 권한 대체 → 그래도 실패 시에만 상승), error-recovery 로테이션을 "같은 권한 대체 우선·권한 상승은 최후"로 정밀화. 참고(미적용·의미중복/도메인 SKIP): CAVEWOMAN(2606.24083, 8 모델·5 데이터셋·2채널 평가) — caveman 스타일 압축은 출력 채널은 비용 절감(1.4~2.4x), 입력 채널은 strict lose-lose(모델이 더 긴 응답으로 보상 + 정확도 붕괴 → 순비용 ~1.15x 증가)이며 압축 시 표면 텍스트가 unconstrained reference에서 이탈 → 우리 token-brevity-pattern(출력 65%·입력 45% 절감 주장)의 입력 압축 부분을 정면 반박/정제하는 고가치 발견이나 기존 rule 정제 성격이라 신규 rule 대신 노트(joint-quality-compression-measurement·cli-output-compression·distill-examples-to-instructions 클러스터) · Are We Ready For An Agent-Native Memory System?(2606.24775, 12 메모리 시스템·11 데이터셋) — 메모리를 4모듈(표현/저장·추출·검색/라우팅·유지보수)로 분해 측정, 단일 아키텍처 지배 없음·workload bottleneck 정합이 효과 좌우 → eval-predictive-validity(단일 벤치마크 underspecify)·memory-governance-multi-principal(다축 측정) 의미중복으로 노트 · Model Forensics(2606.26071)·Helpful or Harmful 취약점 패칭(2606.25973)·Manipulation Is Task-Dependent(2606.25899)·RL-Index(2606.16316)·Same Evidence Different Answer(2606.26079, evaluator-committee-bias-contagion 의미중복)·Progress Advantage(2606.26080, RL post-training 도메인) — 도메인/eval/훈련 byproduct로 SKIP.

8/10rule

When Lower Privileges Suffice / Least-Privilege Tool Selection — 충분한 저권한 대안이 있으면 고권한 도구를 default로 고르지 마라, 특히 일시적 실패 직후 반사적 escalate 금지, 안전정렬·프롬프트는 최소권한 선택을 보장하지 않는다 arXiv

에이전트가 도구를 자율 선택할 때 충분한 저권한 대안이 있는데도 고권한 도구를 선택/escalate(over-privilege)하는 것이 주류 에이전트 전반에 만연하며 일시적 실패(transient failure) 뒤 더 증폭. 일반 안전정렬은 최소권한 선택으로 전이되지 않고 프롬프트 통제도 transient failure 하에선 제한적 → 도구 선택 시점에 권한 경계를 구조적으로 강제해야. ToolPrivBench 8 도메인·5 위험 패턴.

분석: over-privileged tool selection = 충분한 저권한 대안이 있는데 고권한 도구를 고르거나 그쪽으로 escalate. 초기 선택 + transient failure 후 escalation 둘 다 측정. 안전정렬은 최소권한 선택으로 신뢰성 있게 전이 안 됨, 프롬프트 통제는 제한적 완화만 → privilege-aware post-training defense(필요할 때만 escalate)로 불필요 고권한 대폭 감소·일반 능력 보존 (arXiv 2606.20023, ToolPrivBench 8 도메인·5 반복 위험 패턴)
적용 이유: 충분한 저권한 대안 있으면 고권한 default 선택 금지(읽기전용 vs 쓰기, dry-run vs 실행, scoped vs 광범위, anon vs service_role, 조회 vs mutation API), 일시적 실패 직후 반사적 escalate 금지(대체 저권한·재시도 소진 먼저), "안전정렬됐으니/프롬프트에 썼으니" 최소권한 보장 가정 금지, over-privilege rate·escalation rate 측정 없이 "안전해 보임" 정당화 금지
기대효과: role-based-agent-permissions(도구 화이트리스트 enforcement)의 selection 선호 확장(허용 도구 중에서도 최소권한 선택), permission-mode-safety-tiers(Explore
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ agent-least-privilege-tool-selection.md

130

수확

GH 20 · 구루GH 36 · HF 11+25(기검토) · arXiv 50(38매칭·신규배치) | 신규 1 | Applied 12026-06-25

소스 포화 지속 라운드 — 전 5소스 조회 후 arXiv 신규 배치(2606.26xxx)에서 rule 부재·실행 시점 권한 강제 핵심 1건 정밀 발굴. GitHub trending(20)은 전부 기존 rule 의미 중복: NVIDIA/SkillSpector(agent skill 보안 스캐너)→agent-skill-security-scanning(114차에 이미 명시), bytedance/deer-flow(long-horizon SuperAgent harness)→deep-agents-harness-primitives·open-reference-harness-architecture, topoteretes/cognee(AI memory+knowledge graph)→cross-agent-memory-persistence·progressive-memory-retrieval·agent-memory-systems, withastro/flue(sandbox agent framework)→microvm-agent-sandbox·os-level-syscall-sandbox·sandboxed-agent-code-execution, LMCache/LMCache(KV cache)→joint-quality-compression-measurement(121차), DeusData/codebase-memory-mcp→graph-rag-codebase-indexing·knowledge-graph-code-indexing, stablyai/orca(parallel agents ADE)→multi-agent-fleet-management·multi-agent-session-infrastructure, cocoindex-io/cocoindex-code→incremental-delta-indexing(110차), google/agents-cli·aws/agent-toolkit→composable-agent-primitives·official-plugin-directory-standard, calesthio/OpenMontage(agentic video 500+ skills)·mukul975/Anthropic-Cybersecurity-Skills(817 skills)→practitioner-curated-skills·production-grade-agent-skills(도메인), microsoft/presidio·timesfm·voicebox·daily_stock_analysis(PII/시계열/음성/금융 도메인). 구루 GitHub(anthropics 12 + yoheinakajima 12 + hwchase17 12 = 36)도 수렴 — anthropics는 knowledge-work-plugins→knowledge-work-plugin-standard·claude-plugins-official→official-plugin-directory-standard(89차)·claude-agent-sdk-python/typescript→agent-sdk-in-process-tools·claude-code-action→ci-self-healing-loop·connect-rust/buffa/anthropic-sdk-java(protobuf/RPC 인프라, 비-loopy), yoheinakajima는 activegraph 파생(activegraph-lab·ag-tcg·ag-coder·packs·longmemeval·tau2-bench — 122차 event-sourced-reactive-graph-runtime 수렴)·regimes(도메인), hwchase17은 harbor(eval framework→scored-agent-benchmarks·llm-eval-as-ci-gate)·stagehand(browser SDK→browser-automation-mcp)·autoresearch-agents/agent-patterns/langgraph-engineer→composable-agent-primitives·deep-agents-harness-primitives. arXiv firehose는 export.arxiv.org 정상 응답(50편 중 38 키워드 매칭, 06-24 published 신선 2606.26xxx 배치 전부 신규) + HF 일별 논문 06-25(11편, 대부분 이미지/비디오 생성 도메인)·06-24(29편, 25 신규표시지만 전부 127/128차 기검토 도메인/벤치 — NatureBench·AOHP·DREAM·MEMPROBE·Qwen-AgentWorld 등). 신규 배치에서 rule 부재·loopy-era 전이 높은 후보 1건 발굴 → 에이전트 주소 공간 안의 모든 제어(시스템 프롬프트·출력 필터·guardrail)는 입력으로 도달 가능해 우회된다(escapable), 진짜 강제는 4속성(프로세스 분리·구조적 유일 경로의 사전 강제·양수준 fail-closed·외부화된 서명 증거)을 만족하는 별도 권한 계층에 둔다. 신규 rule 1건 적용(기존 268→269, dedup 0중복). 핵심 발견 — AI 에이전트가 도구·API·인프라에 접근하며 그 시스템의 능동적 주체(active principal)가 되면서, 지배적 접근은 제어를 에이전트 자신의 런타임 안에 둔다(시스템 프롬프트·출력 필터·guardrail). 그러나 에이전트 주소 공간 안의 모든 제어는 그것에 영향을 주는 입력으로 도달 가능 — 자기 런타임에 충분히 접근하는 모든 AI 시스템은 escapable(우회 가능). 협력적 요청이 아니라 구조적(architectural) 제어를 위한 4속성: (1) process separation(에이전트와 다른 프로세스/주소 공간) (2) pre-action enforcement on structurally-only path(행동 전·우회 불가 유일 경로 강제) (3) fail-closed 양수준(요청·시스템 모두 실패 시 차단) (4) 외부화된 서명 증거(통제 시스템 신뢰 경계 밖에서 검증). 이를 execution-time AI alignment로 위치 — training-time(RLHF·Constitutional)·inference-time alignment를 보완하는 제3 계층. Rust 참조 구현은 fail-closed invariant를 SMT(Z3)+bounded-model-checking(Kani 4/4)으로 machine-check, Python→Rust를 byte-equivalence(1000/1000 fixture·17/17 adversarial)로 게이트, 자기개선 world model에 escape-seeking adversary 1000 self-modification 중 safety-critical core 704 시도 전부 거부(escape 0)·6240 round-trip bypass 0. 전이: 시스템 프롬프트·CLAUDE.md·rule 본문·guardrail 같은 in-runtime 제어는 입력(컨텍스트·도구 출력·사용자 메시지·압축)으로 우회 가능 → 진짜 강제가 필요한 비가역·고위험 제어는 에이전트 주소 공간 밖 4속성 권한 계층(hook·OS 권한·Edge Function)에 둔다. 우리 qa-gate-before-push·git-push-adversarial-review-gate·no-env-commit이 이미 부분 구현(추론 밖 PreToolUse hook이 명령 실행 전 fail-closed 차단 + 외부화 증거 검증) → brokered-mutation-authority(114차, 비가역 mutation broker)의 일반화(특정 작업→모든 제어가 escapable + 4속성 + execution-time alignment 위치), compaction-governance-decay(122차, 압축이 제약 소실)·defensive-misdirection-over-block(118차, in-context 거부 신호 누출)의 통합 인식론적 근거(prose 제어가 escapable인 구조적 이유), soft-to-hard-promotion 근거 정밀화("입력으로 우회 가능한가"가 SOFT/HARD 분류 기준), os-level-syscall-sandbox·agent-sdk-in-process-tools(프로세스/OS 분리)가 속성 1·2, external-probe-gate-classification가 속성 3, commit-landing-verification·complete-state-checkpoint-restore·atomic-artifact-publish(외부화 해시/서명)가 속성 4. 참고(미적용·도메인/훈련/의미중복 SKIP): Why Multi-Step Tool-Use RL Collapses(2606.26027, control token probability spike·SFT/RL interleave — RL 훈련 기법 도메인) · Progress Advantage(2606.26080, RL post-training log-prob ratio step-level scoring — 훈련 byproduct 의존) · Agentic System as Compressor(2606.25960, compression=intelligence bit 측정 — 측정 framework) · Same Evidence Different Answer(2606.26079, MLLM order sensitivity — evaluator-committee-bias-contagion position-bias 의미중복) · Autodata(2606.25996, agentic data scientist)·Hitchhiker's Guide to Agentic AI(2606.24937, survey)·ERC-8004 Trustless Agents(2606.26028, 블록체인) — 도메인/survey · 06-24 HF는 NatureBench·AOHP(os-level-syscall-sandbox 수렴)·DREAM·MEMPROBE·Critique of Agent Model·AGORA 등 127/128차 기 SKIP.

8/10rule

The Unfireable Safety Kernel / Execution-Time Authorization Layer — 에이전트 주소 공간 안의 모든 제어는 입력으로 도달 가능해 우회된다(escapable), 진짜 강제는 4속성(프로세스 분리·구조적 유일 경로 사전 강제·양수준 fail-closed·외부화 서명 증거) 권한 계층에 arXiv

에이전트 자신의 런타임 안에 둔 제어(시스템 프롬프트·출력 필터·guardrail)는 입력으로 도달 가능 = escapable(우회 가능). 진짜 강제는 4속성(process separation·구조적 유일 경로 사전 강제·양수준 fail-closed·외부화 서명 증거) 권한 계층 = execution-time alignment. 자기개선 world model에 1000 self-mod 중 safety-critical 704 전부 거부·escape 0·6240 round-trip bypass 0.

분석: 에이전트가 도구·API·인프라의 active principal이 되면서 지배적 접근은 제어를 에이전트 런타임 안(시스템 프롬프트·출력 필터·guardrail)에 두지만, 주소 공간 안의 모든 제어는 입력으로 도달 가능 = escapable. 구조적 제어를 위한 4속성: 프로세스 분리 / 구조적 유일 경로의 사전 강제 / 양수준 fail-closed / 외부화된 서명 증거 → execution-time alignment(학습·추론 시점 정렬 보완) (arXiv 2606.26057, fail-closed invariant SMT Z3+Kani BMC 4/4 machine-check, byte-equivalence 1000/1000·17/17 adversarial, 704 safety-critical 시도 전부 거부·6240 bypass 0)
적용 이유: in-runtime 제어(프롬프트·prose rule·guardrail)를 진짜 강제로 신뢰 금지(입력으로 우회 가능=escapable), 비가역·고위험 권한을 4속성 없이 협력적 요청에 의존 금지, 우회 경로 살아있는 제어를 "차단됨" 간주 금지, fail-closed invariant를 위반 fixture로 검증, training/inference 정렬을 execution-time 강제로 착각 금지
기대효과: brokered-mutation-authority(114차, 비가역 mutation broker)의 일반화(특정 작업→모든 제어 escapable+4속성+execution-time alignment), compaction-governance-decay·defensive-misdirection의 통합 인식론적 근거(prose가 escapable인 구조적 이유), soft-to-hard-promotion 근거 정밀화("입력 우회 가능?"이 분류 기준), os-level-syscall-sandbox·agent-sdk-in-process-tools가 속성1·2, external-probe-gate가 속성3, commit-landing-verification·complete-state-checkpoint-restore·atomic-artifact-publish가 속성4 — qa-gate·push-gate·no-env-commit이 이미 부분 구현
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ execution-time-authorization-layer.md

129

수확

GH 22 · 구루GH 32 · topic 22 · HF 1+26(기수확) · arXiv 60(51매칭·신규배치) | 신규 9 | Applied 12026-06-25

소스 포화 지속 라운드 — 전 5소스 조회 후 arXiv 신규 배치에서 rule 부재·긴 트레이스 진단 핵심 1건 정밀 발굴. GitHub trending+topic(22)은 전부 기존 rule 의미 중복: NousResearch/hermes-agent→autonomous-skill-crystallization(48차), shareAI-lab/learn-claude-code·gptme/gptme→minimal-bash-agent-harness(56차), zhayujie/CowAgent(self-evolving harness+memory)→durable-agent-workflow·self-referential-evolutionary-improvement, HKUDS/nanobot→deep-agents-harness-primitives, CopilotKit→agent-driven-ui-protocol(108차), agentscope→composable-agent-primitives, lsdefine/GenericAgent→execution-path-crystallization(4차), EvoMap/evolver→auditable-rule-evolution(34차), strands-agents/harness-sdk→open-reference-harness-architecture·harness-engineering-paradigm, HolmesGPT/holmesgpt(SRE Agent)→evidence-backed-investigation, CherryHQ/cherry-studio·ppt-master·career-ops(데스크탑/미디어 앱 도메인). 구루 GitHub(anthropics 12 + yoheinakajima 10 + hwchase17 10 = 32)도 수렴 — anthropics는 SDK java/php/csharp/go/ruby/ts·connect-rust/buffa(protobuf 인프라, 비-loopy)·claude-plugins-official→official-plugin-directory-standard(89차)·claude-tag-plugins·anthropic-cli, yoheinakajima는 activegraph 파생(activegraph-lab·ag-tcg·ag-coder·packs — 122차 event-sourced-reactive-graph-runtime 수렴)·regimes(도메인), hwchase17은 harbor(eval framework→scored-agent-benchmarks·llm-eval-as-ci-gate)·stagehand(browser SDK→browser-automation-mcp)·autoresearch-agents/agent-patterns/langgraph-engineer→composable-agent-primitives·deep-agents-harness-primitives. arXiv firehose는 export.arxiv.org 정상 응답(60편 중 51 키워드 매칭, 신선 2606.24xxx 배치) + HF 일별 논문 06-25(1편 빈제목)·06-24(26편, 전부 126/127차 기수확). 신규 배치에서 rule 부재·loopy-era 전이 높은 후보 1건 발굴 → 긴 에이전트 트레이스의 실패 진단을 전체 통째 로드 아닌 세그먼트 검색 루프 + 영속 단기메모리로 수행해 진단 정확도를 컨텍스트 한계에서 분리한다. 신규 rule 1건 적용(기존 267→268, dedup 0중복). 핵심 발견 — 자율 에이전트의 실행 트레이스가 가장 큰 컨텍스트조차 넘어서면서, 현재 fault 진단은 전체 트레이스를 컨텍스트에 통째 로드해 (1) attention dilution(핵심 실패 희석) (2) 트레이스가 컨텍스트 한계 초과 시 진단 자체가 실패의 두 문제를 낳는다. SAFARI는 선형 컨텍스트 로딩을 tool-augmented diagnostic loop로 대체 — LLM에 트레이스 세그먼트를 read/search하는 toolbox + cross-turn 추론용 영속 STM(Short-Term Memory)을 장착해 진단 정확도를 아키텍처 컨텍스트 한계에서 분리(decouple). 결과: fault가 native 컨텍스트의 5배 밖에 있어도 0.58 precision 유지(전통 evaluator는 완전 실패), 25K 예산에서 SOTA 19%↑·Who&When 1M 예산 20%↑. 전이: team-orchestrator 멀티 Phase·auto-issue 워커·/loop 세션이 여러 스텝에 걸쳐 실패하면 전체 transcript/JSONL을 통째 덤프 말고 세그먼트를 grep/search/read로 on-demand 조회 + STM에 cross-turn 가설 누적 → evidence-backed-investigation(RCA evidence-chain)에 "긴 트레이스를 어떻게 검색·진단하나" 추가, recursive-context-decomposition(RLM context-as-variable)의 진단 버전, tool-output-sandboxing·context-sandboxing-session-continuity(raw는 컨텍스트 미진입·인덱스 검색)와 정합, step-wise-orchestration-vs-plan-then-execute(125차, 다음 행동을 중간 증거로)의 진단 버전, hierarchical-local-first-recovery(복구 전략)에 "어느 스텝 실패인지 진단" 선행, agent-assist-not-conclude·evidence-only-reporting(결론은 검색 증거에 grounded)와 결합. 참고(미적용·도메인/의미중복 SKIP): NFR Assessment(2606.24834, HIPAA 멀티턴 대화 평가 — RE 도메인) · Paying to Know(2606.24783, agentic e-commerce 마이크로페이먼트 정보시장 — 도메인) · Privacy-Preserving RAG(2606.24623, 멀티에이전트 시맨틱 재작성 PII 제거 — RAG 프라이버시 도메인) · The Warrant Gap/SIFT(2606.24627, fact-check claim-conditioned re-scoring — 도메인) · SHERLOC(2606.24820)·Grading the Grader(2606.24839)·Are We Ready For An Agent-Native Memory System(2606.24775)·World Models in Pieces(2606.24842)·NatureBench(2606.24530)는 127/128차에서 기 SKIP · OpenThoughts-Agent(2606.24855)·InSight(2606.24884, VLA skill acquisition)·DREAM(2606.24667) — 훈련/도메인.

9/10rule

SAFARI / Active-Investigation Fault Attribution — 긴 에이전트 트레이스 실패 진단을 full-dump 아닌 세그먼트 검색 루프 + 영속 단기메모리로, 진단 정확도를 컨텍스트 한계에서 분리 arXiv

실행 트레이스가 컨텍스트보다 커지면 전체 통째 로드 진단은 attention dilution + 컨텍스트 초과로 실패 — SAFARI는 선형 로딩을 세그먼트 read/search 도구 루프 + 영속 STM으로 대체해 진단 정확도를 컨텍스트 한계에서 분리. fault가 native 컨텍스트의 5배 밖이어도 0.58 precision 유지(전통 evaluator 완전 실패).

분석: 자율 에이전트 실행 트레이스가 가장 큰 컨텍스트조차 넘어서면서 현재 fault 진단은 전체 트레이스를 컨텍스트에 통째 로드 → attention dilution(핵심 실패 희석) + 트레이스가 컨텍스트 초과 시 진단 실패 — SAFARI는 tool-augmented diagnostic loop로 대체, 세그먼트 read/search toolbox + cross-turn 추론용 영속 STM으로 진단 정확도를 아키텍처 컨텍스트 한계에서 분리 (arXiv 2606.24626, Who&When 1M예산 20%↑·TRAIL GAIA 25K예산 19%↑, fault가 native 컨텍스트 5배 밖이어도 0.58 precision)
적용 이유: 긴 실행 트레이스 전체 통째 로드 진단 금지(attention dilution·컨텍스트 초과 실패), 트레이스가 컨텍스트보다 크다고 진단 포기 금지(세그먼트 검색 루프 + STM), 진단 결론을 검색 세그먼트 증거 없이 서술 금지, fault attribution을 토큰 예산 대비 precision으로 측정
기대효과: evidence-backed-investigation(RCA evidence-chain)에 "긴 트레이스를 어떻게 검색·진단하나" 추가, recursive-context-decomposition(context-as-variable)의 진단 버전, tool-output-sandboxing·context-sandboxing(raw 미진입·인덱스 검색)과 정합, step-wise-orchestration의 진단 버전, hierarchical-local-first-recovery에 "어느 스텝 실패인지 진단" 선행, agent-assist-not-conclude·evidence-only-reporting과 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ active-investigation-fault-attribution.md

128

수확

GH 16 · 구루GH 18 · topic 16 · HF 24+50 · arXiv 12(신규배치) | 신규 10 | Applied 12026-06-25

소스 포화 지속 라운드 — 전 5소스 조회 후 arXiv/HF 신규 배치에서 rule 부재·도구 생태계 핵심 1건 정밀 발굴. GitHub trending+topic(16)은 전부 기존 rule 의미 중복: omnigent-ai/omnigent(meta-harness orchestrate Claude Code)→deep-agents-harness-primitives·meta-skill-team-factory, strands-agents/harness-sdk→open-reference-harness-architecture·harness-engineering-paradigm, neomjs/neo(self-evolving organism)→self-referential-evolutionary-improvement·durable-agent-workflow, NousResearch/hermes-agent→autonomous-skill-crystallization(48차), gptme/gptme→minimal-bash-agent-harness(56차), HolmesGPT/holmesgpt(SRE Agent)→evidence-backed-investigation, agentscope→composable-agent-primitives, CherryHQ/cherry-studio·ppt-master(데스크탑/미디어 앱 도메인). 구루 GitHub(anthropics 12 + yoheinakajima 6 = 18)도 수렴 — anthropics는 claude-plugins-community/official→official-plugin-directory-standard(89차)·skill-audit-pipeline, knowledge-work-plugins→knowledge-work-plugin-standard, SDK php/csharp·connect-rust(인프라, 비-loopy), yoheinakajima는 activegraph 파생(activegraph-lab·ag-tcg·packs — 122차 event-sourced-reactive-graph-runtime 수렴), hwchase17은 harbor(eval framework→scored-agent-benchmarks·llm-eval-as-ci-gate)·stagehand(browser SDK→browser-automation-mcp). arXiv firehose는 export.arxiv.org 정상 응답(40편 중 12 키워드 매칭, 2606.24xxx 신선 배치) + HF 일별 논문 06-24(24편)·06-23(50편). 신규 배치에서 rule 부재·loopy-era 전이 높은 후보 1건 발굴 → 도구 카탈로그가 한눈에 다 안 보일 만큼 크면 장기 계획이 무너진다 — 도구 발견을 명시적 계획 단계로 두고 관련 부분집합을 먼저 검색·노출한 뒤 계획한다. 신규 rule 1건 적용(기존 266→267, dedup 0중복). 핵심 발견 — LLM 도구 사용 에이전트는 보통 작고 전부 보이는 toolset(전체가 프롬프트에 들어감)으로 평가되지만, 실제 배포는 수백~수천 도구를 노출해 retrieval-limited tool visibility(검색으로만 도구가 보이는 제한 가시성) 하에서 동작한다 — 전체 toolset을 한 번에 볼 수 없어 계획 전에 관련 도구를 먼저 발견해야 한다. PlanBench-XL의 핵심: 전체 가시성에서 강해 보이던 성능이 도구 생태계가 커질수록 급격히 무너진다 — 에이전트가 도구 발견(tool discovery)과 계획을 번갈아 수행하고 요청에 명시 안 된 암묵적 서브목표(implicit sub-goals)를 추론해야 하기 때문(interactive benchmark, HF 85 upvotes). 전이: MCP 다수·ToolSearch·100+ 스킬처럼 카탈로그가 한눈에 안 보이는 환경에서 "에이전트가 모든 도구를 본다" 가정 위 한 번에 짠 장기 계획은 붕괴 → 도구 발견을 1급 계획 단계로 두고 관련 도구 부분집합을 retrieve/curate한 뒤 계획, "카탈로그 크기 × 계획 성공률"을 측정 → per-turn-tool-adaptation·progressive-disclosure-skills·structured-knowledge-mcp(관련 도구만 노출/점진 로딩)에 "장기 계획 품질" 관점 추가(기존은 토큰 절감), step-wise-orchestration-vs-plan-then-execute(125차, 다음 행동을 중간 증거로)의 도구 가시성 버전(발견↔계획 interleave), metadata-guided-chunk-retrieval·token-efficiency-tracking(관련 도구 retrieve)·codebase-search-before-create(생성 전 탐색)·eval-predictive-validity(작은 toolset 점수≠대규모 생태계 성능)와 정합. 참고(미적용·도메인/의미중복 SKIP): EnterpriseClawBench(2606.23654, 실제 워크플레이스 세션 harness×model 벤치 — eval-predictive-validity·harness-benefit-not-update·mas-prompt-optimization-config-dependent 수렴) · OpenRath(2606.19409, Session-centered runtime state — complete-state-checkpoint-restore·persistent-file-based-planning·context-as-action-management 중복) · CLI-Universe(2606.22883, terminal agent 검증가능 task synthesis — proof-by-exploitation-qa·evidence-only-reporting 도메인) · SHERLOC(2606.24820)·Grading the Grader(2606.24839)·NatureBench(2606.24530)·AOHP(2606.23449)·World Models in Pieces(2606.24842)는 127차에서 기 SKIP · OpenThoughts-Agent(2606.24855)·InSight(2606.24884)·MobileForge(2606.19930)·Qwen-AgentWorld(2606.24597) — 훈련/도메인.

8/10rule

PlanBench-XL / Tool-Ecosystem Planning Visibility — 큰 도구 카탈로그는 "전부 보임" 가정을 깨뜨려 장기 계획을 무너뜨린다, 도구 발견을 명시 계획 단계로 두고 관련 부분집합을 먼저 검색·노출 arXiv

실배포는 수백~수천 도구를 노출해 retrieval-limited tool visibility — 전체 toolset을 한 번에 못 봐 계획 전에 관련 도구를 먼저 발견해야 한다. 전체 가시성에서 강해 보이던 성능이 생태계가 커질수록 급락 — 도구 발견↔계획 interleave + 암묵 서브목표 추론 필요.

분석: LLM 도구 사용 에이전트는 보통 작고 전부 보이는 toolset(프롬프트에 다 들어감)으로 평가되지만 실제 배포는 수백~수천 도구를 노출, retrieval-limited tool visibility 하에서 전체를 한 번에 못 봐 계획 전 관련 도구를 먼저 발견해야 한다 — 전체 가시성 성능이 생태계 성장 시 급격히 무너지는 건 도구 발견과 계획을 번갈아 수행하고 요청에 명시 안 된 암묵적 서브목표를 추론해야 하기 때문 (arXiv 2606.22388, interactive benchmark, HF 85 upvotes)
적용 이유: "에이전트가 모든 도구를 본다" 가정 금지(카탈로그 클수록 한 번에 짠 계획 붕괴), 전체 카탈로그 무차별 덤프 금지(관련 부분집합 retrieve), 도구 발견을 1급 계획 단계로(발견↔계획 interleave), 암묵적 서브목표 명시화, 작은 toolset 성능을 대규모 배포로 일반화 금지
기대효과: per-turn-tool-adaptation·progressive-disclosure-skills·structured-knowledge-mcp(관련 도구만 노출)에 "장기 계획 품질" 관점 추가(기존은 토큰 절감), step-wise-orchestration-vs-plan-then-execute의 도구 가시성 버전, metadata-guided-chunk-retrieval·codebase-search-before-create와 결합, eval-predictive-validity(작은 toolset≠대규모 생태계)와 정합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ tool-ecosystem-planning-visibility.md

127

수확

GH 24 · 구루GH 22 · topic 22 · HF 20 · arXiv 40(신규배치) | 신규 9 | Applied 12026-06-24

소스 포화 지속 라운드 — 전 5소스 조회 후 arXiv 신규 배치에서 rule 부재·자가진화 핵심 1건 정밀 발굴. GitHub trending+topic(24)은 전부 기존 rule 의미 중복: NousResearch/hermes-agent→autonomous-skill-crystallization(48차), shareAI-lab/learn-claude-code→minimal-bash-agent-harness(56차), zhayujie/CowAgent(self-evolving harness)→durable-agent-workflow, HKUDS/nanobot→deep-agents-harness-primitives, CopilotKit→agent-driven-ui-protocol(108차), affaan-m/ECC→cost-aware-harness-tuning(39차), farion1231/cc-switch→agent-desktop-convergence(80차), thedotmack/claude-mem→hook-driven-session-memory, safishamsi/graphify→multi-format-knowledge-graph(66차), addyosmani/agent-skills→production-grade-agent-skills. 구루 GitHub(anthropics 12 + yoheinakajima 10 = 22)도 수렴 — anthropics는 SDK/CLI/플러그인 디렉토리(기적용 official-plugin-directory-standard·knowledge-work-plugin-standard) + connect-rust/buffa(protobuf 인프라, 비-loopy), yoheinakajima는 activegraph 파생(activegraph-lab·ag-coder·packs — 123차 event-sourced-reactive-graph-runtime 수렴). arXiv firehose는 이번엔 export.arxiv.org 정상 응답(40편, 신규 2606.24xxx 배치 — 124~126차의 2606.23/24 초기 풀과 다른 신선 배치) + HF 일별 논문 06-24(20편). 신규 배치에서 rule 부재·loopy-era 전이 높은 후보 1건 발굴 → 경험 학습(메모리 쓰기)을 단일 에이전트 자기반성에 맡기지 말고 실행·증류·검증을 분리한다. 신규 rule 1건 적용(기존 265→266, dedup 0중복). 핵심 발견 — 경험 기반 자가진화는 대부분 단일 에이전트 루프(같은 에이전트가 실행·요약·메모리 쓰기 결정 독점)라 Self-Confirmation Trap(자기확증 함정)에 취약하다: 틀렸지만 자기일관적인(wrong-but-self-consistent) 궤적이 "성공 경험"으로 오인되어 메모리에 박히고 검색·재사용 시 오류가 누적된다. EDV(Execute-Distill-Verify)는 (1) Execute — 여러 이질적 에이전트가 병렬 탐색해 다양한 후보 궤적, (2) Distill — 전담 제3자 에이전트가 비교 분석해 후보 경험 추출(실행자 중심 요약 편향 제거), (3) Verify — 실행 그룹이 합의로 검증, 승인된 경험만 메모리 기록. 세 단계 분리로 경험 학습이 고립된 자기반성→협력적 구성이 되어 메모리 삽입 전 오류·노이즈를 거른다(tau2-bench·Mind2Web·MMTB 장기 벤치 일관 향상). 전이: self-improve(fix→rule)·shared-agent-memory·skill compounding 등 경험을 메모리에 쓰는 모든 경로에서 실행자가 자기 경험을 직접 쓰면 틀린 자기일관 궤적이 "성공"으로 굳음 → 쓰기 주체≠실행 주체 + 합의 검증 통과분만 기록하는 write-gate → judge-as-optimizer-hardening(118차, train/eval judge 분리)의 경험 쓰기 버전, evaluator-committee-bias-contagion(위원회 ≥3)·blind-validation-layer(구현자 맥락 차단)가 Verify·Distill 구현, cross-batch-evidence-accumulation(1회≠안정 효과)·recursive-self-improvement-loop(Curator)·shared-agent-memory·memory-governance-multi-principal(사후 forgetting vs 사전 차단)와 정합. 참고(미적용·도메인/의미중복 SKIP): SHERLOC(2606.24820, 코드수리 에이전트 구조적 진단 localization — evidence-backed-investigation·content-graph-precise-context 수렴) · Grading the Grader(2606.24839, agentic 데이터분석 채점 캐스케이드 — judge-as-optimizer-hardening·evaluator-committee-bias-contagion 중복) · Are We Ready For An Agent-Native Memory System?(2606.24775, 메모리 4모듈 분해 평가 — memory-governance-multi-principal·eval-predictive-validity 중복) · World Models in Pieces(2606.24842, 구조적 인증 — world model 도메인) · NatureBench(2606.24530, 논문 SOTA 재현 코딩 에이전트 벤치 — eval 도메인) · AOHP(2606.23449, OS-level 에이전트 하네스 — os-level-syscall-sandbox·open-reference-harness-architecture 도메인) · Qwen-AgentWorld/OpenThoughts-Agent/Holistic Data Scheduler/DREAM/World Value Models/MobileForge — 훈련/도메인.

8/10rule

EDV (Execute-Distill-Verify) — 경험 메모리 쓰기를 단일 자기반성 아닌 실행·증류·검증 분리로, 자기확증 함정 차단 arXiv

단일 에이전트 경험 루프는 Self-Confirmation Trap — 틀렸지만 자기일관적 궤적이 "성공"으로 박혀 검색·재사용에서 누적 오염. EDV는 Execute(이질적 병렬)·Distill(제3자)·Verify(합의)를 분리해 메모리 삽입 전 오류를 거른다.

분석: 경험 기반 자가진화는 대부분 단일 에이전트 루프(같은 에이전트가 실행·요약·메모리 쓰기 결정 독점)라 wrong-but-self-consistent 궤적이 성공 경험으로 오인되어 누적 오류 — EDV는 Execute(여러 이질적 에이전트 병렬 탐색) → Distill(전담 제3자가 비교 증류, 실행자 중심 편향 제거) → Verify(실행 그룹 합의 검증, 승인분만 기록)로 분리해 고립된 자기반성을 협력적 구성으로 (arXiv 2606.24428, tau2-bench·Mind2Web·MMTB 장기 벤치 일관 향상)
적용 이유: 단일 에이전트가 실행·요약·메모리 쓰기를 독점 금지, 실행자 자신이 자기 궤적을 증류 금지(executor-centric bias), 단일 self-judge로 경험 검증·기록 금지(합의 필요), 오염은 read 아닌 write 단계에서 사전 차단(쓰기 주체≠실행 주체 + 합의 통과분만 기록하는 write-gate)
기대효과: judge-as-optimizer-hardening(train/eval 분리)의 경험 쓰기 버전, evaluator-committee-bias-contagion·blind-validation-layer가 Verify·Distill 구현, cross-batch-evidence-accumulation(1회≠안정)·recursive-self-improvement-loop(Curator)와 정합, shared-agent-memory·agent-skill-compounding(자동 저장)에 write-gate 추가, memory-governance-multi-principal(사후 forgetting)과 보완(사전 차단)
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ experience-learning-execute-distill-verify.md

126

수확

GH 15 · 구루GH 28 · HF 12(신규배치) · arXiv 0(차단) | 신규 8 | Applied 12026-06-24

소스 포화 지속 라운드 — 전 소스 조회 후 HF 신선 배치에서 rule 부재 1건 정밀 발굴. GitHub trending(15)은 전부 기존 rule 의미 중복: OpenMontage·voicebox·palmier-pro(미디어 도메인 앱), bytedance/deer-flow(long-horizon 하네스 — sandbox/memory/subagent)→deep-agents-harness-primitives·durable-agent-workflow, revfactory/harness→meta-skill-team-factory(111차 동일 repo), DeusData/codebase-memory-mcp(영속 지식그래프 MCP)→bi-temporal-structural-memory·graph-rag-codebase-indexing(125차 기지적), NousResearch/hermes-agent→autonomous-skill-crystallization(48차), claude-plugins-official→official-plugin-directory-standard(89차), Anthropic-Cybersecurity-Skills→production-grade-agent-skills. 구루 GitHub(anthropics·simonw·yoheinakajima 28)도 수렴 — anthropics는 SDK/CLI/플러그인 디렉토리(기적용), simonw는 datasette/스크래퍼(데이터 도메인), yoheinakajima는 activegraph 파생(activegraph-lab·ag-coder·packs — 123차 event-sourced-reactive-graph-runtime 수렴). arXiv firehose는 sandbox에서 export.arxiv.org 차단(0건) → HF 일별 논문 06-24가 신규 발행(12편, 2606.24xxx 신규 배치)으로 대체. 신규 배치에서 rule 부재·loopy-era 전이 높은 후보 1건 발굴 → 컨텍스트 관리를 수동 누적이 아니라 에이전트 정책이 발화하는 1급 행동으로, 구조화 필드로 핵심 사실 보존하며 압축한다. 신규 rule 1건 적용(기존 264→265, dedup 0중복). 핵심 발견 — 장기 작업(여러 스텝·앱 전환에 걸쳐 중간 사실 보존)에서 에이전트가 불안정한 근본 원인은 ReAct식 프롬프팅이 매 스텝 기록을 수동으로 누적해 프롬프트 폭발(prompt explosion) + 결정적 교차-스텝 사실의 희석(dilution)을 부르는 것. MemGUI-Agent의 ConAct(Context-as-Action)는 컨텍스트 관리를 UI 행동을 고르는 그 정책이 직접 발화하는 1급 행동으로 만들고, 히스토리를 수동 append하는 대신 3개 구조화 컨텍스트 필드(접힌 행동 히스토리 / 접힌 상태 / 최근 스텝 기록)로 핵심 사실은 보존하며 compact하게 유지(MemGUI-3K 2,956 trajectory + MemGUI-8B-SFT가 open-data 8B 최고 + OOD MobileWorld 일반화). 전이: 장기 세션 컨텍스트 관리를 "수동 누적+사후 압축"으로 두지 말고 무엇을 접고 보존할지를 행동으로 결정, 구조화 필드로 핵심 사실이 폴딩에서 살아남게 → trajectory-aware-compaction(124차, "언제 압축")의 "무엇·행동" 축 보완, task-aware-context-pruning(외부 스키머)을 정책-내장 1급 행동으로 확장, compaction-governance-decay·complete-state-checkpoint·joint-quality-compression-measurement(접기 이득은 토큰·작업 성공 동시 측정)와 정합. 참고(미적용·훈련/도메인/의미중복 SKIP): Qwen-AgentWorld(2606.24597, 언어 world model로 환경 시뮬레이션 — 모델 훈련 도메인) · OpenThoughts-Agent(2606.24855, 에이전트 훈련 데이터 레시피 — 훈련) · Holistic Data Scheduler(2606.24133, LLM 사전훈련 데이터 믹싱 SAC RL — 사전훈련) · DREAM(2606.24667, next-token로 dense retrieval 지도 — retrieval 모델 훈련, retrieval-grounded-exact-recall·metadata-guided-chunk-retrieval 수렴) · World Value Model(2606.24742, 로보틱스 value model — 도메인) · MobileForge(2606.19930, 모바일 GUI 에이전트 무주석 적응 — 도메인).

8/10rule

MemGUI-Agent / Context-as-Action — 컨텍스트 관리를 수동 누적 아닌 정책 발화 1급 행동으로, 구조화 필드로 핵심 사실 보존하며 압축 arXiv

ReAct식 수동 누적은 프롬프트 폭발 + 핵심 교차-스텝 사실 희석 — ConAct는 컨텍스트 관리를 정책이 발화하는 1급 행동으로, 3개 구조화 필드(접힌 히스토리/상태/최근 기록)로 핵심 사실 보존하며 compact.

분석: 장기 작업(여러 스텝·앱 전환에 걸쳐 중간 사실 보존)에서 ReAct식 프롬프팅은 매 스텝 기록을 수동 누적해 프롬프트 폭발 + 결정적 교차-스텝 사실 희석을 부른다 — ConAct(Context-as-Action)는 컨텍스트 관리를 UI 행동을 고르는 그 정책이 직접 발화하는 1급 행동으로, 히스토리 수동 append 대신 3개 구조화 필드(접힌 행동 히스토리 / 접힌 상태 / 최근 스텝 기록)로 핵심 사실 보존하며 compact (arXiv 2606.19926, MemGUI-3K 2,956 trajectory, MemGUI-8B-SFT open-data 8B 최고 + OOD MobileWorld 일반화)
적용 이유: 매 스텝 기록 수동 무한 누적 금지(프롬프트 폭발·핵심 사실 희석), 컨텍스트 관리를 토큰 임계/외부 미들웨어에만 위임하지 말고 정책이 무엇을 접을지 행동으로 결정, 모든 컨텍스트를 한 덩어리로 압축 말고 구조화 필드로 분리해 핵심 사실 보존, 접기 이득은 토큰·작업 성공 동시 측정
기대효과: trajectory-aware-compaction(124차, "언제 압축")의 "무엇·행동" 축 보완(언제 × 무엇의 두 축), task-aware-context-pruning(외부 스키머)을 정책-내장 1급 행동으로 확장, compaction-governance-decay·complete-state-checkpoint-restore와 정합, joint-quality-compression-measurement·harness-benefit-not-update(압축≠이득)와 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ context-as-action-management.md

125

수확

GH 30 · 구루GH 24 · arXiv 60(중복) · HF 0 | 신규 6 | Applied 22026-06-24

소스 포화 라운드 — 전 소스 조회 후 rule 부재 후보만 정밀 발굴. arXiv firehose(cs.AI/CL/LG/MA 60편)는 124차가 어제 소진한 2606.23xxx 풀과 동일(신규 배치 미발행), HF 일별 논문은 06-24가 아직 미발행(API가 06-23 이하만 허용). 따라서 GitHub trending(30) + 구루 GitHub(anthropics·hwchase17 24)로 신선 신호를 확보했으나 대부분 기존 rule의 의미 중복(NVIDIA/SkillSpector→agent-skill-security-scanning 114차 기적용, NousResearch/hermes-agent 48차, CopilotKit 108차, DeusData/codebase-memory-mcp→bi-temporal-structural-memory·graph-rag-codebase-indexing, withastro/flue→deep-agents-harness-primitives·composable-agent-primitives 수렴). arXiv 잔여 풀에서 rule 부재·loopy-era 전이 높은 후보 2건만 발굴 → 2축(에피스테믹 권한 분리 + 적응적 오케스트레이션): 에이전트는 보조하고 분석적 결론은 형식 방법·데이터에 grounded한다 · 실행 전 완성 계획을 못 박지 말고 다음 행동을 중간 산출물로 선택한다. 신규 rule 2건 적용(기존 262→264, dedup 0중복). 핵심 발견 — (1) LLM을 인과 발견에 결합할 때 모델에게 직접 엣지·방향·prior·결론을 공급하게 하면 그 결론이 데이터·가정에 의한 것인지 텍스트 연상·프롬프트 아티팩트·환각인지 구별 불가해진다. 해법은 역할 분리 — 에이전트는 데이터 검사·맥락 검색·방법 가정 설명·결과 명료화·워크플로우 조율만 하고, 인과 claim은 데이터+명시 가정+형식 알고리즘+진단+전문가 결정에 grounded된 채 남는다. 전이: 틀리면 안 되는 분석적 결론(근본원인·취약 판정·blast radius·의존성 방향·정합성)을 LLM 서술로 공급 금지 → deterministic-orchestrator-scheduling(LLM=구현·결정은 결정론)의 분석 결론 버전, white-box-evidence-guided-optimization(블랙박스 추측 금지)·retrieval-grounded-exact-recall(정확한 사실은 검색)·exploit-verified-security-testing("no exploit, no report")과 정합. (2) 복잡한 다단계 작업에서 고정 파이프라인은 단계 순서를 미리 정해 중간 증거에 적응 못 하고, plan-then-execute조차 실행 전에 완성 워크플로우를 못 박아 실행 중 드러나는 중간 산출물·피드백에 적응 못 한다. SQLConductor는 서브태스크를 action으로 정의하고 다음 행동을 중간 산출물·피드백으로 매 스텝 선택(MCTS 탐색 + stability 추정 + policy 학습). 전이: /team Phase 0→5 같은 다단계를 시작 시점에 불변 계약으로 못 박지 말고 중간 증거(빌드 로그·테스트 결과·발견 의존성)로 다음 행동 선택, 단 stop 조건으로 무한 적응 방지 → dynamic-workflows-harness(동적 vs 정적)의 실행 내 적응 버전, controller-reconciliation-loop·hierarchical-local-first-recovery·deterministic-orchestrator-scheduling(적응성≠비결정성)과 정합. 참고(미적용·도메인/의미중복 SKIP): SPIRAL(2606.23595, seq+parallel+aggregative 추론 스케일링 — dynamic-workflows-harness의 fan-out-and-synthesize 중복) · Topology of Ill-Posed Questions(2606.23590, persistent homology로 모호 질의 탐지 — quantified-ambiguity-gate·acceptance-criteria-completion 중복) · TROPT(2606.23496, 이산 텍스트 최적화 통합 프레임워크 — red-teaming 도메인, multi-turn-adversarial-robustness로 커버) · withastro/flue(Astro 하네스 프레임워크 — agents+workflows+sandbox+durable+subagents+skills 프리미티브 번들, deep-agents-harness-primitives·composable-agent-primitives·durable-agent-workflow 수렴) · hwchase17/harbor(에이전트 eval + RL 환경 — adaptive-harness-open-ended-streams 도메인, 0★ 미성숙).

8/10rule

Causal Discovery in the Era of Agents — 에이전트는 보조, 분석적 결론은 데이터·형식 방법에 grounded arXiv

LLM이 엣지·방향·결론을 직접 공급하면 데이터 뒷받침과 텍스트 연상이 구별 불가 — 에이전트는 검사·검색·설명·조율만, claim은 데이터+가정+형식 알고리즘+진단에 grounded.

분석: LLM에게 인과 방향 추론·그래프 구조 제안·LLM 출력을 prior/constraint로 주입하면 그 결론이 데이터·가정에 의한 것인지 텍스트 연상·프롬프트 아티팩트·환각 메커니즘에 의한 것인지 흐려진다 — 에이전트는 데이터 검사·맥락 검색·방법 가정 설명·결과 명료화만 하고, 인과 claim은 데이터+명시 가정+형식 알고리즘+진단+전문가 결정에 grounded (arXiv 2606.23608, causal-learn+ 플랫폼, Big Five 케이스 스터디)
적용 이유: 분석적 결론(근본원인·취약·blast radius·의존성 방향·정합성)을 LLM 텍스트 연상으로 직접 공급 금지, 에이전트의 정당한 역할=보조(검사·검색·설명·조율), 결론은 형식 방법+데이터+명시 가정+진단에서, 비가역·고위험·도메인 결론은 사용자/전문가 결정으로 grounded
기대효과: deterministic-orchestrator-scheduling(LLM=구현·결정은 결정론)의 분석 결론 버전, white-box-evidence-guided-optimization·evidence-backed-investigation과 정합, retrieval-grounded-exact-recall·llm-detector-calibration의 분석 결론 일반화, exploit-verified·acceptance-criteria-completion·brokered-mutation-authority와 결합(보조와 결론 권한 분리)
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ agent-assist-not-conclude.md

7/10rule

SQLConductor — 실행 전 완성 계획 못 박지 말고 다음 행동을 중간 산출물·피드백으로 선택 arXiv

고정 파이프라인은 중간 증거에 적응 못 하고, plan-then-execute조차 실행 전 워크플로우를 못 박는다 — 다음 행동을 중간 산출물·피드백으로 매 스텝 선택.

분석: 다단계 작업에서 고정 파이프라인은 단계 순서를 미리 정해 쿼리 요구·중간 증거에 적응 못 하고, 오케스트레이션 기반 plan-then-execute조차 실행 전에 완성 워크플로우를 못 박아 중간 산출물·피드백에 적응 못 한다 — SQLConductor는 서브태스크를 action으로 정의하고 다음 행동을 중간 산출물·피드백에 근거해 매 스텝 선택(MCTS 워크플로우 탐색 + stability 추정 robust 감독 + policy 학습) (arXiv 2606.23537)
적용 이유: 다단계 워크플로우를 실행 전 완성·고정(plan-then-execute) 금지, 다음 행동을 그 시점까지의 중간 산출물(exit code·테스트 결과·파일 상태)로 선택, 고정 stage 순서가 이 작업에 맞는지 의심, 적응 결정도 결정론적·grounded(적응성≠비결정성), stop 조건으로 무한 적응 방지
기대효과: dynamic-workflows-harness(동적 vs 정적)의 실행 내 적응 버전, controller-reconciliation-loop·desired-state-agent-reconciliation과 정합, hierarchical-local-first-recovery·white-box-evidence-guided-optimization과 결합, convergence-loop-no-mid-question·auto-block-stuck-tasks(stop 조건)와 결합
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ step-wise-orchestration-vs-plan-then-execute.md

124

수확

arXiv 60 | HF 35 | 관련 10 | Applied 22026-06-23

arXiv cs.AI/CL/LG/MA firehose 60편 — 신규 2606.23xxx 배치로 갱신(113~121차의 2606.20xxx, 122차의 2606.22xxx와 완전히 다른 풀) + HF 일별 논문 06-23 갱신(35편). 신규 배치에서 rule 부재·loopy-era 전이 높은 후보만 발굴 → 2축(압축 타이밍 + 최적화 전이): 압축은 토큰 임계가 아니라 trajectory 구조로 타이밍한다 · 단일 에이전트 프롬프트 최적화가 멀티에이전트로 전이된다고 가정 금지. 신규 rule 2건 적용(기존 259→261, dedup 0중복). 핵심 발견 — (1) 기존 scaffold는 토큰 임계값 기반 고정 간격 압축으로 컨텍스트를 줄이는데, 이 트리거는 trajectory 구조를 전혀 보지 않아 도출 중간(mid-derivation)·검색 중간의 부분 결과를 버린다. SelfCompact는 모델이 스스로 압축 도구 + 경량 rubric(발화: 서브태스크 완결·trajectory 수렴 / 억제: 도출 중간·막힌(stuck) 상태)로 적응 압축 — 둘 다 필요(도구만 주면 엉뚱한 시점에 쓰거나 안 씀, rubric만으론 실행 불가). 고정 간격 동등/상회 + 토큰 30~70%↓(math +18.1점·agentic search +5~9점). 핵심 메타인지 격차: 모델은 프롬프트 없이는 자기 컨텍스트가 압축 가능한 시점인지 신뢰성 있게 판단 못 함 → 우리 시스템의 strategic compact에 억제 조건(mid-derivation·stuck)을 추가, 발화 경계 = 안전 경계 ∩ 완전 상태 경계, cost-aware-harness-tuning(발화 breakpoint만)·compaction-governance-decay(122차, "언제 vs 무엇")·complete-state-checkpoint·joint-quality-compression-measurement와 정합. (2) MAS에서 시스템 프롬프트는 파인튜닝 없이 시스템 레벨 개선을 가능케 하는 표면이지만, 단일 LLM 프롬프트 최적화를 멀티에이전트로 확장하면 검색 공간이 지수 폭증하고 이득이 task·workflow·communication protocol·team-size에 크게 민감(어떤 구성엔 도움, 어떤 구성엔 미미/역효과) → 단일 specialist 프롬프트 개선이 /team 구성으로 자동 전이된다고 가정 금지, 우리가 실제 쓰는 구성에서 전후 측정, harness-benefit-not-update(변경≠이득)의 멀티에이전트 프롬프트 버전·eval-predictive-validity(단일 설정 점수≠전이)·in-context-demos-not-neutral과 정합. 참고(미적용·도메인/의미중복 SKIP): Against Proxy Optimization(2606.23597, 결정이론 proxy 최적화 — 추상 과소·acceptance-criteria-completion 의미중복) · OpenRath(2606.19409, Session 1급 런타임 상태 — complete-state-checkpoint·explicit-state-ledger 중복) · TAPO/Learning from Your Own Mistakes(2606.18844, micro-reflective self-distillation — RL 훈련 기법·recursive-self-improvement-loop·implicit-feedback 중복) · PlanBench-XL(2606.22388, 장기 계획 벤치)·EnterpriseClawBench(2606.23654, 워크플레이스 에이전트 벤치 — eval-predictive-validity 도메인) · SkillHarness(2606.20636, computer-use 안전 스킬 — agent-skill-security-scanning 도메인) · Evaluation Awareness Is Not One Capability(2606.23583)·Self-Report Adversarial Prefills(2606.23671) — 협소 안전/메타.

8/10rule

SelfCompact — 압축은 토큰 임계가 아니라 trajectory 구조로 타이밍, 안전 경계 발화·도출 중간 억제 arXiv

고정 간격 압축은 trajectory 구조를 안 봐 도출 중간 부분 결과를 버림 — 도구+rubric로 안전 경계에서만 발화, 토큰 30~70%↓.

분석: 장기 trace의 stale 콘텐츠를 토큰 임계 고정 간격으로 압축하면 도출/검색 중간 부분 결과를 버림 — SelfCompact는 압축 도구 + 경량 rubric(발화: 서브태스크 완결·수렴 / 억제: 도출 중간·stuck)로 모델이 스스로 결정, 둘 다 필요. 고정 간격 동등/상회 + 토큰 30~70%↓(math +18.1·agentic search +5~9), 모델은 프롬프트 없이 압축 시점을 신뢰성 있게 판단 못 함 (arXiv 2606.23525, 6벤치×7모델)
적용 이유: 압축 타이밍을 토큰 임계만으로 결정 금지(trajectory 구조 인지), 발화는 안전 경계(서브태스크 완결·milestone·수렴)·억제는 불안전 구간(도출 중간·stuck), 압축 메커니즘=도구+rubric 둘 다, 이득은 토큰만 아니라 task 품질 동시 측정
기대효과: cost-aware-harness-tuning(발화 breakpoint만)에 억제 조건 추가, compaction-governance-decay(122차, 언제 vs 무엇)와 클러스터, complete-state-checkpoint(커밋 경계 완전 상태)와 정합, joint-quality-compression-measurement·harness-benefit-not-update(압축≠이득)와 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ trajectory-aware-compaction.md

8/10rule

MAS-PromptBench — 단일 에이전트 프롬프트 최적화가 멀티에이전트로 전이된다고 가정 금지 arXiv

MAS로 확장하면 검색 공간 지수 폭증 + 이득이 task·workflow·protocol·team-size에 민감 — 구성별로 측정.

분석: MAS 시스템 프롬프트는 파인튜닝 없는 시스템 레벨 최적화 표면이지만, 단일 LLM 프롬프트 최적화를 MAS로 확장하면 검색 공간 지수 폭증 + 언제·얼마나 개선되는지·구성 민감성 불분명 — task·workflow·communication protocol·team-size 가변 설정에서 측정 시 이득이 구성에 따라 크게 달라짐 (arXiv 2606.23664)
적용 이유: 단일 에이전트 프롬프트 개선을 멀티에이전트 구성으로 자동 전이 가정 금지, 이득은 구성(task·workflow·protocol·team-size)별로 측정, 지수 검색 공간 인지(무차별 최적화 금지), MAS 프롬프트 변경은 해당 구성 회귀 검증
기대효과: harness-benefit-not-update(변경≠이득)의 멀티에이전트 프롬프트 버전, eval-predictive-validity(단일 설정 점수≠전이)와 정합, probe-and-refine·llm-eval-as-ci-gate(프롬프트 회귀)와 결합, agent-delegation-strategy·/team(우리 MAS)에 직접 적용 — specialist 프롬프트 튜닝 이득은 team 구성별로
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ mas-prompt-optimization-config-dependent.md

123

수확

GH 20 · 구루GH 48 · topic 16 · HF 25 · arXiv 30 | 신규 52 | Applied 12026-06-23

소스 커버리지 복구 라운드. 최근 수확이 arXiv·HuggingFace(API라 손쉬움)로만 쏠리던 드리프트를 바로잡았다.

· 고친 것 — SKILL.md Phase 1에 소스 커버리지 강제(GitHub·구루·topic·HF·arXiv 전부 시도, arxiv-only 종료 금지) + autorun 프롬프트에 소스 명시.
· 커버리지 결과 — 5개 소스 전부 정상 조회: GitHub trending 20, 구루 GitHub 48, topic 16, HuggingFace 25, arXiv 30. 신규 후보 52건(중복 32건).
· 검증 — 끊겼던 구루 GitHub 직접 스캔이 되살아남을 실증. apply 발생 시 Phase 7 cc-sync 자동 백업도 확인.

※ 이번 회차 수확 항목의 분석·적용 근거는 아래 카드 참조.

9/10rule

Active Graph — 공유 그래프가 조율 매개, behavior가 그래프에 반응, 모든 run이 resume/fork/diff yoheinakajima

에이전트가 메시지 대신 공유 그래프에 read/write·반응 + 모든 변경 append-only event log → resumable·forkable·diff-able + byte-deterministic fixtures.

분석: "그래프=세계, behavior=물리, trace=증명" — event-sourced reactive graph runtime. chat 기반 다중 에이전트가 "그룹 대화"라면 이건 "무엇이·누가·왜 바뀌었는지 모두 보는 공유 워크스페이스". 녹화 fixture로 API키 0·byte-deterministic 데모 (yoheinakajima/activegraph 318★, babyagi 제작자)
적용 이유: 멀티에이전트 조율이 message-passing으로 복잡해지면 공유 그래프 substrate 대안(orchestration-state→graph), 장기 run을 append-only event log로 resume/fork/diff, 결정론 검증을 byte-deterministic fixture(동일입력→동일 event hash)로
기대효과: state-driven-orchestration + forced-stop event journal + graph-workflow-checkpointing을 "공유 그래프=조율" 한 substrate로 통합, autoresearch keep/discard를 event-log diff로 HARD 판정
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ event-sourced-reactive-graph-runtime.md

122

수확

arXiv 50 | HF 9 | 관련 8 | Applied 22026-06-23

arXiv cs.AI/CL/LG/MA firehose 50편 — 신규 2606.22xxx 배치로 갱신(113~121차가 소진한 2606.20xxx와 다른 풀) + HF 일별 논문 06-23(9편, 119~121차가 mining한 06-22와 별개 풀). 신규 배치에서 rule 부재·loopy-era 전이 높은 후보만 발굴 → 2축(안전 영속화 + 검증 배분): 컨텍스트 압축이 in-context 안전 제약을 조용히 지운다 · 검증은 위험도에 비례해 배분한다. 신규 rule 2건 적용(기존 257→259, dedup 0중복). 핵심 발견 — (1) 장기 에이전트가 토큰 예산을 맞추려 쓰는 컨텍스트 압축·요약이 안전필수 실패면이다 — 보이는 동안 지키던 거버넌스 제약이 압축으로 조용히 사라지면 같은 에이전트가 금지 도구 동작을 수행(Governance Decay). 1,323 에피소드에서 위반율 full context 0% → 압축 후 30%(일부 모델 59%), 제약이 요약에 살아남으면 0%·드롭되면 38%, 게다가 적대적 입력이 요약기를 편향시켜 정책을 누락하게 만드는 Compaction-Eviction Attack이 모든 모델을 뚫음 → 우리 시스템의 거대한 CLAUDE.md·rules(in-context 거버넌스)는 compaction에 취약, HARD 제약은 압축 밖 영속층(hook exit code·settings.json·파일)에 두고 압축 후 생존 검증, 요약기는 injection 표면 → soft-to-hard-promotion의 인식론적 근거(prose는 compaction에 취약, hook은 불변)·persistent-file-based-planning(SHA-256 attestation)·complete-state-checkpoint와 정합. (2) 검증은 모든 주장/변경에 균일하게 쏟지 말고 위험도에 비례 배분 — FACTOR는 주장 단위 불확실성에 따라 검증 기준을 적응시켜 factuality↑·검증 비용↓ 동시 달성. 균일 검증은 저위험에 낭비하고 고위험을 과소검증 → 비가역·blast radius·민감도로 위험 추정 → 고위험(비가역·시크릿·핵심)은 풀 검증 floor + 저위험은 경량, probabilistic-policy-verification 보완("어떻게 검증" vs "어디에 얼마나 배분")·complexity-tier-model-routing의 검증 버전. 참고(미적용·도메인/의미중복 SKIP): Grounded Scaling(2606.22495, δ^k 체인 성공 법칙 — agent-infrastructure-ratio·adaptive-harness·deterministic-orchestrator-scheduling과 의미중복) · PRIME(2606.22470, 충돌 지시 해소 — Instruction Priority로 부분 커버) · VADAOrchestra(2606.22485, Datalog+/- 뉴로심볼릭 워크플로우 — declarative-workflow·consensus-based-swarm와 중복) · CalVerT(2606.21777, calibrated verifier telemetry — probabilistic-policy/llm-detector-calibration과 중복) · EvoEmbedding(2606.21649)·KaLM-Reranker(2606.22807, 임베딩/리랭커 아키텍처 — 도메인) · MacAgentBench(2606.22557, macOS 데스크탑 벤치 — computer-use 도메인) · DailyReport(2606.12871, 검색 에이전트 벤치 — eval-predictive-validity로 커버).

8/10rule

Governance Decay — 컨텍스트 압축은 in-context 안전 제약을 조용히 지운다, 제약은 압축 밖 영속층에 arXiv

보이는 동안 지키던 거버넌스 제약이 압축으로 조용히 사라지면 같은 에이전트가 금지 동작 수행 — 압축 후 위반 0%→30%(최대 59%).

분석: 장기 세션 토큰 예산용 압축·요약·축출이 안전필수 실패면 — in-context 제약이 compaction으로 silent 제거, 1,323 에피소드 위반 full context 0%→압축 후 30%(일부 59%), 제약 생존 시 0%·드롭 시 38%, Compaction-Eviction Attack(적대적 입력이 요약기 편향→정책 누락)이 모든 모델 우회 (arXiv 2606.22528, ConstraintRot)
적용 이유: HARD 거버넌스 제약을 prose(CLAUDE.md/rules 본문)에만 의존 금지(compaction 시 silent 소실), 진짜 강제는 압축 밖 영속층(hook exit code·settings.json·파일)에, 압축 후 제약 생존 검증(PreCompact/SessionStart 재주입), 요약기를 injection 표면으로 인지, 위반은 deterministic tool-call grading으로 채점
기대효과: soft-to-hard-promotion의 인식론적 근거(prose는 compaction 취약·hook은 불변), persistent-file-based-planning(SHA-256 attestation)·complete-state-checkpoint를 거버넌스 제약에 적용, dynamic-workflows-harness의 goal-drift를 안전 제약으로 확장, agent-skill-security-scanning·defensive-misdirection과 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ compaction-governance-decay.md

9/10rule

FACTOR — 모든 주장에 같은 검증 말고, 위험도에 비례해 검증 노력을 배분한다 arXiv

균일 검증은 저위험에 낭비하고 고위험을 과소검증 — 위험도 비례 배분으로 factuality↑·검증 비용↓ 동시.

분석: 기존 검증은 주장마다 환각 위험이 다른데도 동일 정책 적용 — FACTOR는 주장 단위 불확실성에 따라 검증 기준 적응(불확실성 추정+적응적 추론 검증+후보 재랭킹), 검증 노력을 가장 필요한 곳에 배분해 factuality↑·검증 비용↓ 동시, model-agnostic (arXiv 2606.22474, FactScore)
적용 이유: QA·리뷰·증거 요구를 모든 변경에 균일 적용 금지, 위험 신호(비가역·blast radius·확신·민감도)로 검증 tier 결정, 품질·비용 동시 측정(비용↓이 품질↓ 동반하면 배분 오류), 고위험(비가역·시크릿·핵심)은 검증 floor — 적응은 저위험을 줄이는 방향
기대효과: probabilistic-policy-verification 보완("어떻게 검증" vs "어디에 얼마나 배분"), complexity-tier-model-routing의 검증 버전(위험도→검증 tier), brokered-mutation-authority·content-graph-precise-context가 위험 신호 공급, joint-quality-compression-measurement·acceptance-criteria-completion과 정합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ risk-weighted-verification-budget.md

121

수확

arXiv 50 | HF 13 | 관련 6 | Applied 22026-06-23

arXiv cs.AI/CL/LG/MA firehose 60편(관련 50, 신규 37) + HF 일별 풀(오늘 06-23 미발행 → 06-22 13편 재확인). 2606.20xxx 배치는 113~120차에서 대부분 rule화·의미중복 SKIP(LedgerAgent·Sovereign Broker·Multi-LCB·Probe-Refine·Mixed-Compliance·Contagion·Global-Replan·Implicit-Feedback·Marginal-Advantage·Defensive-Misdirection·UltraQuant·Multi-View·AutoPass·Judge-as-Optimizer 등), HF 06-22도 119~120차에서 소진(GateMem·Distilling-Examples). 이번엔 firehose 잔여 풀 + HF 미적용분에서 rule 부재·loopy-era 전이 높은 후보만 발굴 → 2축(검색 계층): 정확한 사실은 파라미터 기억이 아니라 검색에서 · 청킹은 precision↔비용 트레이드오프 + 메타데이터 보강 + 인덱스 사전계산. 신규 rule 2건 적용(기존 255→257, dedup 0중복). 핵심 발견 — (1) 정확한 인용·법조항을 4-arm(base/SFT/RAG/SFT+RAG)으로 실증: base는 인용 불가, SFT 단독은 조항을 *잘못* 회상(hallucinated citation), 검색은 환각을 구조적으로 0으로, SFT+RAG hybrid가 최고 — SFT가 high-recall 후보에서 옳은 항목 선택을 robust화. 싼 bge-small hybrid가 크고 특화된 검색 모델을 동급/상회 → 우리 시스템에서 인용·파일 경로·API 시그니처·설정값·버전은 파라미터 기억(자신감 있는 오인용)이 아니라 memory-bank·코드검색·`git show`로 검색, evidence-only-reporting·commit-landing-verification과 정합. (2) RAG는 청킹·검색 방식에 결정적 의존 — 작은 청크는 precision↑·검색공간↑(지연·비용), 큰 청크는 후보↓·혼합 토픽 노이즈↑ → raw cosine만 의존 말고 토픽 메타데이터를 같은 임베딩 공간에 넣어 보강, retriever를 LLM-teacher distillation으로 경량화해 추론 시점 LLM 호출 0, ast-aware-code-search·precomputed-code-intelligence 보강. 참고(미적용·도메인/의미중복 SKIP): Agentic Symbolic Search(2606.20467, PDE 수학 — evidence-guided/evolutionary와 의미중복) · MemSlides(2606.17162, 슬라이드 생성 메모리 계층 — execution-path-crystallization/surgical-changes와 중복) · WorldLines(2606.18847, embodied 장기상태 — complete-state-checkpoint/explicit-state-ledger와 중복) · G2Rec(2606.20554, 산업 추천 토큰화 — 도메인) · DAE RL(2606.20411)·Data-Bias(2606.20461)·CATCH-ME RAG dataset(2606.20369) — loopy-era 전이 낮음.

8/10rule

Train, Retrieve, or Both? — 정확한 사실은 파라미터 기억이 아니라 검색에서, SFT 단독은 오인용 arXiv

SFT 단독은 조항을 잘못 회상하고, 검색은 환각을 구조적으로 0으로 만든다 — 정확한 사실은 retrieve.

분석: 정확한 법령 인용을 4-arm(base/LoRA SFT/RAG/SFT+RAG)으로 실증 — base는 인용 불가, SFT 단독은 hallucinated citation, 검색은 by construction 환각 0, SFT+RAG hybrid 최고(0.481 exact-match·환각 0). SFT가 high-recall 후보에서 옳은 항목 선택을 robust화, 싼 bge-small hybrid가 큰 특화 모델 동급/상회 (arXiv 2606.20359)
적용 이유: 인용·파일 경로·API 시그니처·설정값·버전처럼 틀리면 안 되는 사실은 파라미터 기억(자신감 있는 오인용)이 아니라 검색 소스 동반 필수, 검색이 환각을 구조적으로 0으로, 선택 보강은 가볍게(큰 특화 모델로 점프 금지), train(패턴·정책)과 retrieve(정확한 사실) 역할 분리
기대효과: evidence-only-reporting·evidence-backed-investigation의 사실-인용 버전, commit-landing-verification(`git show HEAD:`)·explicit-state-ledger와 정합, llm-detector-calibration-not-comprehension(파인튜닝은 임계값만 이동)과 결합, memory-bank/graph-rag의 "언제 train vs retrieve vs both" 의사결정 층
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ retrieval-grounded-exact-recall.md

7/10rule

MCompassRAG — 청킹은 precision↔비용 트레이드오프, 메타데이터로 보강하고 인덱스 시점 사전계산(추론 LLM 0) arXiv

작은 청크=precision↑·비용↑, 큰 청크=노이즈↑ — raw cosine만 말고 토픽 메타데이터로 보강, 추론 시 LLM 0.

분석: RAG는 청킹·검색 방식에 결정적 의존 — 작은 청크 precision↑·검색공간↑(지연·비용), 큰 청크 후보↓·혼합 토픽 노이즈↑. 토픽 메타데이터를 같은 임베딩 공간에 넣어 raw cosine 보강 + LLM-teacher distillation 경량 retriever → 추론 시점 추가 LLM 호출 0, 6개 corpus 효율+증거품질 동시 향상 (arXiv 2606.18508)
적용 이유: 청크 크기를 트레이드오프 의식 없이 고정 금지(의미 경계 청킹), 큰/혼합 청크 raw cosine만 신뢰 금지(메타데이터 보강), 비싼 판단은 인덱스 시점 사전계산(추론 LLM 0), 청킹/메타 변경은 precision·latency 실측
기대효과: ast-aware-code-search·semantic-code-search-mcp에 메타데이터 보강+트레이드오프 의식, precomputed-code-intelligence·incremental-codebase-indexing(인덱스 사전계산)과 정합, retrieval-grounded-exact-recall(같은 121차)의 검색 품질 층, harness-benefit-not-update와 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ metadata-guided-chunk-retrieval.md

120

수확

arXiv 50 | HF 10 | 관련 5 | Applied 22026-06-23

arXiv cs.AI/CL/LG/MA firehose 50편 재스캔 + HF 일별 풀(오늘 06-23은 미발행 → 최신 06-22 10편). 2606.20xxx 배치는 113~119차에서 대부분 rule화·의미중복 SKIP(LedgerAgent·Sovereign Broker·Multi-LCB·Probe-Refine·Mixed-Compliance·Contagion·Global-Replan·Implicit-Feedback·Marginal-Advantage·Defensive-Misdirection 등), HF 06-22도 119차에서 소진(GateMem·Distilling-Examples 적용). 이번엔 firehose 잔여 풀에서 미적용·rule 부재 후보만 발굴 → 2축: 멀티라운드 에이전트 KV/컨텍스트 압축의 동시-품질 측정 · lossy 도구 단일 view의 fragility. 신규 rule 2건 적용(기존 253→255, dedup 0중복). 핵심 발견 — (1) 컨텍스트가 무거운 멀티라운드 에이전트는 긴 prefix(시스템 프롬프트·규칙·계획)가 여러 짧은 턴에 재사용된다 — 4-bit KV 압축의 이득은 task quality·cache residency·serving throughput을 *동시에* 측정해야 하고, 압축률만 보고 품질 보존을 가정하면 안 된다(압축≠이득) → context-compression-pipeline·tool-output-sandboxing·cli-output-compression에 "품질 동시 측정" 게이트 + harness-benefit-not-update의 컨텍스트 적용. (2) LLM이 디컴파일러·파서·단일 grep 같은 lossy 휴리스틱 도구 한 view로 코드/바이너리를 분석하면 도구가 흘린 정보가 곧 LLM의 놓침(낮은 recall)이 된다 — Ghidra+RetDec 두 view를 함께 주면 악성 F1↑(주로 recall↑) → 상호보완적 다중 view로 recall 보강, llm-detector-calibration-not-comprehension(LLM 탐지기≠추론)·exploit-verified-security-testing와 결합. 참고(미적용·도메인/의미중복 SKIP): Multi-Task Bayesian ICL(2606.20538, PFN/transformer 아키텍처 ML — distill-examples/in-context-demos와 의미중복) · Optimal-Order Multi-Agent(2606.20485, q-fin 물리 프레임 동기화↔fragility — consensus-based-swarm와 추상중복) · FlowEdit(2606.20518, TTS lifelong adaptation — Hopfield 에피소드 메모리는 흥미롭지만 도메인 한정) · DataMagic(2606.20388, tabular→insight video — agent-as-workflow-compiler/declarative spec와 의미중복) · DiffusionGemma transparency·DeepSWIP·StylisticBias·PerceptionDLM(해석성/뉴로심볼릭/멀티모달 — loopy-era 무관).

8/10rule

UltraQuant — 멀티라운드 에이전트 컨텍스트/KV 압축 이득은 task quality·재사용·throughput을 동시 측정 arXiv

긴 prefix가 여러 짧은 턴에 재사용된다 — 4-bit KV 압축은 품질·재사용·처리량의 트레이드오프이지 공짜 이득이 아니다.

분석: 컨텍스트 무거운 멀티라운드 에이전트는 KV 캐시에 특이 압력 — 긴 prefix 재사용 + 동시성이 처리량 좌우. 4-bit KV 압축을 task quality·cache residency·serving throughput 동시 측정 프레임으로, K/V 비대칭·Walsh-Hadamard rotation·block-scale로 robust화 (arXiv 2606.20474)
적용 이유: 컨텍스트/도구출력/CLI 압축의 이득을 "토큰 N% 절감"만으로 단정 금지(품질 동시 측정 필수), 긴 재사용 prefix(시스템 프롬프트·CLAUDE.md·규칙)를 1급 자원으로 재사용 극대화, 압축률만 보고 throughput/품질 비례 향상 가정 금지
기대효과: context-compression-pipeline·tool-output-sandboxing·cli-output-compression에 "품질 동시 측정" 게이트, harness-benefit-not-update의 컨텍스트/압축 영역 적용(압축됨≠품질 유지하며 압축됨), persistent-file-based-planning과 정합
5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ joint-quality-compression-measurement.md

7/10rule

Multi-View Decompilation — lossy 도구 단일 view는 fragile, 상호보완 다중 view로 recall을 올려라 arXiv

디컴파일러·파서·grep은 lossy 휴리스틱 도구 — 단일 view가 흘린 정보가 곧 LLM의 놓침, 다중 view로 recall↑.

분석: LLM이 단일 디컴파일러 view로 악성 분류하면 fragile — 디컴파일러는 lossy, 도구마다 다른 artefact 노출. Ghidra+RetDec 두 view를 함께 주면 malicious F1↑(주로 악성 recall↑), agreement 분석으로 상보성 실증 (arXiv 2606.20436)
적용 이유: lossy 도구(디컴파일러·AST 파서·단일 grep·요약기) 단일 view로 LLM 코드 분석 단정 금지, 서로 다른 도구로 상호보완 view 합쳐 recall 보강(같은 도구 N회는 보완 아님), "못 잡음"이 LLM 능력 부족인지 도구 view 한계인지 분리
기대효과: llm-detector-calibration-not-comprehension(LLM 탐지기≠추론)과 결합, exploit-verified-security-testing·evidence-only-reporting의 recall 보강(다중 view로 놓침↓+실증 동반), semantic-code-search-mcp/multi-format-knowledge-graph의 코드 분석 적용
5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ multi-view-lossy-tool-analysis.md

119

수확

arXiv 60 | HF 9 | 관련 4 | Applied 22026-06-22

arXiv cs.AI/CL/LG/MA firehose 60편 재스캔(2606.20xxx 배치는 113~118차에서 전량 적용·의미중복 SKIP) + HF 일별 논문 06-22(9편) · GitHub weekly는 114~118차와 동일 주차(SkillSpector=114차, addyosmani/agent-skills=다수 적용, codebase-memory=메모리 다수 — 중복 SKIP). firehose가 소진되어 이번엔 HF 06-22 신규 풀에서 미적용 후보 발굴 → 2축: 멀티 principal 공유 메모리 거버넌스 · few-shot 예시의 지시 증류. 신규 rule 2건 적용(기존 251→253, dedup 0중복). 핵심 발견 — (1) 메모리 벤치마크는 대부분 단일 사용자 가정이지만 실제 공유 배포(병원·직장·가정)는 여러 principal이 한 풀에 쓰고 읽는다 — 메모리 품질은 recall만이 아니라 거버넌스 3축(utility·access control·active forgetting)이 필요하고, GateMem 실험에서 어떤 방법도 세 축을 동시 달성 못함(롱컨텍스트=거버넌스 최고지만 토큰비용↑, retrieval/external=싸지만 권한없는·삭제된 정보 누설) → shared-agent-memory·idempotency-key-namespacing 보완. (2) few-shot ICL은 예시를 이어 붙일수록 컨텍스트가 길어지며 성능이 떨어진다 — verbose 예시를 구조화 기준·명시 task 지시로 증류하면 토큰 99%↓ + AUC 최대 7%↑, 컨텍스트 증가에도 강건(토큰 압축 baseline은 9 F1↓) → in-context-demos-not-neutral(117/118차, 예시는 행동 중립 아님)의 실행 결론: 예시가 행동을 바꾸니 그 행동을 명시 지시로 고정. 참고(미적용·도메인/의미중복 SKIP): WorldLines(2606.18847, embodied/household 장기메모리 — 로보틱스 도메인, complete-state-checkpoint로 커버) · MemSlides(2606.17162, 3-tier 메모리 + scoped local revision — additive-not-destructive/hierarchical-local-first와 의미중복) · PerceptionDLM(멀티모달 비전, loopy-era 무관).

8/10rule

GateMem — 공유 메모리는 recall만이 아니라 거버넌스(접근제어+능동삭제)가 필요하다 arXiv

여러 principal이 한 메모리 풀에 쓰고 읽는다 — utility·access control·active forgetting 세 축을 동시 달성하는 방법이 없다.

분석: 메모리 벤치마크는 대부분 단일 사용자 가정 — 실제 공유 배포는 다 principal이 다른 역할·스코프로 같은 풀에 접근, GateMem이 utility+access control+active forgetting 3축 평가, 어떤 baseline도 동시 달성 실패(롱컨텍스트=거버넌스↑ 토큰↑, retrieval/external=싸지만 권한없는·삭제된 정보 누설) (arXiv 2606.18829)
적용 이유: 공유 메모리를 single-principal recall로만 취급 금지, 조회는 principal·scope 권한 경계로 필터(전역 무필터 검색 금지), 삭제는 원본+파생 인덱스(임베딩·요약·캐시) 재누설까지 검증, utility 단일 점수로 품질 판정 금지(3축 trade-off)
기대효과: shared-agent-memory·cross-agent-memory-persistence에 거버넌스 3축 추가, idempotency-key-namespacing(cross-scope hijack)의 조회 버전, brokered-mutation-authority·complete-state-checkpoint와 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ memory-governance-multi-principal.md

7/10rule

Distilling Examples — few-shot 예시를 쌓지 말고 명시적 task 지시로 증류한다 arXiv

예시를 이어 붙일수록 컨텍스트가 길어지며 성능이 떨어진다 — 구조화 기준·지시로 증류하면 토큰 99%↓ + 컨텍스트 강건.

분석: few-shot ICL은 예시 concat으로 컨텍스트 증가 시 한계 — verbose 예시를 컴팩트한 구조화 분류기준+정밀 task 설명으로 증류, 토큰 99%↓ + macro-AUC 최대 7%↑, 컨텍스트 증가에 강건(토큰 압축 baseline 9 F1↓), 분류 로직 직접 정제 가능 (arXiv 2606.15641)
적용 이유: 프롬프트에 원시 예시 누적 금지(토큰폭증+degradation), 예시는 기준 도출 재료이지 영구 채움 아님, 증류된 지시는 검증·정제 대상, 단순 요약(토큰 압축)과 구분(구조화 기준 없으면 컨텍스트 증가 시 무너짐)
기대효과: in-context-demos-not-neutral(예시는 행동 중립 아님)의 실행 결론(행동을 명시 지시로 고정), probe-and-refine-guidance-tuning의 압축 버전, token-brevity-pattern과 직교
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ distill-examples-to-instructions.md

118

수확

arXiv 60 | HF 1 | 관련 51 | Applied 32026-06-22

arXiv cs.AI/CL/LG/MA firehose 60편 재스캔(관련 51) + HF 일별 논문 06-22(1편, PerceptionDLM — 멀티모달 비전, loopy-era 무관 SKIP) · GitHub weekly는 114~117차와 동일 주차(중복 SKIP). firehose는 113~117차에서 적용한 2606.20xxx 배치와 동일 — Sovereign Brokers·Contagion·Calibration·Execution-Capsules·NRT-Bench·LedgerAgent·H-RePlan·AutoPass·Multi-LCB·Mixed-Compliance 등 의미 중복 제거. 아직 미적용 신규 후보를 firehose 꼬리에서 발굴 → 3축: 방어 신호누출(detect-and-misdirect) · judge를 optimizer로 쓸 때 circularity · 암묵 행동 피드백 신호. 신규 rule 3건 적용(기존 248→251, dedup 0중복). 핵심 발견 — (1) 자동화(model-guided) 공격 환경에서 예측 가능한 거부는 공격자의 자동 judge에 무료 신호를 준다 — detect-and-block은 query budget↑ 시 ASR→1, detect-and-misdirect(통제된 비작동 응답으로 공격자 judge의 false-positive 유도)가 PPV↓로 asymptotic ASR에 상한 → multi-turn-adversarial-robustness 보완(114차 관찰의 rule化). (2) ranking에서 통과한 judge를 최적화 루프에 넣으면 ranking이 안 건드린 실패모드가 드러난다 — train judge/eval judge 분리로 circularity 차단, reference-free judging은 clean-but-wrong 보상(anti-Goodhart 동형) → evaluator-committee-bias-contagion(116차) 보완. (3) 명시 피드백 부재가 "신호 없음"은 아니다 — 행동(무엇을 채택·사후수정·재지적·중단)에 선호가 샌다(IFLLM: 암묵 reward 55%→64%, DPO 후 품질 ~3배) → self-improve 마찰 채굴의 인식론적 근거. 참고(미적용·의미중복/저적합 SKIP): UltraQuant 4-bit KV(serving-layer) · Calibrated MoE(인프라 특화) · Train/Retrieve/Both(exact-recall=retrieval, 포화) · Multi-View Decompilation(3-tool cross-check로 커버) · SKILL.md 자동생성(115차 거부, readability≠transfer).

7/10rule

Defensive Misdirection — 예측 가능한 거부는 자동 공격자에게 신호를 준다, 차단 대신 오도로 ASR 상한 arXiv

detect-and-block은 budget↑ 시 ASR→1 — 일관된 거부가 공격자 자동 judge에 무료 신호. detect-and-misdirect가 PPV↓로 상한을 만든다.

분석: model-guided 자동 공격(probing·refinement·평가를 judge로 자동화)에서 detect-and-block은 예측 가능 거부가 탐색을 가속해 ASR→1, detect-and-misdirect(통제된 비작동 응답으로 공격자 judge의 false-positive 유도)는 PPV↓ → bounded asymptotic ASR (arXiv 2606.20470, CMPE)
적용 이유: 자동화 공격 표면에서 일관된 거부=신호 누출 인지, 탐지 신뢰도 높을 때만 misdirection 보조 적용(정상 UX 보존), 비가역 작업은 fail-closed 차단 유지, 방어는 budget↑ 시 ASR 상한으로 평가(단발 차단 아님)
기대효과: multi-turn-adversarial-robustness에 신호누출+ASR 상한 관점, exploit-verified/proof-by-exploitation의 방어 측면 보완, probabilistic-policy-verification(탐지 신뢰도)과 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ defensive-misdirection-over-block.md

7/10rule

Judging to Improve — ranking 통과 judge를 최적화 루프에 넣으면 새 실패모드, train/eval 분리로 circularity 차단 arXiv

judge를 optimizer로 격상하면 ranking이 안 건드린 실패모드가 드러난다 — train judge ≠ eval judge로 circularity를 끊어라.

분석: judge를 학습·평가 루프에 넣으면 새 실패 노출 — train judge(Qwen2.5-VL)와 eval judge(InternVL3) 분리로 circularity 차단, position-bias 보정, reference-free judging이 clean-but-wrong 보상, independent sample은 학습 선호 거의 없음(order-flip 0.94, contrastive 구성 필요) (arXiv 2606.20364)
적용 이유: self-improve/autoresearch가 judge로 개선 신호+합격 둘 다 매기면 circularity → 분리, "ranking 잘했으니 optimizer OK" 가정 금지, reference 없이 "좋아 보임" judging=clean-but-wrong 보상(anti-Goodhart), 신호는 quality-contrastive로 명시 구성
기대효과: evaluator-committee-bias-contagion(116차)에 circularity 차단 추가, acceptance-criteria-completion과 동형, harness-benefit-not-update·recursive-self-improvement Curator 강화
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ judge-as-optimizer-hardening.md

6/10rule

Implicit Feedback — 명시 피드백만 보지 말고 행동(채택·사후수정·재지적)에서 선호를 읽어라 arXiv

사용자는 명시 피드백을 거의 안 준다 — 행동 신호(무엇을 골랐나·뭘 고쳤나·어디서 멈췄나)에 선호가 샌다.

분석: 명시 피드백 기반 reward model의 두 한계(라벨 비쌈·암묵 신호 미활용) — IFLLM(1336 multi-turn + 마우스/시선)으로 암묵 reward가 텍스트 기반 55%→64%, DPO 후 품질 개선 ~3배(8 LLM), 행동에 선호가 담김 (arXiv 2606.20482)
적용 이유: 명시 approve/reject 부재≠신호 0(재지적·사후수정·중단·옵션 선택이 암묵 선호), self-improve 마찰 채굴을 1급 신호로 격상, 행동 신호는 노이즈 커 반복·집계, 명시 거부 우선·암묵은 공백 보완(대체 아님)
기대효과: recursive-self-improvement-loop/self-improve의 마찰 채굴 인식론적 근거, acceptance-criteria-completion과 위계, cross-batch-evidence-accumulation(노이즈 반복)과 정합
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ implicit-feedback-preference-signal.md

117

수확

arXiv 60 | 관련 50 | 신규 8 | Applied 32026-06-22

arXiv cs.AI/CL/LG/MA firehose 60편 재스캔(관련 50). HF 일별 논문은 06-22 주말(0편) + 06-20/21 백필 완료(신규 0) · GitHub weekly는 114~116차와 동일 주차(중복 SKIP). 2606.20xxx 배치의 Sovereign Brokers·Probabilistic Verification·Contagion·Calibration·Execution-Capsules·NRT-Bench·LedgerAgent·Hierarchical Recovery·Probe-and-Refine 등은 113~116차 적용분(의미 중복 제거). firehose 꼬리에서 아직 미적용 신규 후보 8건 검토 → 3축 발굴: 평가 언어/스택 다양성(폴리글랏 전이) · 화이트박스 증거 기반 최적화 · in-context 예시의 비중립성. 신규 rule 3건 적용(기존 245→248, dedup 0중복). 핵심 발견 — (1) Python 단일 언어 벤치마크(LCB)는 폴리글랏 능력을 underspecify — Multi-LCB 12개 언어 확장으로 전이 가정 반증 → eval-predictive-validity의 언어 축 구체화(이 codebase는 Nuxt/Spring/Next/Flutter 다스택이라 특히 위험). (2) 도구를 블랙박스로 추측 말고 내부 상태(컴파일러 IR·프로파일·플랜)를 열어 실측 증거로 ground, 노이즈 측정은 반복·집계 → evidence-backed-investigation을 도구 내부로 확장. (3) 프롬프트의 few-shot 예시는 행동 중립이 아니다 — benign 예시조차 모델 의존적으로 해로운 순응을 늘릴 수 있다 → 예시 변경=행동 변경 regression 검증. 참고(미적용·의미중복 SKIP): UltraQuant(4-bit KV, serving-layer 적용성 낮음) · Calibrated MoE(인프라 특화) · Train/Retrieve/Both(exact-recall=retrieval 필요, 기존 "never answer from memory" 포화) · Multi-View Decompilation(다중 뷰 cross-check, 3-tool cross-check로 커버).

8/10rule

AutoPass — 도구를 블랙박스로 추측 말고 내부 상태를 열어 실측 증거로 최적화 결정 arXiv

외부 증상만으로 수정 추측 금지 — 컴파일러 IR·프로파일·플랜 내부 상태를 질의해 ground, 노이즈 측정은 반복·집계로.

분석: 런타임 튜닝이 어려운 건 마이크로아키텍처 효과+노이즈 측정 — AutoPass는 컴파일러를 블랙박스로 두지 않고 내부 최적화 상태·IR을 LLM이 직접 질의, 컴파일러·런타임 증거로 결정 ground, 반복적으로 정제 (arXiv 2606.20373)
적용 이유: bug-fixer/perf에서 외부 증상 추측 금지(내부 상태 질의), 최적화 결정은 실측 증거로(추측 아님), 노이즈 측정은 단발 금지·반복 집계(중앙값), 증거→조정→재측정 수렴 루프
기대효과: evidence-backed-investigation을 "도구 내부 상태"로 확장, harness-benefit-not-update의 성능 버전, cross-batch-evidence-accumulation(1회≠안정)과 정합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ white-box-evidence-guided-optimization.md

7/10rule

Multi-LCB — 단일 언어 벤치마크는 폴리글랏 능력을 예측하지 못한다 arXiv

Python 단일 LCB는 다언어 능력을 underspecify — 우리가 실제 배포하는 스택(Nuxt/Spring/Next/Flutter)으로 평가해야 배포를 예측한다.

분석: 널리 쓰이는 LCB가 Python 단일 — 다언어 일반화 보장 없음, Multi-LCB는 contamination-aware로 12개 언어 확장해 전이 가정을 정면으로 물음(단일 언어 점수≠폴리글랏 배포 능력) (arXiv 2606.20517)
적용 이유: 한 언어 점수를 "코딩 능력"으로 단정 금지, eval은 배포 스택 다양성을 명시적 차원으로, contamination-aware 신선도, 언어별 pass rate 분리(약한 스택 은폐 방지)
기대효과: eval-predictive-validity(단일 벤치마크 collapse)의 언어 축 구체화, harness-benefit-not-update와 정합, 다스택 codebase에서 특히 중요
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ eval-language-diversity-transfer.md

6/10rule

Mixed Compliance Demos — 프롬프트의 few-shot 예시는 행동 중립이 아니다 arXiv

in-context 예시는 "안전한 채움"이 아니다 — benign 예시조차 모델 의존적으로 해로운 순응을 늘릴 수 있다.

분석: benign↔harmful demonstration은 비교환적 — 4 모델 실험에서 benign 예시가 해로운 순응을 줄일 수도 늘릴 수도 있고 방향은 모델 의존적(preference optimization이 critical) (arXiv 2606.20508)
적용 이유: few-shot 예시를 출력 형식용 중립 채움으로 취급 금지(행동 변경), benign 예시도 검증 대상, 효과는 모델 의존적이라 단일 모델 일반화 금지(교차모델 재측정), 외부 제공 예시는 jailbreak 벡터
기대효과: multi-turn-adversarial-robustness(방어=모델 의존)와 동형, llm-eval-as-ci-gate·probe-and-refine에 "예시 변경=행동 변경" 근거, agent-skill-security-scanning 스캔 대상에 few-shot 포함
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ in-context-demos-not-neutral.md

116

수확

arXiv 50 | 관련 42 | 신규 6 | Applied 32026-06-22

arXiv cs.AI/CL/LG/MA firehose 50편 재스캔(관련 42). HF 일별 논문은 06-19 cap 도달(신규 0, 6월 백필 완료) · GitHub weekly는 114/115차와 동일 주차(중복 SKIP). 06-18 배치 firehose에서 아직 미적용 신규 클러스터 3축 발굴 — 평가 방법론(LLM 평가자 편향 전파) · 보안-eval 인식론(calibration ≠ comprehension) · 체크포인트 완전성(execution-state capsules). 신규 rule 3건 적용(기존 242→245, dedup 0중복). 핵심 발견 — (1) LLM 평가자 편향은 멀티에이전트 네트워크로 전파되며 교차모델이 동종모델보다 3~5배 강하게 전파(즉 "다른 모델로 교차검증=편향 중립" 가정 반박), 위원회 k=1→3으로 전파 72.4% 감소 → cross-model-adversarial-review 보정 + llm-council 정량화. (2) 파인튜닝한 취약점 탐지 LLM은 임계값만 옮길 뿐 decision policy 불변(calibration without comprehension), 오염 제거도 거의 무관 → "no exploit, no report"·eval-predictive-validity 인식론 강화. (3) KV만 복원하면 발산(recurrent 상태가 load-bearing) → 체크포인트는 부분 조각이 아니라 커밋 경계의 완전 상태를 byte-exact로 → durable-workflow/graph-checkpoint 강화.

8/10rule

Contagion Networks — LLM 평가자 편향은 멀티에이전트 네트워크로 전파된다, 교차모델이 3~5배 강함 arXiv

단일 LLM judge로 합격/순위 결정 금지 — 평가자 편향은 같은 모델끼리도 새고, 교차모델은 3~5배 강하게 전파된다. 완화는 위원회 ≥3.

분석: LLM이 평가자면 체계적 편향이 에이전트 네트워크로 전파(동종모델 γ 0.157~0.352) — 교차모델 전파는 0.85~1.3로 3~5배 강함, 평가 위원회 k=1→3으로 유효 전파 72.4% 감소(스펙트럼 반경 ρ(Γ) 지배) (arXiv 2606.20493, 3-agent DeepSeek 실험)
적용 이유: 단일 LLM judge 금지(편향 지배+전파), "교차모델=편향 중립" 가정 반박(다른 모델은 맹점 보완하나 편향은 더 강하게 전파), 다양성은 모델 종류가 아니라 위원회 크기·프로파일로, blind validation(입력 차단)+위원회 ≥3(전파 차단) 결합
기대효과: llm-council의 정량 근거(k≥3 → −72.4%), cross-model-adversarial-review 보정, blind-validation-layer와 입력·전파 양쪽 차단
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ evaluator-committee-bias-contagion.md

7/10rule

Calibration Without Comprehension — 파인튜닝한 LLM 탐지기는 추론이 아니라 임계값만 옮긴다 arXiv

취약점 벤치 점수가 높아도 패턴 매칭일 수 있다 — 파인튜닝은 decision policy를 바꾸지 않고 출력 임계값만 옮긴다.

분석: CWE-Trace(834 커널 샘플·시간 분할) — 데이터 오염은 측정 이점 없음(84% 암기 신호 무), 백본 방향성 prior가 파인튜닝 지배(DFI −85.5~+94.8pp, cutoff 이후 지속·교정 저항), 파인튜닝=임계값 이동(정책 불변) (arXiv 2606.20502)
적용 이유: LLM 탐지기 점수를 추론 능력으로 단정 금지(실증/PoC만 PASS), 임계값 조정을 정책 개선으로 오인 금지, 방향성 실패(어느 쪽으로 틀리는가, DFI) 측정, 오염 제거를 신뢰 근거로 삼지 말 것
기대효과: exploit-verified-security-testing·proof-by-exploitation의 인식론적 근거, eval-predictive-validity(in-sample≠배포)의 탐지기 버전, probabilistic-policy-verification과 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ llm-detector-calibration-not-comprehension.md

7/10rule

Execution-State Capsules — 체크포인트는 한 조각이 아니라 커밋 경계의 완전 상태를, 부분 복원은 발산한다 arXiv

KV만 복원하면 발산한다 — recurrent 등 숨은 상태가 load-bearing. 커밋 경계의 완전한 복원 가능 상태를 byte-exact로 캡슐화.

분석: 주류 LLM 서빙은 실행 상태의 한 조각(KV 캐시)만 관리 — execution-state capsules는 커밋 경계의 완전 상태(KV+recurrent+conv+MTP+metadata 닫힌 집합)를 snapshot/restore/fork/rollback, KV-only ablation은 발산(recurrent state가 load-bearing), 복원은 byte-exact·token-identical (arXiv 2606.20537, FlashRT)
적용 이유: 마지막 출력 한 조각만 저장하고 resume 가정 금지(숨은 상태 발산), 커밋 경계에서만 체크포인트, 복원 동일성(byte-exact/재실행 일치) 검증, "메인 상태만 복원하면 충분" 단정 금지(load-bearing 숨은 상태 의심)
기대효과: durable-agent-workflow·graph-workflow-checkpointing에 완전성+복원 동일성 추가, pause-on-failure를 완전 상태 보존으로 정밀화, persistent-file-based-planning의 3종 파일을 복원 닫힌 집합으로
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ complete-state-checkpoint-restore.md

115

수확

arXiv 60 | GitHub 21 | 관련 35 | Applied 32026-06-21

arXiv cs.AI/CL/LG/MA firehose 60편 재스캔(관련 35) + GitHub weekly 21건. HF 일별 논문은 6월 백필 완료(신규 0), GitHub은 114차와 동일(같은 날) — SkillSpector·headroom·codebase-memory-mcp·flue 등 이미 수확·SKIP분. 부상 클러스터 — 에이전트 평가 방법론(predictive validity) · 확률적 정책 검증 · 멀티턴 적대 강건성 3축. 신규 rule 3건 적용(기존 239→242, dedup 0중복). 의미중복으로 거부(미적용) — SKILL.md 자동 채굴(2606.20363): 궤적 채굴로 스킬 구조는 가독성 있게 노출되나 readability ≠ transfer(GRPO IW 18.5%→20.5%, BrowseComp+ 무변화, frequency prior에 미달) → 자동생성 스킬이 downstream 개선을 보장하지 않음(autonomous-skill-crystallization·harness-benefit-not-update 강화). 참고: arXiv firehose의 Sovereign Brokers·LedgerAgent·H-RePlan 등은 113/114차 적용분(URL 포맷차로 dedup 미탐, 의미 중복 제거).

8/10rule

NRT-Bench — 단발 익스플로잇으론 부족, 지속·적응적 멀티턴 압력으로 에이전트 안전 검증 arXiv

멀티턴 적대 공격은 단발이 막던 팀도 안전한계 너머로 밀어낸다 — 실패는 모델 간 disjoint, 방어는 모델 의존적.

분석: 감독 역할 에이전트의 지속·적응적 멀티턴 강건성은 미특성화 — 4 frontier 모델 8.7~12.1% 세션이 critical function 상실, 149세션 중 4모델 전부 깨는 건 0(취약점 nested 아닌 disjoint), 피해는 LLM-judge 아닌 객관 신호 (arXiv 2606.20408)
적용 이유: 단발 1회 차단으로 PASS 금지 + 멀티턴 지속압력 테스트, 피해는 객관 종료조건(LLM-judge 금지), 교차모델로 disjoint 실패 노출, 방어 일반화 가정 금지(한 모델 ASR↓ guardrail이 다른 모델엔 ASR↑)
기대효과: proof-by-exploitation을 단발→멀티턴 확장, cross-model-adversarial-review에 disjoint 실증, harness-benefit-not-update를 방어에 적용
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ multi-turn-adversarial-robustness.md

7/10rule

Predictive Validity — 리더보드 집계 점수가 아니라 "배포를 예측하는가"로 벤치마크를 신뢰 arXiv

집계 점수 순위는 OOD에서 전이되지 않는다 — in-sample↔out-of-sample 순위 상관(predictive validity)으로 매겨라.

분석: 단일 벤치마크는 배포 차원의 4~5개만 측정, 집계 리더보드 순위는 OOD 전이 실패(public→hidden 대회 회고가 rank instability 실증) — 평균이 아니라 predictive validity(in/out-of-sample 순위 상관)로 순위 (arXiv 2606.19704, HF 28 upvotes)
적용 이유: 집계 점수 1등을 배포 1등으로 단정 금지, in-sample 점수만 오르고 실작업 검증 없으면 Goodhart, 단일 벤치마크 collapse 회피, OOD 기준은 임계값 명시·반증가능
기대효과: harness-benefit-not-update의 측정 기준 정밀화, adaptive-harness-open-ended-streams의 eval 버전, llm-eval-as-ci-gate에 predictive validity 층 추가
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ eval-predictive-validity.md

7/10rule

Sound Probabilistic Verification — 실패확률 있는 술어(PII 탐지)는 결정론 게이트가 아니라 sound 상한 arXiv

PII/시크릿 탐지기는 매 호출 틀릴 확률이 있다 — 독립 가정 없이 위반 확률의 sound 상한으로 판정.

분석: 기존 런타임 정책(Datalog)은 결정론에 국한 — 실패확률 술어(declassifier·PII 탐지기)를 독립 가정 없이 distributionally robust optimization으로 위반 확률 sound 상한 계산, 술어 간 상관과 무관 (arXiv 2606.20510)
적용 이유: 확률적 탐지를 boolean "통과=안전" 게이트로 위장 금지, 여러 검사 독립 가정으로 낙관 금지(상관 최악 보수 상한), 형식 정책+확률 상한(LLM 자가판단 금지), 비가역일수록 낮은 허용 상한
기대효과: explicit-state-ledger·brokered-mutation에 확률 검증 추가, agent-sdk PreToolUse deny에 상한 판정, external-probe-gate(불확실=보수)와 정합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ probabilistic-policy-verification.md

114

수확

arXiv 50 | GitHub 21 | 관련 26 | Applied 32026-06-21

arXiv cs.AI/CL/LG/MA firehose 50편 재스캔(관련 26, 신규 23) + GitHub weekly 트렌딩 21건. 부상 클러스터 — 에이전트 권한 집행 · skill 공급망 보안 · 계층적 복구 3축. 신규 rule 3건 적용(기존 236→239, dedup 0중복). 의미중복 SKIP: headroom(42K⭐, tool-output 압축)은 기존 압축 rule 8종과 포화 → 거부, flue(sandbox framework)·codebase-memory-mcp(code-graph)도 각각 sandbox 10종·code-graph 11종으로 이미 커버. 참고 관찰(미적용) — Detect-and-Misdirect(2606.20470): detect-and-block은 자동 공격자 judge에 신호를 줘 ASR→1, misdirection이 bound. Calibration-Without-Comprehension(2606.20502): fine-tuned vuln 탐지기는 contamination 이득 없고 backbone prior가 지배 → 모델 vuln 자신감 과신 금지(우리 'no exploit, no report' 강화).

8/10rule

Sovereign Execution Brokers — 비가역 mutation 권한을 LLM 추론 밖 인증서 브로커로 arXiv

production mutation 권한은 비결정적 추론 안에 두면 안 된다 — 인증 계약을 변경이 일어나는 순간에 검증하는 broker.

분석: access-control은 신원을, assurance는 제안을 인증하나 "변경 순간"의 강제 집행점이 없다 — proposal/admission/execution 분리 + 인증서-바인딩 단명·취소가능 capability (arXiv 2606.20520)
적용 이유: 비가역 작업(push·삭제·과금)을 LLM이 직접 호출 금지, broker가 계약 일치 + 유효시간 + live-state drift 검증 후 scoped identity로 실행, non-broker 신원 거부가 전제
기대효과: qa-gate·push-gate가 이미 부분 구현, CLAUDE.md 비가역 에스컬레이션의 구조화, explicit-state-ledger의 drift 검출과 결합
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ brokered-mutation-authority.md

8/10rule

SkillSpector — 에이전트 skill 아티팩트를 로드 전 취약점 스캔 NVIDIA

skill 마켓 폭증 = 공급망 공격면 — SKILL.md + 번들을 실행 전 injection·exfil·악성 tool로 정적 스캔.

분석: skill은 곧 실행 가능 지시+도구 — README 한 줄이 PreToolUse 우회를 심거나 번들이 자격증명을 유출, skill-audit-pipeline(거버넌스)엔 로드시점 취약점 스캔 부재 (NVIDIA/SkillSpector, weekly +4.6K⭐)
적용 이유: 외부 출처 skill 로드 전 4종 스캔(hidden injection·exfil·악성 tool·권한상승) + 출처·해시 추적, 자동생성 skill도 면제 없음(fail-closed)
기대효과: ~/.claude/skills 로드 시 grep exit-code 게이트, skill-audit-pipeline 보완(거버넌스+로드스캔), agent-browser-security 패턴을 스캔 대상에 포함
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ agent-skill-security-scanning.md

7/10rule

H-RePlan — 전역 replan 전에 같은 스코프 대체 전략부터 소진하고 단계적 escalate arXiv

첫 실패에 전역 replan 점프 금지 — 로컬 대체 경로(API/CLI/GUI) 소진 후에만 상위로 escalate.

분석: 기존 복구는 같은 전략 재시도/재할당/전역 plan 수정으로 점프, device-local 전략 공간 미모델링 — 로컬 복구 가능 vs 전역 replan 필요를 구분 못 함 (arXiv 2606.20487 H-RePlan+HeraBench)
적용 이유: 복구 순서 ①로컬 대체전략 ②재시도/재할당 ③전역 replan, 상태 보존(전역 replan은 누적 상태를 버린다), escalate 조건 = 로컬 전략 소진
기대효과: error-recovery 4회 로테이션을 스코프 계층화, pause-on-failure가 로컬 구현, graph-based-crash-recovery는 전역 replan에 해당
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ hierarchical-local-first-recovery.md

113

수확

arXiv 40 | 관련 35 | Applied 32026-06-21

arXiv cs.AI/CL/LG/MA firehose 40편 신규 스캔(관련 35편, 공식 API 직수집). "harness self-evolution" 이후 흐름에서 에이전트 자가진화의 검증·증거 누적·상태 명시화 3축 클러스터 부상. HF 일별 논문은 6월 전체(06-01~21) 백필 완료(신규 0), GitHub 트렌딩은 기존 수확분(hermes-agent·ECC·caveman·graphify 등) 중복 다수. 신규 rule 3건 적용(기존 233→236, dedup 0중복). 참고 finding — Contagion Networks(2606.20493): 동종 모델 평가자는 이종 모델 대비 편향 전파 3~5x 약함(suppression regime) → 우리 Codex 이종 리뷰가 "다른 맹점"엔 강하나 편향 전파엔 주의해야 함(미적용 관찰).

9/10rule

Probe-and-Refine Guidance Tuning — AGENTS.md는 "어떻게 생성됐나"가 효과를 좌우 arXiv

guidance의 내용이 아니라 생성 방식이 결정 변수 — 합성 bug-fix probe를 단발 LLM 호출로 돌려 진단·패치한다.

분석: AGENTS.md/CLAUDE.md가 도움 되는지는 논쟁적 — how it's produced가 결정 변수, agent loop 없이 합성 probe 단발 검증 (arXiv 2606.20512, SWE-bench Verified)
적용 이유: "추가됨"이 아니라 "probe 통과"로 게이트 → CLAUDE.md bloat가 오히려 성능 떨어뜨리는 것 차단
기대효과: /init-project CLAUDE.md 생성 + /self-improve rule 추가에 probe 게이트, harness-benefit-not-update의 guidance-파일 적용판
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ probe-and-refine-guidance-tuning.md

8/10rule

Marginal Advantage Accumulation — 단발 성공으로 규칙 승격 금지, 교차 배치 증거(EMA) arXiv

같은 연산이 배치마다 상반된 피드백을 받는다 — 안정적 효과와 우연한 적중을 부호화 EMA 증거로 구분하라.

분석: 교차 배치 operation-level 증거 누적 부재 → 안정 효과 vs 우연 적중 구분 불가, signed evidence EMA로 해결 (arXiv 2606.20475, 4 benchmarks 16중 14 best)
적용 이유: 2회+ 독립 배치 같은 방향 증거 누적돼야 승격, alignability+comparability 보장 후 합산
기대효과: soft-to-hard-promotion을 EMA 임계로 정량화, auditable-rule-evolution에 evidence_ema 필드
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ cross-batch-evidence-accumulation.md

8/10rule

LedgerAgent — 상태를 프롬프트 재구성에 맡기지 말고 명시 원장 + 도구 호출 정책 검증 arXiv

암묵적 상태 관리가 stale grounding·정책위반 두 실패를 만든다 — 명시 ledger + 도구 호출 전 현재 상태로 정책 검증.

분석: 관찰·도구반환·정책을 프롬프트에 누적 후 매번 재구성 → stale 정보로 결정 + 문법유효하나 상태의존 정책 위반 (arXiv 2606.20529)
적용 이유: 상태를 명시 ledger로 분리 + 도구 호출 전 현재 상태로 정책 pre-call 검증(PreToolUse hook 원장 조회)
기대효과: persistent-file-based-planning에 상태 원장 추가, composable guardrail을 상태의존 정책 검증으로 확장
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ explicit-state-ledger-tool-calls.md

112

수확

HF 논문 665 | 관련 452 | Applied 22026-06-21

HuggingFace 일별 논문 백필(2026-06-01~21, 공식 API 직수집) — 총 665편 중 loopy-era 관련 452편(주말 제외). "harness self-evolution" 클러스터 부상: 모델 가중치는 고정한 채 scaffold(프롬프트·스킬·메모리·툴)를 1급 최적화 대상으로 다루는 연구 다수. 신규 rule 2건 적용(기존 231→233, dedup 0중복) + arXiv API 소스를 harvester에 추가. (WebFetch가 날짜별 데이터를 못 가져와 HF/arXiv 모두 공식 API로 수집하도록 SKILL.md 교정.)

9/10rule

Harness Update ≠ Harness Benefit — 자가개선은 측정된 이득으로 게이트 huggingface

harness를 업데이트했다는 사실이 곧 이득은 아니다. 활동량이 아니라 측정된 benefit으로 게이트하라.

분석: harness 업데이트 활동과 측정된 benefit을 분리 — 변경됨 ≠ 유익함 (HF 2605.30621 + SIA 2605.27276)
적용 이유: base 태스크 능력 ≠ harness-진화 능력 (별개), 강한 모델 제안도 동일 benefit 게이트
기대효과: self-improve/trend-harvester는 benefit delta>0 일 때만 keep, exit code로 HARD 강제
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ harness-benefit-not-update.md

8/10rule

Adaptive Harness for Open-Ended Task Streams — 고정 harness는 drift에서 실패 huggingface

하나의 전역 harness를 모든 작업에 강요하지 말 것 — 태스크별·drift 적응형 harness.

분석: 단일 고정 harness는 open-ended·분포 drift 스트림에서 underperform (HF 2606.01770 + 2605.26112)
적용 이유: 태스크 유형별 이질적 harness + drift 인지 전환(STUCK explorer) + 4속성 설계
기대효과: harness를 auditable/persistent/modular/verifiable 1급 설계 대상으로
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ adaptive-harness-open-ended-streams.md

111

수확

SEEN 1324 | Applied 212 | Pending 12026-06-20

GitHub trending weekly 스캔(21개) — 토큰 압축(chopratejas/headroom ⭐40.8K · +12.8K) · 코드 메모리 그래프(DeusData/codebase-memory-mcp ⭐8.9K) · 샌드박스 에이전트 프레임워크(withastro/flue) · 스킬 마켓플레이스(phuryn/pm-skills) 등 surge. 신규 영역 1건 심층 분석: NVIDIA/SkillSpector — 에이전트 스킬 보안 스캐너.

9/10rule

NVIDIA/SkillSpector: Security Scanner for AI Agent Skills (⭐8.5K, +5K/wk)

Is this skill safe to install? — 26.1%의 스킬이 취약점, 5.2%가 악성 의도(42,447개 실증).

분석: 정적 분석(11 analyzer + AST + OSV.dev CVE) → 선택적 LLM 의미 분석 2단계로 64개 패턴/16카테고리(프롬프트 인젝션·데이터 유출·권한 상승·공급망·과도한 자율성·메모리 오염·MCP 최소권한·도구 포이즌닝 등)를 스캔. 위험점수 0~100 + 4단계 severity band + SARIF/JSON 출력 + pre-commit/CI 통합으로 "설치 전 차단"을 결정론화.
적용: ~/.claude/rules/agent-skill-security-scanning.md 신규 생성 후보(권한 보류 — 사용자 승인 시 적용). 기존 skill-audit-pipeline(cc-sync 콘텐츠 audit: hidden Unicode/secret)과 직교 — 16카테고리 위협 모델 + SARIF/exit-code HARD 게이트로 외부 스킬 설치 전 자동 스캔을 보강.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/agent-skill-security-scanning.md

110

수확

SEEN 1310 | Applied 211 | Pending 12026-05-08

GitHub trending weekly + 구루 프로필 스캔(anthropics · karpathy · simonw) + 신규 진입 repo 심층 분석(cocoindex-io/cocoindex · openai/symphony · mattpocock/skills · 1jehuang/jcode · LearningCircuit/local-deep-research ·…

10/10rule

cocoindex-io/cocoindex: Incremental Delta-Only Engine for Long-Horizon Agents (⭐8.9K)

Your agents deserve fresh context.

분석: RAG/지식그래프의 인덱싱 자체를 batch에서 incremental delta-only로 격상하여 agent의 입력 컨텍스트 freshness를 sub-second로 보장하고 LLM 비용을 10× 절감하는 패턴.
적용: ~/.claude/rules/incremental-delta-indexing.md 신규 생성 후보(권한 보류 — 사용자 승인 시 적용).
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/incremental-delta-indexing.md

109

수확

SEEN 1294 | Applied 210 | Pending 12026-05-08

GitHub topic search(claude-code · ai-agent pushed:>2026-05-01) + 구루 프로필 스캔(anthropics · simonw · karpathy) + 신규 진입 repo 심층 분석(syncable-dev/memtrace-public · superset-sh/superset · RealZST/HarnessKit · proxysoul/soulforge ·…

10/10rule

syncable-dev/memtrace-public: Bi-Temporal Structural Memory (⭐148)

Indexing 1,500 files in 1.2–1.8 seconds at zero API cost — roughly 1,200× faster than systems requiring LLM-based entity extraction.

분석: 코드베이스를 이중 시간축 지식 그래프로 인덱싱하여 에이전트가 "지금 무엇이 참인지"와 "언제부터 참인지"를 LLM 호출 0회로 동시 조회하는 패턴.
적용: ~/.claude/rules/bi-temporal-structural-memory.md 신규 생성 후보(권한 보류 — 사용자 승인 시 적용).
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/bi-temporal-structural-memory.md

108

수확

SEEN 1281 | Applied 2102026-05-08

GitHub topic search(ai-agent · claude-code) + 구루 프로필 스캔(anthropics · simonw · karpathy) + 신규 진입 repo 심층 분석(CopilotKit/CopilotKit · HKUDS/nanobot · ComposioHQ/awesome-claude-skills · code-yeongyu/oh-my-openagent rebrand).

9/10rule

CopilotKit/CopilotKit: AG-UI Protocol (⭐30.9K)

The Frontend Stack for Agents & Generative UI.

분석: Google/LangChain/AWS/Microsoft 4대 vendor가 동시 채택한 agent ↔ UI 표준 프로토콜로, agent의 출력 산물을 텍스트/JSON에서 즉시 렌더 가능한 UI primitive로 격상하는 패턴.
적용: ~/.claude/rules/agent-driven-ui-protocol.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/agent-driven-ui-protocol.md

107

수확

SEEN 1269 | Applied 2092026-05-07

GitHub weekly trending(전체 + TypeScript) + 구루 프로필 스캔(anthropics · karpathy · simonw) + 신규 진입 repo 심층 분석(czlonkowski/n8n-mcp · iOfficeAI/AionUi · mksglu/context-mode v2 · vercel-labs/portless).

10/10rule

czlonkowski/n8n-mcp: Agent-as-Workflow-Compiler (⭐20.2K)

MCP server enabling Claude Desktop/Code and Cursor to automatically build n8n workflows.

분석: n8n(no-code 자동화 플랫폼, ⭐100K+)을 MCP 서버로 노출하여 Claude/Cursor가 자연어 요구를 완전한 workflow JSON으로 컴파일하는 도구.
적용: ~/.claude/rules/agent-as-workflow-compiler.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/agent-as-workflow-compiler.md

106

수확

SEEN 1257 | Applied 2082026-05-07

GitHub weekly trending(전체 기준) + 구루 프로필 스캔(anthropics · karpathy · simonw) + 신규 진입 repo 심층 분석(ComposioHQ/awesome-codex-skills · virattt/dexter · ruvnet/ruflo · anthropics/claude-plugins-official).

9/10rule

ComposioHQ/awesome-codex-skills: Cross-CLI Skill Standardization (⭐7.2K)

Practical Codex skills for automating workflows across the Codex CLI and API.

분석: Codex CLI를 위한 첫 awesome-list 형태 스킬 마켓플레이스.
적용: ~/.claude/rules/cross-cli-skill-portability.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/cross-cli-skill-portability.md

105

수확

SEEN 1245 | Applied 2072026-05-07

GitHub topic 검색(claude-code · ai-agent · llm-agent · claude-skills · agent-harness) + 구루 프로필 스캔(anthropics · karpathy · simonw).

9/10rule

OthmanAdi/planning-with-files: Manus-Style Persistent File-Based Working Memory (⭐20.5K)

Context Window = RAM (volatile, limited).

분석: v2.37.0 (96.7% benchmark + A/B blind 3/3 wins + Tessl CI 통과).
적용: ~/.claude/rules/persistent-file-based-planning.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/persistent-file-based-planning.md

104

수확

SEEN 1233 | Applied 2062026-05-07

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(anthropics · karpathy · simonw). 12개 신규 중 1개 고득점 rule 적용.

9/10rule

hatchet-dev/hatchet: Durable Agent Workflow Engine (⭐7.1K)

Orchestration engine for AI agents and durable workflows that survive crashes, deployments, and restarts.

분석: Go 기반 durable workflow 엔진.
적용: ~/.claude/rules/durable-agent-workflow.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/durable-agent-workflow.md

103

수확

SEEN 1221 | Applied 2052026-05-06

GitHub weekly trending(전체 · TypeScript · Python) + 구루 프로필 스캔(anthropics). 12개 신규 중 1개 고득점 rule 적용.

9/10rule

mattpocock/skills: Failure-Mode-Anchored Skill Design (⭐61.9K)

Skills for Real Engineers.

분석: 14주 연속 GitHub Shell 트렌딩 1위.
적용: ~/.claude/rules/failure-mode-anchored-skills.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/failure-mode-anchored-skills.md

102

수확

SEEN 1209 | Applied 2042026-05-06

GitHub weekly trending(전체 · TypeScript · Python) + 구루 프로필 스캔(anthropics). 12개 신규 중 1개 고득점 rule 적용.

8/10rule

czlonkowski/n8n-mcp: Structured Knowledge MCP (⭐20.1K)

A MCP for Claude Desktop / Claude Code / Windsurf / Cursor to build n8n workflows.

분석: 워크플로우 자동화 도구(n8n)의 전체 capability를 MCP 서버 단일 인터페이스로 노출.
적용: ~/.claude/rules/structured-knowledge-mcp.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/structured-knowledge-mcp.md

101

수확

SEEN 1197 | Applied 2032026-05-06

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(anthropics · karpathy · simonw) + 토픽 검색(ai-agent · claude-code).

9/10rule

HKUDS/OpenHarness: Open Reference Harness Architecture (⭐12.0K)

The LLM is the intelligence.

분석: 오픈소스 5계층 에이전트 하네스 참조 아키텍처.
적용: ~/.claude/rules/open-reference-harness-architecture.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/open-reference-harness-architecture.md

100

수확

SEEN 1185 | Applied 2022026-05-06

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(anthropics · karpathy · simonw). 13개 신규 중 1개 고득점 rule 적용.

9/10rule

cocoindex-io/cocoindex: Incremental Delta Engine for Long-Horizon Agents (⭐8.3K)

Declare Target = F(Source).

분석: 인크리멘탈 델타 처리 엔진.
적용: ~/.claude/rules/incremental-delta-processing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/incremental-delta-processing.md

수확

SEEN 1172 | Applied 2012026-05-05

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(anthropics · karpathy · simonw) + 토픽 검색(ai-agent).

8/10rule

gastownhall/gascity: Declarative State Reconciliation Orchestration (⭐598)

Extracts the reusable infrastructure from Gas Town into a configurable toolkit with runtime providers, work routing, formulas, orders, health patrol, and a declarative city…

분석: beads(23K⭐)에서 추출된 선언적 멀티에이전트 오케스트레이션 SDK.
적용: ~/.claude/rules/declarative-state-reconciliation.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/declarative-state-reconciliation.md

수확

SEEN 1159 | Applied 2002026-05-05

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(anthropics · karpathy · simonw). 12개 신규 중 1개 고득점 rule 적용.

10/10rule

yohey-w/multi-agent-shogun: Hierarchical Agent Mailbox (⭐1.3K)

Communication flows through YAML files in a mailbox pattern rather than direct API calls, eliminating coordination costs.

분석: 사무라이 계층 기반 멀티에이전트 오케스트레이션 시스템.
적용: ~/.claude/rules/hierarchical-agent-mailbox.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/hierarchical-agent-mailbox.md

수확

SEEN 1147 | Applied 1992026-05-05

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · anthropics · simonw). 8개 신규 중 2개 고득점 rule 적용.

10/10rule

1jehuang/jcode: Implicit Semantic Memory Harness (⭐3.9K)

Next generation coding agent harness to raise the skill ceiling — semantic vector embeddings for each turn, enabling agents to retrieve relevant memories via cosine similarity…

분석: Rust로 구축된 차세대 코딩 에이전트 하네스.
적용: ~/.claude/rules/implicit-semantic-memory.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/implicit-semantic-memory.md

7/10rule

chenhg5/cc-connect: Agent-to-Messaging Gateway (⭐7.2K)

Bridges local AI coding agents to messaging platforms without public IP requirements — Slack, Discord, Telegram, Feishu, WeChat and more.

분석: Go로 구축된 AI 에이전트-메시징 플랫폼 브릿지.
적용: ~/.claude/rules/agent-messaging-gateway.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/agent-messaging-gateway.md

수확

SEEN 1139 | Applied 1972026-05-05

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · anthropics · simonw). 10개 신규 중 2개 고득점 rule 적용.

9/10rule

Gentleman-Programming/engram: MCP-Native Persistent Memory (⭐3.2K)

Agent-agnostic.

분석: Go 단일 바이너리로 동작하는 에이전트 영속 메모리 시스템.
적용: ~/.claude/rules/shared-agent-memory.md에 MCP-Native Persistent Memory 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/shared-agent-memory.md

8/10rule

cocoindex-io/cocoindex: Incremental Data Pipeline Engine (⭐7.8K)

React for data engineering.

분석: Rust 코어 + Python 바인딩의 증분 데이터 파이프라인 엔진.
적용: ~/.claude/rules/context-freshness.md에 Incremental Data Pipeline 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/context-freshness.md

수확

SEEN 1129 | Applied 1952026-05-04

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(anthropics · karpathy · gastownhall). 10개 신규 중 2개 고득점 rule 적용.

9/10rule

gastownhall/gascity: Declarative Orchestration SDK (⭐574)

An orchestration-builder SDK for multi-agent systems.

분석: beads(23K⭐)의 멀티에이전트 인프라를 독립 SDK로 추출.
적용: ~/.claude/rules/deterministic-orchestrator-scheduling.md에 Declarative Orchestration SDK 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/deterministic-orchestrator-scheduling.md

8/10rule

iii-hq/iii: Service Composition Framework (⭐15.5K)

Eliminates integration effort by reducing every new addition to zero.

분석: Rust 기반 서비스 조합 프레임워크.
적용: ~/.claude/rules/declarative-agent-coordination.md에 Service Composition Primitives 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/declarative-agent-coordination.md

수확

SEEN 1119 | Applied 1932026-05-04

GitHub weekly trending(전체 · TypeScript · Python · Rust) + 구루 프로필 스캔. 12개 신규 중 2개 고득점 rule 적용.

9/10rule

1jehuang/jcode: Semantic Memory as First-Class Harness Primitive (⭐3.5K)

A human-like memory system which allows the agent to automatically recall relevant information to the conversation without actively calling memory tools.

분석: Rust 기반 차세대 코딩 에이전트 하네스.
적용: ~/.claude/rules/semantic-memory-compaction.md에 Vector-Based Auto-Recall 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/semantic-memory-compaction.md

8/10rule

mattpocock/skills: Shared Domain Language (CONTEXT.md) (⭐57.2K)

No one knows exactly what they want.

분석: 57K 스타 실전 검증된 Claude Code 스킬 15+ 세트.
적용: ~/.claude/rules/token-brevity-pattern.md에 Shared Domain Language (CONTEXT.md) 패턴 추가.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/token-brevity-pattern.md

수확

SEEN 1107 | Applied 1912026-05-04

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 토픽 검색(ai-agent · claude-code) + 구루 프로필 스캔(anthropics · karpathy · simonw).

9/10rule

nyldn/claude-octopus: Multi-Model Consensus Gate (⭐3.2K)

Every AI model has blind spots.

분석: Claude Code 플러그인으로 Claude·Codex·Gemini·Copilot·Qwen·Ollama·Perplexity·OpenRouter 8개 모델을 병렬 오케스트레이션하여 코딩 태스크의 블라인드 스팟을 구조적으로 탐지.
적용: ~/.claude/rules/cross-model-adversarial-review.md에 Multi-Model Consensus Gate 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/cross-model-adversarial-review.md

8/10rule

anthropics/claude-agent-sdk-python: Programmatic Agent Construction (⭐6.7K)

Build AI agents powered by Claude with in-process MCP servers — no subprocess overhead.

분석: Anthropic 공식 Python Agent SDK.
적용: ~/.claude/rules/role-based-agent-permissions.md에 공식 SDK 검증 근거 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/role-based-agent-permissions.md

수확

SEEN 1089 | Applied 1892026-05-04

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 토픽 검색(ai-agent · claude-code) + 구루 프로필 스캔. 18개 신규 중 2개 고득점 rule 적용.

10/10rule

VILA-Lab/Dive-into-Claude-Code: Harness Architecture Crystallization (⭐956)

98.4% of Claude Code's codebase is deterministic infrastructure — permission gates, context management, tool routing, recovery logic.

분석: Claude Code v2.1.88(~1,900 TS 파일, ~512K 줄)의 체계적 소스 레벨 역공학 분석.
적용: ~/.claude/rules/harness-engineering-paradigm.md에 수치적 증거 및 구체 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/harness-engineering-paradigm.md

8/10rule

refactoringhq/tolaria: Git-Native AI Vault Architecture (⭐9.1K)

Your notes are plain markdown files.

분석: Tauri+React+Rust로 구축된 마크다운 지식 베이스 데스크탑 앱.
적용: ~/.claude/rules/portable-memory-layer.md에 Git-Native AI Vault 패턴 크로스 검증 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/portable-memory-layer.md

수확

SEEN 1071 | Applied 1872026-05-03

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 토픽 검색(ai-agent · claude-code) + 구루 프로필 스캔. 20개 신규 중 2개 고득점 rule 적용.

9/10rule

superset-sh/superset: Agent Workspace Unification (⭐10.3K)

Code Editor for the AI Agents Era — Run an army of Claude Code, Codex, etc.

분석: Electron 기반 에이전트 전용 코드 에디터로, CLI 코딩 에이전트 10+를 태스크별 자동 워크트리 격리 + 통합 모니터링 + diff 뷰 + 원클릭 핸드오프로 관리.
적용: ~/.claude/rules/multi-agent-fleet-management.md에 Agent IDE 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/multi-agent-fleet-management.md

10/10rule

conorluddy/ios-simulator-skill: Progressive Error Disclosure (⭐913)

An iOS Simulator Skill for Claude Code.

분석: iOS 시뮬레이터 전용 스킬이지만, 핵심 혁신은 Progressive Error Disclosure 패턴 — 모든 도구 출력을 "단일 행 요약(BUILD_FAILED|result_id:abc123) → 요청 시 상세(get_details(abc123))"의 2단계로 구조화하여 200+ 행을 3~5행으로 압축(97.5% 절감).
적용: ~/.claude/rules/tool-output-sandboxing.md에 Progressive Error Disclosure 패턴 추가.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/tool-output-sandboxing.md

수확

SEEN 1051 | Applied 1852026-05-03

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · anthropics · simonw · mshumer).

9/10rule

trycua/cua: Computer-Use Agent Sandboxing (⭐15.5K)

Open-source infrastructure for Computer-Use Agents.

분석: macOS·Linux·Windows·Android 전체 데스크탑을 단일 Python API로 제어하는 오픈소스 인프라.
적용: ~/.claude/rules/computer-use-agent-sandboxing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/computer-use-agent-sandboxing.md

8/10rule

njbrake/agent-of-empires: Multi-Agent Fleet Management (⭐1.9K)

Manage multiple Claude Code and AI agents via TUI or web interface.

분석: Rust로 작성된 멀티에이전트 Fleet 관리 도구로, 10+ AI 코딩 에이전트를 tmux 세션 격리 + TUI/Web 대시보드로 동시 관리.
적용: ~/.claude/rules/multi-agent-fleet-management.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/multi-agent-fleet-management.md

수확

SEEN 1033 | Applied 1832026-05-03

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · anthropics · simonw). 15개 신규 중 2개 고득점 rule 적용.

8/10rule

anthropics/claude-plugins-official: Official Plugin Directory (⭐18.4K)

A curated directory of high-quality plugins for Claude Code.

분석: Anthropic이 직접 운영하는 Claude Code 공식 플러그인 디렉토리.
적용: ~/.claude/rules/official-plugin-directory-standard.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/official-plugin-directory-standard.md

7/10rule

xingkongliang/skills-manager: Cross-Tool Skill Orchestration (⭐1.0K)

One app to manage AI agent skills across all your coding tools.

분석: Rust로 작성된 크로스 도구 AI 스킬 매니저 데스크탑 앱.
적용: ~/.claude/rules/scenario-based-skill-management.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/scenario-based-skill-management.md

수확

SEEN 1018 | Applied 1812026-05-03

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔. 15개 신규 중 2개 고득점 rule 적용.

8/10rule

chenhg5/cc-connect: Bidirectional Agent-Chat Bridge (⭐7.0K)

Control and interact with agents like Claude Code from any chat application, eliminating the requirement for public IP on most platforms.

분석: Go로 작성된 유니버설 에이전트-채팅 릴레이로, Claude Code·Codex·Gemini CLI를 Telegram·Slack·Discord·LINE·Feishu·DingTalk·WeChat 등 11개 플랫폼에서 양방향 제어.
적용: ~/.claude/rules/bidirectional-agent-messaging.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/bidirectional-agent-messaging.md

7/10rule

gastownhall/gascity: Desired-State Agent Reconciliation (⭐561)

Orchestration-builder SDK for multi-agent systems.

분석: beads(23K⭐) 팀이 만든 멀티에이전트 오케스트레이션 SDK로, Kubernetes의 spec↔status 패턴을 에이전트 워크플로우에 적용.
적용: ~/.claude/rules/desired-state-agent-reconciliation.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/desired-state-agent-reconciliation.md

수확

SEEN 1003 | Applied 1792026-05-02

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · anthropics). 12개 신규 중 2개 고득점 rule 적용.

9/10rule

addyosmani/agent-skills: Anti-Rationalization Verification Gates (⭐27.1K)

Non-negotiable evidence requirements at every phase gate.

분석: Google의 Addy Osmani(web-quality-skills 저자)가 공개한 20개 라이프사이클 매핑 생산 스킬.
적용: ~/.claude/rules/anti-rationalization-verification-gates.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/anti-rationalization-verification-gates.md

8/10rule

njbrake/agent-of-empires: Persistent Agent Sessions (⭐1.9K)

Sessions persist in background tmux processes, surviving terminal disconnects and application restarts.

분석: Rust로 작성된 세션 오케스트레이터로, Claude Code·OpenCode·Codex CLI 등 10+ 에이전트를 tmux 기반 영속 세션에서 동시 관리.
적용: ~/.claude/rules/persistent-agent-sessions.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/persistent-agent-sessions.md

수확

SEEN 991 | Applied 1772026-05-02

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(anthropics · openai · karpathy · simonw) + WebSearch(AI agent orchestration · SWE-Pruner).

9/10rule

openai/symphony: Continuous Fleet Orchestration (⭐20.4K)

Symphony turns project work into isolated, autonomous implementation runs, allowing teams to manage work instead of supervising coding agents.

분석: OpenAI가 2026년 4월 28일 공식 오픈소스로 발표한 코딩 에이전트 오케스트레이션 스펙.
적용: ~/.claude/rules/continuous-fleet-orchestration.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/continuous-fleet-orchestration.md

10/10rule

SWE-Pruner: Task-Aware Context Pruning (⭐274)

Human programmers selectively skim source code during development — SWE-Pruner trains a 0.6B model to replicate this task-aware selective retention.

분석: ACL 2026에 accepted된 학술 논문 기반 프레임워크.
적용: ~/.claude/rules/task-aware-context-pruning.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/task-aware-context-pruning.md

수확

SEEN 979 | Applied 1752026-05-02

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(anthropics · karpathy · simonw). 12개 신규 중 2개 고득점 rule 적용.

10/10rule

mksglu/context-mode: Tool Output Sandboxing (⭐11.7K)

Raw data never leaves the sandbox.

분석: 83차(9/10)에서 context-sandboxing-session-continuity로 세션 연속성 패턴을 추출했으나, 이번 85차에서 핵심 원칙인 "Tool Output Sandboxing" 자체를 독립 rule로 승격.
적용: ~/.claude/rules/tool-output-sandboxing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/tool-output-sandboxing.md

9/10rule

zilliztech/claude-context: Semantic Code Search MCP (⭐10.5K)

Hybrid code search combining BM25 and dense vector embeddings.

분석: 82차(8/10)에서 분석 후 적용했으나, 이번 85차에서 독립 rule로 승격.
적용: ~/.claude/rules/semantic-code-search-mcp.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/semantic-code-search-mcp.md

수확

SEEN 967 | Applied 1732026-05-02

GitHub weekly trending(전체 · TypeScript · Python · Rust) + 구루 프로필 스캔(karpathy · anthropics · simonw) + WebSearch(AI coding agent May 2026 · agent orchestration 2026).

9/10rule

njbrake/agent-of-empires: Multi-Agent Session Infrastructure (⭐1.8K)

Agent-aware status detection (running/waiting/idle) turns multi-agent orchestration from blind dispatching to operational visibility.

분석: 다수의 AI 코딩 에이전트를 운영 가능한 인프라로 관리하는 세션 매니저.
적용: ~/.claude/rules/multi-agent-session-infrastructure.md 신규 생성 후보.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/multi-agent-session-infrastructure.md

7/10rule

microsoft/agent-framework: Graph-Based Workflow Checkpointing (⭐10.0K)

Graph-based orchestration with checkpointing and time-travel makes agent workflow debugging reproducible.

분석: Microsoft가 공식 출시한 그래프 기반 멀티에이전트 워크플로우 프레임워크.
적용: ~/.claude/rules/graph-workflow-checkpointing.md 신규 생성 후보.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/graph-workflow-checkpointing.md

수확

SEEN 955 | Applied 1712026-05-01

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(anthropics · karpathy · simonw · openai) + WebSearch(AI coding agent May 2026 · GitHub trending AI agent).

9/10rule

mksglu/context-mode: Context Sandboxing & Session Continuity (⭐11.6K)

Treat the LLM as a code generator, not a data processor.

분석: LLM 컨텍스트 관리의 패러다임 전환.
적용: ~/.claude/rules/context-sandboxing-session-continuity.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/context-sandboxing-session-continuity.md

수확

SEEN 940 | Applied 1702026-05-01

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai) + WebSearch(AI coding agent May 2026 · GitHub trending AI agent).

9/10rule

anthropics/claude-agent-sdk-python: In-Process Agent Tools & Deterministic Hooks (⭐6.6K)

Define tools as Python decorators — no subprocess management, no IPC overhead, same-process debugging.

분석: Anthropic이 Claude Code 에이전트의 프로그래밍적 제어를 공식 SDK로 표준화.
적용: ~/.claude/rules/agent-sdk-in-process-tools.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/agent-sdk-in-process-tools.md

8/10rule

zilliztech/claude-context: Semantic Code Search MCP (⭐10.5K)

Hybrid code search combining BM25 and dense vector embeddings.

분석: 코드베이스 검색을 키워드 grep/glob에서 시맨틱 벡터 검색으로 격상하는 MCP 서버.
적용: ~/.claude/rules/semantic-code-search-mcp.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/semantic-code-search-mcp.md

수확

SEEN 925 | Applied 1682026-05-01

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai) + WebSearch(AI coding agent MCP · Claude Code May 2026).

10/10rule

mksglu/context-mode: Sandboxed Tool Output & Session Persistence (⭐11.5K)

Raw data never leaves the sandbox.

분석: AI 코딩 에이전트의 컨텍스트 윈도우 보호를 근본적으로 재정의하는 MCP 서버.
적용: ~/.claude/rules/sandboxed-tool-output.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ ~/.claude/rules/sandboxed-tool-output.md

8/10rule

trycua/cua: Computer-Use Agent Infrastructure (⭐15.4K)

Same API regardless of OS or runtime.

분석: AI 에이전트의 조작 범위를 브라우저에서 전체 운영체제로 확장하는 오픈소스 인프라.
적용: ~/.claude/rules/computer-use-agent-infra.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/computer-use-agent-infra.md

수확

SEEN 910 | Applied 1662026-05-01

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer) + WebSearch(AI coding agent context · Claude Code plugin May 2026).

8/10rule

farion1231/cc-switch: Agent Desktop Convergence (⭐56.4K)

A single desktop app to manage all five CLI tools.

분석: Tauri 2(Rust+React/TS) 기반 크로스플랫폼 데스크탑 앱으로 5개 AI 코딩 CLI를 단일 인터페이스에서 관리.
적용: ~/.claude/rules/agent-desktop-convergence.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/agent-desktop-convergence.md

7/10rule

lukilabs/craft-agents-oss: Document-Native Agent UI (⭐5.5K)

Built Craft Agents with Craft Agents only — no code editors.

분석: Craft(문서 앱) 팀이 만든 문서 중심 에이전트 프레임워크.
적용: ~/.claude/rules/document-native-agent-ui.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/document-native-agent-ui.md

수확

SEEN 895 | Applied 1642026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(anthropics · simonw) + GitHub topic search.

10/10rule

mksglu/context-mode: Sandboxed Context Isolation (⭐11.3K)

Every MCP tool call dumps raw data into your context window.

분석: 기존 context-compression-pipeline.md(로드 후 압축)를 상류 게이트로 격상.
적용: sandboxed-context-isolation.md — 도구 출력 샌드박스 격리, FTS5 인덱싱 기반 의도 필터링, session continuity 패턴
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ sandboxed-context-isolation.md

9/10rule

abhigyanpatwari/GitNexus: Knowledge Graph Code Indexing (⭐33.6K)

The nervous system for agent context.

분석: 기존 codebase-search-before-create.md를 영속 지식 그래프로 격상.
적용: knowledge-graph-code-indexing.md — AST 기반 영속 인덱싱, impact analysis 변경 범위 사전 계산
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ knowledge-graph-code-indexing.md

9/10rule

addyosmani/agent-skills: Anti-Rationalization Gates (⭐26.4K)

Anti-Rationalization Tables: common excuses with documented rebuttals.

분석: 기존 completion-verification.md(사후 검증)를 사전 차단으로 보강.
적용: anti-rationalization-gates.md — 합리화 패턴 사전 차단, evidence standards, 증거 없는 완료 선언 차단
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ anti-rationalization-gates.md

9/10rule

gastownhall/gascity: Controller Reconciliation Loop (⭐537)

Controller loop reconciles declared config against actual runtime.

분석: 기존 declarative-agent-coordination.md에 reconciliation 루프 추가.
적용: controller-reconciliation-loop.md — desired vs actual 자동 비교, 불일치 수정, 다중 런타임 추상화
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ controller-reconciliation-loop.md

수확

SEEN 884 | Applied 1602026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics) + WebSearch(AI agent self-improving · Claude Code plugins orchestration · LLM coding agent benchmark harness 2026).

9/10rule

OpenAI "Harness Engineering"

The harness surrounding the model matters as much as the model itself." — OpenAI 2026.

분석: OpenAI가 2026년 공식적으로 "harness engineering"이라는 분야를 명명.
적용: ~/.claude/rules/harness-engineering-paradigm.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/harness-engineering-paradigm.md

8/10rule

Leonxlnx/taste-skill (⭐14.1K)

Stops the AI from generating boring, generic, 'slop'." — taste-skill.

분석: taste-skill(⭐14,071, +2,097/wk)이 AI 코딩 에이전트의 프론트엔드 디자인 하한선을 정의.
적용: ~/.claude/rules/anti-slop-design-taste.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/anti-slop-design-taste.md

수확

SEEN 869 | Applied 1582026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer).

8/10rule

anthropics/knowledge-work-plugins: Canonical Plugin Three-Layer Architecture (⭐11.7K) anthropics

Open source repository of plugins primarily intended for knowledge workers to use in Claude Cowork.

분석: 76차에서 기록되었으나 실제 rule 파일이 미생성된 것을 독립 검증에서 발견.
적용: ~/.claude/rules/canonical-plugin-three-layer.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ canonical-plugin-three-layer.md

7/10reference

trycua/cua: Computer-Use Agent Infrastructure (⭐15.3K)

Open-source infrastructure for Computer-Use Agents.

분석: 기존 sandboxed-agent-code-execution.md(코드 샌드박스)와 scored-agent-benchmarks.md(에이전트 벤치마크)를 Computer-Use(GUI 제어) 에이전트 전용으로 통합.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

수확

SEEN 859 | Applied 1572026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · mshumer · anthropics) + GitHub topic search(claude-code · ai-agent).

10/10rule

zilliztech/memsearch: Progressive Memory Architecture (⭐1.5K)

A persistent, unified memory layer for all your AI agents.

분석: 기존 portable-memory-layer.md(단일 파일 메모리)를 3계층 아키텍처로 격상.
적용: ~/.claude/rules/progressive-memory-retrieval.md — memory-bank 검색에 3단계 progressive retrieval 도입, Markdown 원본 유지 원칙 강화, 섀도 인덱스 재구축 가능성 보장
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ progressive-memory-retrieval.md

9/10rule

alexzhang13/rlm: Recursive Decomposition Inference (⭐4.1K)

A task-agnostic inference paradigm for language models to handle near-infinite length contexts by enabling the LM to programmatically examine, decompose, and recursively call…

분석: 기존 sandboxed-agent-code-execution.md(샌드박스 코드 실행)를 재귀적 추론 패러다임으로 확장.
적용: ~/.claude/rules/recursive-decomposition-inference.md — 복잡한 태스크를 REPL 기반 재귀 분해로 처리, 컨텍스트를 변수로 명시적 관리, 단일 패스 한계 극복
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ recursive-decomposition-inference.md

8/10rule

warpdotdev/warp: Agentic Environment (⭐44.8K)

An agentic development environment, born out of the terminal.

분석: 기존 worktree-parallel-agents.md(격리 병렬 실행)와 feedback-routing.md(피드백 라우팅)를 단일 환경에서 다중 에이전트 통합 관리로 격상.
적용: ~/.claude/rules/agentic-environment-pattern.md — 에이전트 환경 통합 패턴, BYO 에이전트 인터페이스, 에이전트 세션 실시간 모니터링 원칙
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ agentic-environment-pattern.md

8/10rule

anthropics/knowledge-work-plugins: Knowledge Work Plugin Standard (⭐11.7K)

Open source repository of plugins primarily intended for knowledge workers to use in Claude Cowork.

분석: 기존 agent-manifest-pattern.md(선언적 매니페스트)와 agent-skills-format.md(HF Skills 표준)를 Anthropic 공식 표준으로 검증.
적용: ~/.claude/rules/knowledge-work-plugin-standard.md — Anthropic 공식 plugin.json 스키마 참조, skills/+commands/+.mcp.json 3요소 구조 표준화, 직무별 커스터마이징 패턴
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ knowledge-work-plugin-standard.md

수확

SEEN 839 | Applied 1532026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer) + GitHub topic search(ai-agent · claude-code · llm-tools).

10/10rule

Ataraxy-Labs/sem: Semantic Version Control (⭐1.9K)

Entity-level diffs, blame, and impact analysis on top of git.

분석: code-reviewer와 bug-fixer가 git diff 라인 출력을 파싱하던 것을 함수·클래스 단위 "무엇이 변했는가"로 대체.
적용: ~/.claude/rules/semantic-diff-pattern.md — code-reviewer에 sem diff 제공, sem impact로 PR blast radius 파악, DiffCrunch 대체
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ semantic-diff-pattern.md

9/10rule

caliber-ai-org/ai-setup: Deterministic Config Scoring (⭐874)

No LLM, no API calls — local deterministic scoring cross-referencing config files against actual filesystem.

분석: harness-report가 "구조 존재 + grep 패턴(LINT LEVEL)"이었다면, ai-setup은 설정 내용이 실제 코드베이스와 일치하는가까지 결정론적 측정.
적용: ~/.claude/rules/deterministic-config-scoring.md — harness-report 내용 정합성 강화, CLAUDE.md vs package.json 교차 검증
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ deterministic-config-scoring.md

9/10rule

zilliztech/claude-context: Code Search MCP (⭐10.3K)

Code search MCP for Claude Code.

분석: codebase-search-before-create.md를 MCP 도구 기반 semantic 검색으로 강화.
적용: ~/.claude/rules/semantic-code-search-mcp.md — Explore agent 효율 개선, codebase-search-before-create에 semantic 옵션 추가
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ semantic-code-search-mcp.md

8/10rule

boshu2/agentops: Agent Operations (⭐318)

Operational layer for coding agents.

분석: recursive-self-improvement-loop.md의 Curator 단계를 /dream(오프라인 정제)로, blind-validation-layer를 /council(다중 판관)으로, 사전 실패 분석을 /pre-mortem으로 체계화.
적용: ~/.claude/rules/agent-operations-primitives.md — /dream을 Curator로, /council을 adversarial-review에, /pre-mortem을 Phase 0에 통합
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ agent-operations-primitives.md

8/10reference

superradcompany/microsandbox: Secure Agent Sandboxes (⭐5.9K)

Hardware-level isolation, boot <100ms.

분석: sandboxed-agent-code-execution.md의 "샌드박스 실행"을 microVM 하드웨어 격리 + 100ms 미만 부팅으로 구체화.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

수확

SEEN 724 | Applied 1482026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer).

8/10rule

huggingface/ml-intern: Doom Loop Detection (⭐7.4K) huggingface

An open-source ML engineer that reads papers, trains models, and ships ML models.

분석: 기존 auto-block-stuck-tasks.md가 "4회 실패 후 blocked 전환(사후 차단)"을, convergence-loop-no-mid-question.md가 "루프 중 사용자에게 묻지 않기"를, quantified-ambiguity-gate.md가 "period-2 oscillation 감지"를 다뤘다면, 이 패턴은 도구 호출…
적용: ~/.claude/rules/doom-loop-detection.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ doom-loop-detection.md

8/10rule

abhigyanpatwari/GitNexus: Graph RAG Codebase Indexing (⭐33.3K)

Client-side knowledge graph creator with Graph RAG Agent for code exploration.

분석: 기존 codebase-search-before-create.md가 "생성 전 검색 의무화"를, codebase-packing-pattern.md가 "repomix 스타일 패킹"을 다뤘다면, 이 패턴은 검색 자체를 6단계 구조화된 그래프 쿼리로 격상.
적용: ~/.claude/rules/graph-rag-codebase-indexing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ graph-rag-codebase-indexing.md

수확

SEEN 713 | Applied 1462026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer).

9/10rule

addyosmani/agent-skills: Verification-Gate Skills (⭐25)

Production-grade engineering skills for AI coding agents.

분석: 기존 completion-verification.md가 "최종 완료 시 자가 검증"을, test-first-agent-tasks.md가 "테스트 선행"을 다뤘다면, 이 패턴은 스킬의 매 단계에 검증 게이트 + 변명 방지 테이블을 내장.
적용: ~/.claude/rules/verification-gate-skills.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ verification-gate-skills.md

8/10reference

zilliztech/memsearch: Markdown-First Agent Memory

A persistent, unified memory layer for all your AI agents.

분석: 기존 shared-agent-memory.md(metabot)가 "에이전트 간 메모리 공유 구조"를, portable-memory-layer.md(memvid)가 "단일 파일 메모리 패키징"을 다뤘다면, memsearch는 Markdown을 source of truth로, 벡터 DB를 derived cache로 분리하는 아키텍처.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

수확

SEEN 703 | Applied 1452026-04-30

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · huggingface) + WebSearch(AI agent SDK, agentic terminal 2026).

9/10rule

huggingface/ml-intern: Doom-Loop Detection & ML Research Agent (⭐7.4K)

An open-source ML engineer that reads papers, trains models, and ships ML models.

분석: 기존 convergence-loop-no-mid-question.md가 "수렴 또는 EXHAUSTED까지 무정지 반복"을, auto-block-stuck-tasks.md가 "N회 실패 시 blocked 전환"을, quantified-ambiguity-gate.md가 "stagnation 4가지 패턴(period-2 oscillation, 70%+ 질문…
적용: ~/.claude/rules/doom-loop-detection-pattern.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ doom-loop-detection-pattern.md

9/10rule

Anthropic Managed Agents

Claude Managed Agents: a fully managed agent harness for running Claude as an autonomous agent with secure sandboxing, built-in tools, and server-sent event streaming.

분석: 기존 ci-self-healing-loop.md가 "CI 테스트 실패 → 에이전트 자동 수정 루프"를, agentic-workflows-cicd.md가 "에이전트를 CI/CD 파이프라인으로 격상"을 다뤘다면, Managed Agents는 에이전트 하네스 자체를 클라우드 매니지드 서비스로 제공하여 로컬 인프라 의존성을 제거.
적용: ~/.claude/rules/managed-agent-harness-pattern.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ managed-agent-harness-pattern.md

8/10reference

warpdotdev/warp: Agentic Development Environment (⭐40.7K)

Warp is an agentic development environment, born out of the terminal.

분석: 기존 worktree-parallel-agents.md가 "격리 worktree로 병렬 작업"을, fresh-context-iteration.md가 "fresh 세션으로 컨텍스트 최적화"를, state-driven-orchestration.md가 "파일 기반 상태 관리"를 다뤘다면, Warp 2.0은 에이전트 개발 환경(ADE)이라는 새로운 카테고리를…
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

수확

SEEN 693 | Applied 1432026-04-29

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer) + WebSearch(AI agent repos April 2026).

9/10rule

langfuse/langfuse: LLM Observability Infrastructure (⭐26)

Open source LLM engineering platform: LLM Observability, metrics, evals, prompt management, playground, datasets.

분석: 기존 scored-agent-benchmarks.md가 "에이전트 성능을 3축 점수로 정량 평가"를, cross-model-adversarial-review.md가 "다중 모델 리뷰"를, token-efficiency-tracking.md가 "토큰 사용량 추적"을 다뤘다면, 이 패턴은 관측성 인프라 자체를 구축하여 세 가지를 하나의 플랫폼으로 통합.
적용: ~/.claude/rules/llm-observability-infrastructure.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ llm-observability-infrastructure.md

7/10rule

VILA-Lab/Dive-into-Claude-Code: Agent Infrastructure Ratio (⭐864)

The agent loop is a simple while-loop; the real engineering complexity lives in the systems around it.

분석: 기존 context-compression-pipeline.md가 "다단계 압축 파이프라인 이론"을, role-based-agent-permissions.md가 "역할별 도구 권한 제한"을 다뤘다면, 이 논문은 Claude Code 실제 소스에서 이 원칙들이 어떻게 구현되는지를 학술적으로 검증.
적용: ~/.claude/rules/agent-infrastructure-ratio.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ agent-infrastructure-ratio.md

수확

SEEN 683 | Applied 1412026-04-29

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics) + WebSearch(AI agent coding 2026).

10/10rule

vllm-project/semantic-router: Signal-Driven Model Routing (⭐4.0K)

Signal-driven intelligent routing — Workload-Router-Pool Architecture for LLM Inference Optimization.

분석: 기존 unified-model-gateway.md가 "단일 API로 멀티 프로바이더 포맷 변환"을, quantified-ambiguity-gate.md가 "비용-tier 라우팅(Frugal→Standard→Frontier)"을 다뤘다면, 이 패턴은 라우팅 신호를 3축으로 확장.
적용: ~/.claude/rules/signal-driven-model-routing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

9/10rule

zilliztech/claude-context: Semantic Code Search MCP (⭐10.2K)

Code search MCP for Claude Code.

분석: 기존 codebase-search-before-create.md가 "새 파일 생성 전 Grep/Glob으로 기존 구현 탐색 의무화"를 강제한다면, 이 도구는 탐색 방식 자체를 시맨틱 수준으로 업그레이드.
적용: ~/.claude/rules/semantic-codebase-search-mcp.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

7/10reference

gastownhall/gascity: Orchestration-Builder SDK (⭐522)

An orchestration-builder SDK for multi-agent systems.

분석: beads(22K⭐)가 에이전트 메모리를 다뤘다면, gascity는 에이전트 오케스트레이션을 선언적 SDK로 구조화.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 1

수확

SEEN 666 | Applied 1392026-04-29

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics) + WebSearch(AI agent coding 2026).

10/10rule

mksglu/context-mode: Context Sandboxing (⭐11.0K)

A 56 KB Playwright snapshot becomes 299 bytes — 99% reduction.

분석: 기존 cli-output-compression.md가 "CLI 출력 사후 필터링(rtk, 60-90%)"을, context-compression-pipeline.md가 "파일→LLM 입력 사전 압축(15-82%)"을 다뤘다면, 이 패턴은 도구 실행 자체를 서브프로세스로 격리하여 raw 출력이 컨텍스트에 진입하지 않도록 근본 차단.
적용: ~/.claude/rules/context-sandboxing-session-continuity.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ context-sandboxing-session-continuity.md

7/10rule

multica-ai/multica: Persistent Agent Identity (⭐22.5K)

Turn coding agents into real teammates — assign tasks, track progress, compound skills.

분석: 기존 canonical-workflow-fsm.md가 "태스크의 7-state FSM"을, deterministic-orchestrator-scheduling.md가 "결정론적 스케줄링"을, shared-agent-memory.md가 "에이전트 간 메모리 공유"를 다뤘다면, 이 패턴은 에이전트 자체에 영속적 정체성(persistent identity)을…
적용: ~/.claude/rules/persistent-agent-identity.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ persistent-agent-identity.md

수확

SEEN 651 | Applied 1372026-04-29

GitHub weekly trending(전체 · TypeScript · Python · Rust) + 구루 프로필 스캔(karpathy · simonw · anthropics) + GitHub topic search(ai-agent · claude-code · llm-tools · autonomous-agent).

9/10rule

sansan0/TrendRadar: Intelligent Signal Monitoring (⭐55)

Three reporting modes eliminate information overload: Daily (complete summary), Current (real-time rankings), Incremental (new articles only, zero duplicates).

분석: 기존 trend-harvester의 .seen.json이 "이미 본 항목 재처리 방지"를, Phase 2의 LLM 분석이 "의미 기반 필터링"을 다뤘다면, 이 패턴은 필터링을 2계층(키워드 → AI)으로 계층화하고 리포팅 모드를 3종으로 분기하여 정보 과부하를 구조적으로 제거.
적용: ~/.claude/rules/intelligent-signal-monitoring.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ intelligent-signal-monitoring.md

8/10rule

zilliztech/memsearch: Progressive Memory Retrieval (⭐1.5K)

Progressive disclosure for memory: search returns ranked chunks, then expands context incrementally rather than retrieving full documents upfront.

분석: 기존 shared-agent-memory.md가 "에이전트 간 지식 공유 저장"을, portable-memory-layer.md가 "단일 파일 이식성"을, semantic-memory-compaction.md가 "완료 태스크 압축"을 다뤘다면, 이 패턴은 검색 전략 자체를 3계층으로 계층화하여 "필요한 만큼만" 토큰을 소비.
적용: ~/.claude/rules/progressive-memory-retrieval.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ progressive-memory-retrieval.md

수확

SEEN 643 | Applied 1352026-04-29

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics) + GitHub topic search(claude-code · ai-agent · llm-tools).

9/10rule

KeygraphHQ/shannon: Proof-by-Exploitation Security (⭐40)

No exploit, no report.

분석: 기존 security-patterns.md가 "OWASP 점검 체크리스트"를, qa-browser-test-required.md가 "인터랙션 테스트 필수"를 다뤘다면, 이 패턴은 보안 검증에 proof-by-exploitation을 적용하여 false positive를 구조적으로 제거.
적용: ~/.claude/rules/proof-by-exploitation-security.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ proof-by-exploitation-security.md

8/10rule

mnfst/manifest: Complexity-Based Model Routing (⭐5)

Redirects each query to the right model, saving up to 70% in AI costs.

분석: 기존 unified-model-gateway.md가 "포맷 변환 + 프로바이더 fallback"을, agent-delegation-strategy.md가 "복잡한 판단=Opus, 나머지=Sonnet" 2단계를 다뤘다면, 이 패턴은 요청 복잡도를 실시간 분석하여 300+ 모델 중 최적을 자동 선택하고 달러 단위로 비용을 추적.
적용: ~/.claude/rules/complexity-based-model-routing.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ complexity-based-model-routing.md

7/10rule

gastownhall/gascity: Declarative Orchestration Builder (⭐514)

Extracts the reusable infrastructure from Gas Town into a configurable toolkit with runtime providers, work routing, formulas, orders, health patrol, and a declarative city…

분석: 기존 declarative-agent-coordination.md(takt 913⭐)가 "YAML 명세로 에이전트 조율 정의"를, state-driven-orchestration.md(oh-my-codex 21K⭐)가 "파일 기반 상태 영속화"를, deterministic-orchestrator-scheduling.md가 "LLM 없는 스케줄링"을…
적용: ~/.claude/rules/declarative-orchestration-builder.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ declarative-orchestration-builder.md

수확

SEEN 623 | Applied 1322026-04-29

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics) + GitHub topic search(claude-code · ai-agent · llm-tools).

10/10rule

safishamsi/graphify: Multi-Format Knowledge Graph (⭐37)

Clustering is graph-topology-based — no embeddings.

분석: 기존 codebase-search-before-create.md가 "탐색 후 생성" 의무화를, ast-aware-code-search.md(62차)가 "AST 기반 하이브리드 검색"을 다뤘다면, 이 패턴은 코드를 넘어 문서·이미지·동영상까지 통합 그래프화하고 임베딩 없이 그래프 토폴로지만으로 클러스터링하는 근본적 접근.
적용: ~/.claude/rules/multi-format-knowledge-graph.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ multi-format-knowledge-graph.md

8/10rule

abhigyanpatwari/GitNexus: Precomputed Code Intelligence (⭐32)

Traditional approaches give the LLM raw graph edges and hope it explores enough.

분석: graphify가 "다중 포맷 통합 그래프"에 초점이라면, GitNexus는 순수 코드 관계의 깊이와 정밀도에 초점.
적용: ~/.claude/rules/precomputed-code-intelligence.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ precomputed-code-intelligence.md

7/10rule

wshobson/agents: Progressive Disclosure Architecture (⭐34)

Progressive disclosure: metadata (always loaded) → instructions (on demand) → resources (when needed).

분석: 기존 per-turn-tool-adaptation.md가 "턴마다 관련 도구만 선택"을, token-brevity-pattern.md이 "출력 토큰 절감"을 다뤘다면, 이 패턴은 스킬/에이전트 정의 자체를 3계층으로 분리하여 로딩 비용을 구조적으로 최소화.
적용: ~/.claude/rules/progressive-disclosure-skills.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ progressive-disclosure-skills.md

수확

SEEN 603 | Applied 1292026-04-29

GitHub weekly trending(전체 · TypeScript · Shell · Python · Go · Markdown) + 구루 프로필 스캔(karpathy · simonw · mattpocock · anthropics · openai) + GitHub topic search(ai-agent · llm-tools · claude-code · prompt-engineering).

10/10rule

mattpocock/skills: Real-Engineer Skills Library (⭐35)

Skills for Real Engineers.

분석: 기존 agent-skills-format.md(HuggingFace Skills 표준 포맷)가 형식 표준화에 집중했다면, mattpocock/skills는 내용 품질 표준화에 집중.
적용: ~/.claude/rules/practitioner-curated-skills.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ practitioner-curated-skills.md

9/10rule

taste-skill / High-Agency Frontend: AI 프론트엔드 미적 품질 강제 (⭐13)

High-Agency Frontend: gives your AI good taste." — AI가 생성한 프론트엔드 코드가 generic/uninspired하지 않도록 미적 품질을 결정론적으로 강제하는 anti-slop 검증 레이어.

분석: 기존 frontend-patterns.md의 "디자인 품질" 항목("UI 구현 시 frontend-design 또는 vs-design-diverge 스킬 활용 — 기본 제공 디자인이 아닌 창의적이고 세련된 UI 생성")이 SOFT 지침이었다면, taste-skill은 미적 품질을 HARD 검증으로 격상.
적용: ~/.claude/rules/frontend-aesthetic-gate.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ frontend-aesthetic-gate.md

수확

SEEN 593 | Applied 1272026-04-28

GitHub weekly trending(전체 · TypeScript · Python · Shell · Go) + 구루 프로필 스캔(karpathy · simonw · addyosmani · anthropics · openai) + GitHub topic search(ai-agent · llm-tools · claude-code).

10/10rule

mksglu/context-mode: Tool Output Sandboxing (⭐10)

Context window optimization for AI coding agents.

분석: 기존 컨텍스트 압축 패턴들(cli-output-compression의 rtk 프록시, context-compression-pipeline의 파일 내용 압축)은 외부 도구 또는 파일 수준에서 압축.
적용: ~/.claude/rules/tool-output-sandboxing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ tool-output-sandboxing.md

8/10rule

addyosmani/agent-skills: Production-Grade Agent Skills Library (⭐24)

Production-grade engineering capabilities designed for AI coding agents." — 반복 에이전트 작업을 재사용 가능한 Shell 기반 스킬로 패키징, 조합 가능한 파이프라인으로 체이닝.

분석: 기존 agent-skill-extraction.md(hermes-agent)가 복잡한 작업 해결 후 스킬 추출을 다룬다면, addyosmani/agent-skills는 사전 검증된 스킬 라이브러리를 플러그인 방식으로 제공하는 보완적 접근.
적용: ~/.claude/rules/production-grade-agent-skills.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ production-grade-agent-skills.md

수확

SEEN 583 | Applied 1252026-04-28

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai) + GitHub topic search(ai-agent · claude-code · llm-tools).

9/10rule

mnfst/manifest: Complexity-Tier Model Routing (⭐5)

Scores each request in under 2ms using a 23-dimension algorithm, then routes to the cheapest model that can handle it.

분석: 기존 unified-model-gateway.md가 프로바이더 간 포맷 변환과 장애 failover를 다룬다면, 이 패턴은 "이 요청에 어떤 모델이 최적인가"를 결정론적으로 판정.
적용: ~/.claude/rules/complexity-tier-model-routing.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ complexity-tier-model-routing.md

7/10rule

zilliztech/memsearch: Cross-Agent Memory Persistence (⭐1)

Markdown files are the source of truth.

분석: 기존 shared-agent-memory.md(metabot)가 에이전트 완료 시 수동 저장을, portable-memory-layer.md(memvid)가 단일 파일 메모리를 다룬다면, 이 패턴은 자동 캡처 + 크로스 에이전트 호환 + 재구축 가능 캐시를 제공.
적용: ~/.claude/rules/cross-agent-memory-persistence.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ cross-agent-memory-persistence.md

수확

SEEN 573 | Applied 1232026-04-27

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai) + GitHub topic search(ai-agent · claude-code · llm-tools).

8/10rule

multica-ai/multica: Agent-as-Teammate Lifecycle (⭐21)

Turn coding agents into real teammates — assign tasks, track progress, compound skills.

분석: 기존 agent-delegation-strategy.md가 "누구에게 위임할 것인가"를, shared-agent-memory.md가 "메모리를 어떻게 공유할 것인가"를 다룬다면, 이 패턴은 위임 이후의 전체 라이프사이클을 관리.
적용: ~/.claude/rules/agent-as-teammate-lifecycle.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ agent-as-teammate-lifecycle.md

8/10rule

zilliztech/claude-context: AST-Aware Code Search (⭐9)

AST-based intelligent code chunking preserves semantic units.

분석: 기존 codebase-search-before-create.md가 "검색 후 생성" 의무화를, codebase-packing-pattern.md가 "코드베이스 패킹"을 다룬다면, 이 패턴은 "어떻게 검색해야 효율적인가"에 대한 구체적 답.
적용: ~/.claude/rules/ast-aware-code-search.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ ast-aware-code-search.md

8/10rule

superradcompany/microsandbox: MicroVM Agent Sandbox (⭐5)

Hardware-level isolation with microVM technology — no server to set up, sub-100ms boot, secrets never enter the VM.

분석: 기존 sandboxed-agent-code-execution.md(pydantic/monty)가 "코드로 표현 + 샌드박스 실행"의 원칙을 다룬다면, 이 패턴은 격리 수준과 성능의 구체적 구현을 제공.
적용: ~/.claude/rules/microvm-agent-sandbox.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ microvm-agent-sandbox.md

수확

SEEN 557 | Applied 1202026-04-26

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics) + GitHub topic search(claude-code · ai-agent).

9/10rule

addyosmani/agent-skills: Anti-Rationalization Verification Gates (⭐28) addyosmani

Rationalizations are the most dangerous failure mode — the agent convinces itself the shortcut is acceptable.

분석: 기존 completion-verification.md가 "완료 전 체크리스트"를 제공한다면, 이 패턴은 각 체크 항목에 "왜 건너뛸 수 없는지"를 선제적으로 명시.
적용: ~/.claude/rules/anti-rationalization-gates.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ anti-rationalization-gates.md

9/10rule

gastownhall/gascity: Controller-Supervisor Reconciliation

A controller continuously reconciles desired state to running state — orchestration as reconciliation loop, not one-shot dispatch." — 선언적 city.toml + pluggable…

분석: 기존 state-driven-orchestration.md(파일 기반 상태 저장)과 deterministic-orchestrator-scheduling.md(결정론적 스케줄링)의 통합 진화.
적용: ~/.claude/rules/controller-supervisor-reconciliation.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ controller-supervisor-reconciliation.md

9/10rule

KeygraphHQ/shannon: Evidence-Only Reporting (⭐42)

No exploit, no report.

분석: 기존 qa-screenshot-required.md가 "스크린샷 증거 필수"를, completion-verification.md가 "완료 전 자가 검증"을 다룬다면, 이 패턴은 모든 보고 항목에 재현 가능한 증거를 강제.
적용: ~/.claude/rules/evidence-only-reporting.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ evidence-only-reporting.md

수확

SEEN 545 | Applied 1172026-04-27

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer) + WebSearch(AI agent repos April 2026 · Claude Code new features April 2026 · AI coding agent benchmarks 2026).

8/10rule

multica-ai/multica: Agents as Teammates (⭐21)

Turn coding agents into real teammates — assign tasks, track progress, compound skills.

분석: 기존 agent-delegation-strategy가 "orchestrator가 에이전트에게 push"하는 모델이라면, Multica는 "에이전트가 큐에서 pull"하는 모델.
적용: ~/.claude/rules/agent-as-teammate.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ ~/.claude/rules/agent-as-teammate.md

9/10rule-update

rtk-ai/rtk: Transparent Shell Hook (⭐35)

Shell hook silently rewrites git status → rtk git status.

분석: 6차 수확(2026-04-09)에서 cli-output-compression 규칙으로 등재(당시 ⭐20K).
적용: ~/.claude/rules/cli-output-compression.md 기존 규칙 업데이트.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/cli-output-compression.md

수확

SEEN 530 | Applied 1152026-04-26

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics) + WebSearch(self-improving agents · recursive language models · Claude Code plugins April 2026).

8/10rule

alexzhang13/rlm: Recursive Language Models (⭐3)

Task-agnostic inference paradigm: offload context as variables in a REPL, let the model recursively call itself to decompose and solve." — MIT OASYS lab 연구에서 탄생.

분석: 기존 context-compression-pipeline(claw-compactor, 15~82% 입력 압축)과 semantic-memory-compaction(beads, 완료 태스크 3줄 요약)이 scaffold 수준에서 토큰을 줄이는 접근이라면, RLM은 모델 수준에서 컨텍스트를 변수화하는 근본적 패러다임 전환.
적용: ~/.claude/rules/recursive-context-decomposition.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ ~/.claude/rules/recursive-context-decomposition.md

7/10rule

maximhq/bifrost: Fastest Enterprise AI Gateway (⭐4)

50x faster than LiteLLM.

분석: 기존 unified-model-gateway(QuantumNous/new-api, 16차)가 포맷 크로스 변환(OpenAI↔Claude↔Gemini)에 초점이고, mnfst/manifest(53차)가 비용 기반 지능형 라우팅(23차원 스코어링)에 초점이라면, Bifrost는 처리량(throughput)과 지연 시간(latency)에 초점.
적용: ~/.claude/rules/unified-model-gateway.md 기존 규칙에 Bifrost 참조 추가.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ ~/.claude/rules/unified-model-gateway.md

수확

SEEN 518 | Applied 1132026-04-26

GitHub weekly trending(전체 · TypeScript · Python · Rust) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer) + WebSearch(AI agent frameworks · self-improving agents · Claude Code plugins).

8/10rule

multica-ai/multica: Managed Agent Team Platform (⭐21)

Every solution becomes a reusable skill for the whole team." — 에이전트를 팀원처럼 관리.

분석: 기존 shared-agent-memory(xvirobotics/metabot, 26차)가 에이전트 학습 내용을 파일 기반으로 수동 축적하고, execution-path-crystallization(GenericAgent, 4차)이 성공 경로를 SOP로 변환한다면, multica는 이 둘을 플랫폼 수준에서 자동화.
적용: ~/.claude/rules/managed-agent-team-platform.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ managed-agent-team-platform.md

8/10rule

KeygraphHQ/shannon: Exploit-Verified Security Testing (⭐40)

No exploit, no report — hypothesized vulnerabilities must be successfully exploited to prove impact." — 5개 전문 에이전트가 OWASP 카테고리별 병렬 공격.

분석: 기존 security-patterns의 보안 점검이 코드 패턴 매칭(grep 기반 SOFT 검증)에 의존한다면, shannon은 실제 익스플로잇으로 증명하는 HARD 검증.
적용: ~/.claude/rules/exploit-verified-security-testing.md 신규 생성.
5축: HARD전환 2 · 토큰효율 0 · 측정가능 2

→ exploit-verified-security-testing.md

7/10rule

superradcompany/microsandbox: MicroVM Agent Sandbox

Unexploitable secrets — keys never enter the VM." — libkrun 기반 microVM, 부팅 <100ms, 데몬 불필요, 루트리스.

분석: 기존 sandboxed-agent-code-execution(pydantic/monty, 50차)이 인터프리터 수준 샌드박스(파일시스템 차단 + 리소스 제한 + 런타임 취소)를 다룬다면, microsandbox는 하드웨어 수준 microVM으로 한 단계 더 강력한 격리.
적��: ~/.claude/rules/microvm-agent-sandbox.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 0 · 측정가능 2

→ microvm-agent-sandbox.md

수확

SEEN 502 | Applied 1102026-04-26

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer) + topic 검색(ai-agent · claude-code · self-improving).

10/10rule

mnfst/manifest: Local Model Routing (⭐5)

Smart Model Routing for Personal AI Agents — 23-dimension scoring in under 2ms, no third-party proxy needed." — 요청 복잡도를 4-tier(Simple/Standard/Complex/Reasoning)로 자동 분류, 각 tier에…

분석: 기존 unified-model-gateway(QuantumNous/new-api, 26차)가 중앙 프록시 서버 방식이라면, manifest는 로컬 라우팅이 핵심 차별점.
적용: ~/.claude/rules/local-model-routing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ local-model-routing.md

9/10rule

addyosmani/agent-skills: Anti-Rationalization Tables (⭐23)

Process steps, not prose.

분석: 기존 completion-verification(완료 선언 전 자가 검증)과 qa-browser-test-required(인터랙션 필수)가 "무엇을 체크할지"를 명시한다면, Anti-Rationalization Tables는 "에이전트가 왜 스킵하려 하는지"의 변명 패턴 자체를 사전 카탈로그화.
적용: ~/.claude/rules/anti-rationalization-tables.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ anti-rationalization-tables.md

7/10rule

Leonxlnx/taste-skill: Parameterized Aesthetic Enforcement (⭐12)

Parameterized anti-slop — 3 dials (Design Variance, Motion Intensity, Visual Density) on 1-10 scales prevent generic output." — 프로젝트 타입별 사전 설정 + Anti-Slop 체크리스트.

분석: 기존 frontend-patterns 디자인 품질 섹션("밋밋한 플랫 UI 지양")과 ui-ux-reference-nagix(3D 시각화 레퍼런스)가 참조 기준이라면, taste-skill은 수치 기반 강제.
적용: ~/.claude/rules/parameterized-aesthetic-enforcement.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ parameterized-aesthetic-enforcement.md

수확

SEEN 487 | Applied 1072026-04-26

9/10rule

aden-hive/hive: Graph-Based Crash Recovery (⭐10)

On failure, the system evolves the graph and redeploys automatically." — 자연어 목표 → 결정론적 DAG 자동 생성, 각 노드에 체크포인트.

분석: 기존 pause-on-failure-pattern(실패 상태 보존 + 해당 step 재실행)과 auto-block-stuck-tasks(4회 실패 → blocked 전환 + 다음 태스크 우회)가 단일 노드 수준의 복구라면, hive는 서브그래프 단위의 구조적 진화.
적용: ~/.claude/rules/graph-based-crash-recovery.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ graph-based-crash-recovery.md

8/10rule

shareAI-lab/learn-claude-code: Minimal Bash Agent Harness (⭐56)

Bash is all you need — a nano claude-code-like agent harness, built from 0 to 1." — curl + jq만으로 완전한 에이전트 루프(LLM 호출 → 도구 파싱 → 실행 → 결과 피드백) 구현.

분석: 우리 시스템의 codex-convergence-loop.sh, loopy-era-workflow.sh, trend-harvest-to-html.sh 등이 이미 이 패턴의 부분 구현.
적용: ~/.claude/rules/minimal-bash-agent-harness.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ minimal-bash-agent-harness.md

수확

SEEN 472 | Applied 1052026-04-25

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer) + topic 검색.

9/10rule

KeygraphHQ/shannon: Proof-by-Exploitation QA (⭐40)

Only vulnerabilities with working proof-of-concept exploits are reported — no theoretical detection." — 5단계 파이프라인의 Exploitation 단계에서 실제 공격 성공한 취약점만 보고.

분석: 기존 qa-browser-test-required("인터랙션 테스트 = QA의 핵심")과 qa-screenshot-required("DOM 존재만으로 PASS 금지")가 인터랙션을 권장하는 SOFT 규칙이라면, shannon의 proof-by-exploitation은 재현 증거 없으면 보고 자체를 거부하는 HARD 원칙.
적용: ~/.claude/rules/proof-by-exploitation-qa.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ proof-by-exploitation-qa.md

8/10rule

multica-ai/multica: Agent Skill Compounding (⭐20)

Every solution becomes a reusable skill for the whole team." — 에이전트를 프로젝트 보드의 팀원으로 운영.

분석: 53차에서 "Agent-as-Teammate"로 분석(score 7)했으나, 이번 주 ⭐5.5K→20.8K(4배 성장)으로 에코시스템 검증 완료.
적용: ~/.claude/rules/agent-skill-compounding.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ agent-skill-compounding.md

수확

SEEN 460 | Applied 1032026-04-25

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go · Shell) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer) + topic 검색.

9/10rule

addyosmani/agent-skills: Anti-Rationalization Tables (⭐22) addyosmani

AI coding agents default to the shortest path — which often means skipping specs, tests, security reviews." — 20개 프로덕션급 스킬이 6개 Phase(Define→Plan→Build→Verify→Review→Ship)를 커버.

분석: 기존 completion-verification(완료 후 자가 검증)과 convergence-loop-no-mid-question(중간 질문 금지)이 "결과 시점의 검증"이라면, agent-skills는 과정 중간의 합리화를 사전 차단.
적용: ~/.claude/rules/anti-rationalization-tables.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ anti-rationalization-tables.md

9/10rule

zilliztech/claude-context: Incremental Codebase Indexing (⭐9)

Make entire codebase the context — without exhausting token budgets." — Merkle tree로 변경 파일만 재인덱싱(1000개 중 10개 변경 시 10개만 처리).

분석: 기존 codebase-packing-pattern(repomix 스타일 전체 패킹)이 "전체를 한 번에"라면, claude-context는 "변경분만 증분 + 의미 단위 분할".
적용: ~/.claude/rules/incremental-codebase-indexing.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ incremental-codebase-indexing.md

9/10rule

mnfst/manifest: Request Complexity Scoring (⭐5)

Scores each request in 23 dimensions under 2ms, routes to the cheapest model that can handle it." — simple/standard/complex/reasoning 4단계 티어에 자동 분류.

분석: 53차에서 "포맷 변환 + 비용 게이트"로 분석했으나, 이번 회차에서 우리 시스템의 agent-delegation-strategy에 직접 매핑 가능한 복잡도 티어링으로 재해석.
적용: ~/.claude/rules/request-complexity-scoring.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ request-complexity-scoring.md

수확

SEEN 448 | Applied 1002026-04-25

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · mshumer) + topic 검색.

10/10rule

mksglu/context-mode: Context Sandbox Isolation (⭐9)

Sandbox tool output so raw data never enters your context window." — 모든 도구 출력을 subprocess에서 실행하고 stdout 요약만 컨텍스트에 주입.

분석: 기존 context-compression-pipeline(파일 압축)과 cli-output-compression(CLI 필터링)이 "데이터를 줄이는" 접근이라면, context-mode는 "데이터를 격리하는" 패러다임 전환.
적용: ~/.claude/rules/context-sandbox-isolation.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ context-sandbox-isolation.md

9/10rule

mnfst/manifest: Intelligent Model Routing (⭐5)

Simple questions go to fast, cheap models.

분석: 기존 unified-model-gateway(포맷 변환 초점)와 cost-tier routing(quantified-ambiguity-gate 내 실패 기반 승격)이 "수동 선택" 또는 "실패 후 대응"이라면, manifest는 사전 복잡도 판정으로 최적 모델 자동 선택.
적용: ~/.claude/rules/intelligent-model-routing.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ intelligent-model-routing.md

8/10rule

multica-ai/multica: Agent-as-Teammate (⭐20)

Turn coding agents into real teammates." — 에이전트가 프로젝트 보드에 등장하여 자율적으로 작업 수행·진행 보고·블로커 리포팅.

분석: 기존 team-orchestrator의 specialist는 "호출→반환" 도구 패턴 — 세션 종료 시 컨텍스트 소실.
적용: ~/.claude/rules/agent-as-teammate.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ agent-as-teammate.md

수확

SEEN 440 | Applied 972026-04-25

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics) + topic 검색.

9/10rule

KeygraphHQ/shannon: Proof-by-Exploitation Pentesting (⭐40)

White-box pentester: only vulnerabilities with working proof-of-concept exploits are reported." — 5개 OWASP 카테고리를 병렬 에이전트가 독립 분석 + 실제 exploit 실행.

분석: 기존 security-specialist와 pentest-checklist 스킬이 "체크리스트 기반 수동 검증"이라면, shannon은 가설→공격→증명 폐루프.
적용: ~/.claude/rules/proof-based-agent-verification.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ proof-based-agent-verification.md

9/10rule

coleam00/Archon: Deterministic AI Coding Harness (⭐19)

Make AI coding deterministic." — 17개 기본 워크플로우(이슈 수정, 기능 구현, 5인 병렬 PR 리뷰, 안전 리팩토링, 머지 충돌 해소)를 YAML DAG로 선언.

분석: 기존 deterministic-orchestrator-scheduling 규칙이 "스케줄링을 코드로"라면, Archon은 전체 워크플로우를 YAML로 결정화.
적용: ~/.claude/rules/declarative-workflow-crystallization.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ declarative-workflow-crystallization.md

7/10rule

HKUDS/RAG-Anything: Multimodal RAG (⭐18)

All-in-One RAG Framework." — 텍스트·이미지·테이블·수식·차트를 5단계 파이프라인(파싱→이해→멀티모달 분석→지식그래프 구축→지능형 검색)으로 처리.

분석: 기존 semantic-codebase-search.md(51차 적용)가 코드 전용 BM25+벡터라면, RAG-Anything은 문서 전용 멀티모달 + 지식 그래프.
적용: ~/.claude/rules/multimodal-knowledge-graph-rag.md 신규 생성.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ multimodal-knowledge-graph-rag.md

수확

SEEN 425 | Applied 942026-04-24

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer) + topic 검색.

9/10rule

zilliztech/claude-context: Semantic Codebase Search (⭐8)

Make entire codebase the context for any coding agent." — BM25(키워드) + Dense Vector(임베딩) 하이브리드 검색으로 자연어 질의에서 관련 코드만 정확히 추출.

분석: 기존 codebase-packing-pattern.md(repomix)가 정적 전체 패킹이라면, claude-context는 실시간 시맨틱 검색 — 질의 시점에 관련 함수만 추출.
적용: ~/.claude/rules/semantic-codebase-search.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ semantic-codebase-search.md

9/10rule

superradcompany/microsandbox: microVM Agent Sandbox (⭐5)

Hardware-level isolation with microVM technology.

분석: 50차 pydantic/monty가 Python 인터프리터 샌드박스(프로세스 내 격리)라면, microsandbox는 OS 수준 완전 격리(microVM).
적용: ~/.claude/rules/microvm-agent-sandbox.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ microvm-agent-sandbox.md

8/10rule

multica-ai/multica: Managed Agent Teammates (⭐20)

Your next 10 hires won't be human." — 코딩 에이전트를 프로젝트 보드의 정식 팀원으로 관리.

분석: 기존 team-orchestrator가 "세션 단위 specialist 위임"이라면, multica는 영구 팀원으로서의 에이전트 — 세션이 끝나도 스킬이 누적.
적용: ~/.claude/rules/managed-agent-teammates.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ managed-agent-teammates.md

수확

SEEN 410 | Applied 912026-04-24

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer) + topic 검색.

9/10rule

EvoMap/evolver: Strategy Presets for Self-Evolution (⭐6)

Evolver is a prompt generator, not a code patcher." — 에이전트 자가개선을 프로토콜 기반 진화로 구조화.

분석: recursive-self-improvement-loop.md가 4단계 폐루프(Competitor→Analyst→Coach→Curator)를 정의한다면, evolver는 각 단계 내부의 변경 단위(Gene)와 전략 모드(preset)를 구체화.
적용: ~/.claude/rules/protocol-bound-evolution.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ protocol-bound-evolution.md

9/10rule

Tracer-Cloud/opensre: Scored Agent Benchmarks (⭐2)

Treats investigation as a learnable, trainable domain — comparable to how SWE-bench improved coding agents." — AI SRE agent의 incident investigation 능력을 합성 시나리오 + 점수 매기기로 정량화.

분석: harness-report가 scaffold 구조(정적 파일 존재/패턴)를 측정한다면, opensre 패턴은 에이전트 행동 능력(동적 시뮬레이션)을 측정.
적용: ~/.claude/rules/scored-agent-benchmarks.md 신규 생성.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ scored-agent-benchmarks.md

7/10rule

pydantic/monty: Sandboxed Code Execution

A minimal, secure Python interpreter written in Rust for use by AI." — 에이전트가 순차 도구 호출 대신 코드로 로직 표현 + 샌드박스에서 안전 실행.

분석: 도구 호출 10회 = LLM 추론 10회.
적용: ~/.claude/rules/sandboxed-agent-code-execution.md 신규 생성.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ sandboxed-agent-code-execution.md

수확

SEEN 398 | Applied 882026-04-24

GitHub weekly trending(전체) + Anthropic 공식 org 스캔 + simonw 최근 push + topic 검색(vertical-agent · sre-agent · plugin-marketplace).

9/10rule

anthropics/knowledge-work-plugins: Role-Specific Plugin Architecture (⭐11)

Open source plugins for knowledge workers in Claude Cowork." 10개 vertical(Sales: prospect research · call prep · HubSpot/Close/Clay/ZoomInfo · Customer Support: ticket triage ·…

분석: 네 가지 primitive.
적용 이유: 우리 ~/.claude/skills/가 성장하면서 discoverability 저하 마찰 누적 — 100+ 스킬 중 필요한 걸 찾기 어렵고, 신규 스킬이 기존과 중복인지 판단 어려움.
기대효과: ~/.claude/rules/role-taxonomy-plugin-structure.md 도입 시 3가지 실효: (1) 카테고리 디렉토리 마이그레이션: ~/.claude/skills/ 100+ 스킬을 dev-work/ · project-scaffold/ · meta-ops/ · analysis/ · knowledge-work/(향후) 5개 카테고리로 분류…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ role-taxonomy-plugin-structure.md

9/10rule

Tracer-Cloud/opensre: AI SRE Agent (⭐2)

An open reinforcement learning environment for agentic infrastructure incident response." 5단계 incident workflow: (1) 알림 context fetch(logs · metrics · traces 상관관계) · (2) 연결 시스템…

분석: 네 가지 primitive.
적용 이유: 우리 bug-fixer는 코드 버그에 특화이지만 production incident(서버 500 · DB 커넥션 폭주 · Kubernetes pod crashloop)는 별도 도메인 — 현재 코드 repo 컨텍스트만 있고 runtime metrics/logs/traces 없음.
기대효과: ~/.claude/rules/evidence-backed-investigation.md 도입 시 3가지 실효: (1) Evidence chain schema: bug-fixer 에이전트 프롬프트에 <evidence-chain> 필수 블록 추가 + PostToolUse hook이 응답에서 해당 블록 부재 시 경고.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ evidence-backed-investigation.md

8/10rule

anthropics/claude-plugins-community: Anthropic-Audited Marketplace with Nightly Security Pipeline…

Community plugin marketplace for Claude Cowork and Claude Code (read-only mirror)." Read-only mirror(internal review pipeline에서 nightly sync) — 사용자 직접 commit 불가, PR은 자동 close.

분석: 세 가지 primitive.
적용 이유: 우리 cc-sync가 user-scope 전체 복사 + git push만 수행 — security audit 없음.
기대효과: ~/.claude/rules/skill-audit-pipeline.md 도입 시 3가지 실효: (1) Security scan in cc-sync: scripts/skill-audit.sh가 git diff로 변경된 skills/agents/rules 파일만 대상으로 hidden Unicode + API key pattern + shell…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ skill-audit-pipeline.md

7/10참조

simonw/llm-openai-via-codex: Cross-Provider Auth Gateway

Access OpenAI models via an existing Codex subscription." LLM CLI plugin으로 Codex CLI 인증(Codex 구독)을 bridge해 OpenAI 직접 API 키 없이 모델 접근.

분석: 세 가지 primitive.
참조 사유: 직접 adoption은 제한적 — 우리는 claude.ai 구독 기반으로 Claude Code 사용 중이고, 다른 provider API 병행 필요성 현재 낮음.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ cross-provider-auth-bridging.md(참조)

수확

SEEN 372 | Applied 852026-04-24

GitHub weekly trending(전체 · TypeScript · Python) + 구루 프로필 스캔(karpathy · simonw · anthropics · NousResearch) + topic 검색(self-evolving · skill-compounding · agent-teams).

10/10rule

NousResearch/hermes-agent: Autonomous Skill Creation (⭐112)

The agent that grows with you" — closed learning loop with autonomous skill creation after complex tasks + agent-curated memory with periodic nudges.

분석: 다섯 가지 primitive.
적용 이유: 우리 loopy-era 철학의 자가진화 루프와 직접 경쟁·상호보완 관계.
기대효과: ~/.claude/rules/autonomous-skill-crystallization.md 도입 시 3가지 실효: (1) Skill-nudge hook: ~/.claude/hooks/skill-nudge.sh를 Stop에 등록 → 세션에서 2+ tool call로 해결한 패턴 감지 시 텔레그램으로 "이 패턴 skill로 박을래요?
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ autonomous-skill-crystallization.md

9/10rule

EvoMap/evolver: GEP Protocol (⭐6)

GEP-powered self-evolving engine for AI agents" — auditable prompt generator, not code patcher.

분석: 네 가지 primitive.
적용 이유: 우리 /self-improve의 근본 한계: 규칙 추가가 "LLM 판단 + 수동 검토"이고 왜 이 규칙이 추가됐는지 audit trail 부재.
기대효과: ~/.claude/rules/auditable-rule-evolution.md 도입 시 3가지 실효: (1) Evolution events ledger: ~/.claude/rules/.evolution-events.jsonl에 모든 rule 변경 append-only → scripts/rule-audit.sh {rule}로 특정 rule의…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ auditable-rule-evolution.md

9/10rule

forrestchang/andrej-karpathy-skills: CLAUDE.md Distribution of Karpathy's 4 LLM Coding Principles (⭐79)

단일 CLAUDE.md 파일로 Karpathy의 LLM 코딩 실패 관찰을 4원칙으로 체계화 + Claude Code/Cursor 동시 지원.

분석: 네 가지 primitive.
적용 이유: 우리 기존 karpathy-coding-principles.md가 18줄 요약으로 존재하지만 실제 Claude 행동 가이드로 불충분 — 4원칙 이름만 있고 구체 판단 기준 부재.
기대효과: ~/.claude/rules/karpathy-coding-principles.md 재작성 시 3가지 실효: (1) Multi-interpretation trigger: 요청이 모호 감지(키워드: "개선" · "고쳐" · "좀 더 낫게") 시 Claude가 2~3 해석 선제 제시 → 재작업 방지.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ karpathy-coding-principles.md

8/10참조

multica-ai/multica: Managed Agents Platform (⭐20)

Turn coding agents into real teammates — assign tasks, track progress, compound skills." Open-source 관리형 agents platform.

분석: 네 가지 primitive.
참조 사유: 전체 adoption은 인프라 부담 매우 큼 — Go 백엔드 + PostgreSQL + Next.js 프론트엔드 + daemon 등 개인 사용자 규모에 과함.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ managed-agent-teams-pattern.md(참조)

수확

SEEN 368 | Applied 822026-04-23

GitHub weekly trending(전체 · TypeScript · Python · Rust · Go) + 구루 프로필 스캔(karpathy · simonw · anthropics) + topic 검색(agent-sandbox · context-isolation · multi-agent-handoff).

10/10rule

mksglu/context-mode: MCP-Layer Sandboxed Tool Execution with 98% Context Reduction (⭐9)

AI context window optimization — tool output never leaves the subprocess." MCP 서버로 6개 sandbox tool…

분석: 다섯 가지 primitive.
적용 이유: 우리 context-compression-pipeline.md(claw-compactor, 15~82% 압축)와 cli-output-compression.md(rtk, 60~90% CLI 절감)가 있지만 두 가지 공백: (α) 실행 위치 격리 미구현 — 우리는 CLI 출력을 "읽은 후 압축"하지만 context-mode는 "애초에 context에 진입 못…
기대효과: ~/.claude/rules/subprocess-gateway-for-tool-output.md 도입 시 3가지 실효: (1) Subprocess gateway 스크립트: scripts/ctx-execute.sh 후이 bash 명령을 서브프로세스로 실행 + stdout만 Claude에 반환 + stderr/timing은…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ subprocess-gateway-for-tool-output.md

9/10rule

openai/openai-agents-python: Handoff-First Multi-Agent SDK with Built-in SandboxAgent (⭐25)

A lightweight yet powerful framework for multi-agent workflows" (Provider-agnostic, 100+ LLM 지원).

분석: 네 가지 primitive.
적용 이유: 우리 team-orchestrator + manager-orchestrator가 자연어 기반 prompt + result parse 패턴인데 정형화된 handoff primitive 도입 시 향상: (A) TypedDict 기반 handoff schema — 각 specialist agent 호출 시 {task_id, acceptance_criteria,…
기대효과: ~/.claude/rules/typed-agent-handoff.md 도입 시 3가지 실효: (1) Handoff schema 정형화: specialist 호출 시 orchestrator가 scripts/handoff-pack.sh로 JSON payload 생성 → {task_id, acceptance_criteria, files_allowed,…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ typed-agent-handoff.md

8/10rule

vercel-labs/open-agents: Agent-Sandbox Decoupling (⭐4)

Open-source reference app for building and running background coding agents on Vercel.

분석: 네 가지 primitive.
적용 이유: 우리 오케스트레이터는 specialist가 Task(subagent_type)로 실행되는데 Claude 자식 프로세스라 parent 죽으면 cascade 종료.
기대효과: ~/.claude/rules/durable-agent-sandbox-decoupling.md 도입 시 3가지 실효: (1) Background job wrapper: scripts/bg-exec.sh 후가 장시간 태스크를 systemd --user 또는 launchd로 등록 + PID/log 추적 + 완료 시 텔레그램 notify.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ durable-agent-sandbox-decoupling.md

8/10참조

superradcompany/microsandbox: Rust-Based MicroVM Sandboxes for AI-Generated Code (⭐5)

Secure, local sandboxes for AI agent execution and isolation." Rust 기반 microVM (Firecracker 계열) 특화 — LLM 생성 코드를 로컬에서 빠른 시작 + 강한 격리로 실행.

분석: 세 가지 primitive.
참조 사유: 전체 adoption은 인프라 부담 큼 — Linux KVM 또는 macOS Virtualization.framework 의존 + 개발 머신 리소스 큼.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ microvm-boundary-for-untrusted-code.md(참조)

수확

SEEN 364 | Applied 792026-04-23

GitHub weekly trending(전체+TypeScript+Python) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai) + topic 검색(agent-memory · context-engineering · model-routing).

10/10rule

thedotmack/claude-mem: Hook-Driven Session Memory with 10x Token Reduction (⭐65)

Persistent memory for Claude Code — seamlessly preserves context across sessions by automatically capturing tool usage observations." 5-hook lifecycle(SessionStart ·…

분석: 다섯 가지 primitive.
적용 이유: 우리 memory-bank와 search-conversations 스킬이 개념적으로는 동일하지만 자동화 수준과 토큰 효율 측면에서 claude-mem이 한 세대 앞섬.
기대효과: ~/.claude/rules/hook-driven-session-memory.md 도입 시 3가지 실효: (1) Auto-capture hook: scripts/session-capture.sh를 PostToolUse에 등록 → 각 tool call + result를…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ hook-driven-session-memory.md

9/10rule

zilliztech/claude-context: AST-Based Codebase MCP with 40% Token Reduction (⭐7)

Your entire codebase as Claude's context." AST-based intelligent chunking(TypeScript · Python · Java 등 다언어) + Merkle tree incremental indexing(변경 파일만 re-index) + BM25 + dense…

분석: 네 가지 primitive.
적용 이유: 우리 codebase-search-before-create.md가 원칙이지만 실제 Claude가 새 파일 만들기 전에 "유사 구현 먼저 탐색"을 누락하는 경우 반복 — 원인은 Grep의 regex 한계로 "이름은 다른데 기능이 같은" 중복 감지 불가.
기대효과: ~/.claude/rules/codebase-semantic-context.md 도입 시 3가지 실효: (1) 대규모 프로젝트 지원: .claude-context/index 디렉토리가 있으면 Claude가 MCP tool로 semantic search, 없으면 Grep fallback.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ codebase-semantic-context.md

9/10rule

mnfst/manifest: 23-Dimensional Cost-Aware Model Routing (⭐5)

Smart model routing for personal AI agents reducing costs up to 70%." 23-dimension scoring algorithm(<2ms runtime)이 요청을 4-tier(simple · standard · complex · reasoning)로 분류 →…

분석: 네 가지 primitive.
적용 이유: 우리 스킬/에이전트가 하드코딩된 모델 이름으로 실행 중(agent frontmatter의 model:) — sonnet 이나 opus 중 매 실행 고정.
기대효과: ~/.claude/rules/cost-aware-model-routing.md 도입 시 3가지 실효: (1) 복잡도 스코어링 스크립트: scripts/complexity-score.sh <prompt_file>이 3차원(길이 > 1000자 · 다중 파일 수정 · 아키텍처 설계 키워드) 중 2개 이상 해당 시 opus, 아니면 sonnet…
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ cost-aware-model-routing.md

8/10참조

topoteretes/cognee: Learning Agent Memory with Vector+Graph+Cognitive Fusion (⭐16)

Open-source knowledge engine that lets you ingest data in any format and continuously learns." Vector search + graph DB + cognitive science 3중 통합.

분석: 네 가지 primitive.
참조 사유: cognee 전체 adoption은 knowledge graph DB 인프라(Neo4j 등) 필요 + 학습 곡선 높아 현 단계에서 과함.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ learning-agent-memory.md(참조)

수확

SEEN 344 | Applied 762026-04-23

GitHub weekly trending(전체+TypeScript+Python) + 구루 프로필 스캔(karpathy · simonw · anthropics) + topic 검색(harness builder · agent orchestration).

9/10rule

coleam00/Archon: First Open-Source Harness Builder with YAML Workflow DAGs (⭐19)

The first open-source harness builder for AI coding.

분석: 다섯 가지 primitive.
적용 이유: Archon은 loopy-era의 코드화된 버전.
기대효과: ~/.claude/rules/yaml-workflow-dag-orchestration.md 도입 시 3가지 실효: (1) workflows/ 디렉토리 도입: team.yml(기존 team 오케스트레이션 DAG화) + auto-issue.yml(이슈 → 분석 → 구현 → QA → PR DAG) + qa-cycle.yml(빌드 → 타입체크 → 브라우저 테스트…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ yaml-workflow-dag-orchestration.md

8/10rule

multica-ai/multica: Agents as Board-Level Autonomous Teammates with Skill Compounding (⭐19)

The open-source managed agents platform.

분석: 네 가지 primitive.
적용 이유: 우리 auto-issue + bug-fixer 4회 로테이션 + skills/ 누적이 multica의 3-축 구조와 개념적으로 일치하지만 통합되어 있지 않음.
기대효과: ~/.claude/rules/board-driven-agent-autonomy.md 도입 시 3가지 실효: (1) Pull-Based auto-issue: /loop 5m /auto-issue가 이미 있지만 현재는 "실행되면 특정 이슈 선점", 이를 "폴링하며 조건 맞을 때만 claim"으로 전환 → scripts/issue-claim.sh가 GitHub…
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ board-driven-agent-autonomy.md

8/10rule

anthropics/claude-plugins-official: Official Plugin Manifest Standard with 2-Tier Governance (공식 ⭐17K)

Official, Anthropic-managed directory of high quality Claude Code Plugins" (2026-04-22 공개).

분석: 네 가지 primitive.
적용 이유: 우리 수 개월 구축한 ~/.claude/ 구조(agents/ + skills/ + hooks/ + rules/)가 Anthropic 공식 plugin 포맷과 naming overlap.
기대효과: ~/.claude/rules/official-plugin-manifest-standard.md 도입 시 3가지 실효: (1) 우리 skill을 plugin 포맷 wrapping: team, qa-cycle, loopy-era-trend-harvester 3개를 plugins/hugh-harness/로 묶고 plugin.json 작성 → /plugin…
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ official-plugin-manifest-standard.md

7/10참조

EvoMap/evolver: GEP-Powered Prompt Evolution with Audit Trail (⭐6)

Turns ad hoc prompt tweaks into auditable, reusable evolution assets." Gene Expression Programming 기반.

분석: 다섯 가지 primitive.
참조 사유: 우리 self-improve가 강력하지만 의도 선언 + scope 분리 + audit 구조화가 부족.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ evolution-audit-trail.md(참조)

수확

SEEN 329 | Applied 732026-04-21

토픽 검색(ai-agent · claude-code · llm-tools · self-improving · prompt-engineering · autonomous-agent) + 구루 프로필 스캔(karpathy · simonw · anthropics · openai · mshumer · hwchase17 · yoheinakajima · nagix).

9/10rule

openai/symphony: Work-over-Agent Management with Proof-of-Work Gate (공식 ⭐15K)

Turns project work into isolated, autonomous implementation runs, allowing teams to manage work instead of supervising coding agents." OpenAI 공식.

분석: 네 가지 primitive.
적용 이유: 우리 auto-issue가 이슈 처리까지는 구현했지만 proof-of-work 개념이 빠져 있음.
기대효과: ~/.claude/rules/work-over-agent-management.md 도입 시 3가지 실효: (1) auto-issue에 proof-of-work gate 추가: .qa-cycle-passed 외에 .complexity-delta.json(cyclomatic 증가율) + .flow-recording/(agent-browser 스크린샷 시퀀스)…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ work-over-agent-management.md

8/10rule

promptfoo/promptfoo: LLM Eval

CLI and library for evaluating and red-teaming LLM apps." 2026년 OpenAI 인수, MIT 유지.

분석: 네 가지 primitive.
적용 이유: 우리 qa-cycle이 "빌드 + 타입체크 + 브라우저 테스트 + API 응답" 레이어는 커버하지만 LLM 응답 품질의 regression은 완전 부재.
기대효과: ~/.claude/rules/llm-eval-as-ci-gate.md 도입 시 3가지 실효: (1) 프롬프트 regression suite: ~/.claude/eval-suite/agents/{agent}.yaml에 대표 10개 태스크 + 기대 output 패턴 고정 → scripts/run-prompt-eval.sh가 특정 agent 프롬프트 수정…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ llm-eval-as-ci-gate.md

7/10참조

openai/codex-plugin-cc: Official Codex Plugin for Claude Code (공식 ⭐15K)

Use Codex from inside Claude Code for code reviews or to delegate tasks to Codex." OpenAI 공식 Claude Code plugin.

분석: 네 가지 primitive.
참조 사유: 우리가 이미 구현한 패턴이 OpenAI 공식 표준화되어 migration 가치 재평가 필요.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ official-codex-plugin-migration.md(참조)

7/10참조

openai/skills: Agent Skills as Official Open Standard (공식 ⭐17K)

Agent Skills are folders of instructions, scripts, and resources that AI agents can discover and use." OpenAI 공식 Codex용 Skills catalog.

분석: 네 가지 primitive.
참조 사유: 우리 ~/.claude/skills/ 시스템이 industry standard에 합류했다는 convergence validation.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ agent-skills-3tier-model.md(참조)

수확

SEEN 317 | Applied 712026-04-21

GitHub weekly trending(전체+TypeScript+Python+Rust) + topic:claude-code/ai-agent 확장 + Karpathy·simonw·anthropics·openai 프로필 스캔.

9/10rule

dora-rs/dora: Declarative YAML Dataflow for Agent Orchestration (Rust, ⭐3.7K)

Middleware for event-driven dataflow AI pipelines." 100% Rust + Zenoh zero-copy messaging 기반.

분석: 네 가지 primitive.
적용 이유: 우리 canonical-workflow-fsm.md(spec-kitty 7-state FSM + lane)는 태스크 레벨 조율이지만 specialist 내부의 I/O 흐름은 여전히 프롬프트 자연어.
기대효과: ~/.claude/rules/declarative-dataflow-orchestration.md 도입 시 3가지 실제 효과: (1) team-orchestrator YAML 스키마화로 Phase 3 specialist 위임이 workflows/fullstack.yml 한 파일에 선언 → orchestrator는 yq/jq로 파싱 후 Task 호출,…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ declarative-dataflow-orchestration.md

8/10rule

openai/openai-agents-python: Composable Agent Primitives

Lightweight, powerful framework for multi-agent workflows." OpenAI 공식.

분석: 네 가지 primitive.
적용 이유: 우리 시스템은 이미 agent(skills) + tools(MCP/Bash/Edit) + handoff(Task 호출)를 갖고 있지만 guardrail이라는 명시적 pre/post 조건 layer가 부재.
기대효과: ~/.claude/rules/composable-agent-primitives.md 도입 시 specialist agent 정의가 4-field 표준화: instructions(기존 SKILL.md body) + tools(tools frontmatter) + guardrails(신규, pre/post bash 체크 리스트) + handoffs(신규,…
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ composable-agent-primitives.md

7/10참조

topoteretes/cognee: Remember / Recall / Forget / Improve (⭐16)

Knowledge Engine for AI Agent Memory in 6 lines of code." agent memory를 4가지 verb primitive로 명시화: Remember(ingest + 자동 entity extraction) · Recall(relationship-aware query + 자동…

분석: 다섯 가지 primitive.
참조 사유: 우리 claude-mem + memory-bank는 현재 "세션 기록 + 텍스트 검색"에 머물러 있고, cognee의 4-verb 모델은 memory 레이어를 체계화하는 개념 프레임.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ memory-verb-primitives.md(참조)

7/10참조

raphaelmansuy/edgequake: LightRAG with 6 Query Modes

High-performance GraphRAG for converting documents into knowledge graphs." Rust + PostgreSQL + Apache AGE + pgvector.

분석: 네 가지 primitive.
참조 사유: cognee와 동일 방향이지만 훨씬 구체적인 구현 지침 제공.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ entity-normalization-memory.md(참조)

수확

SEEN 305 | Applied 692026-04-21

GitHub weekly trending(전체+TypeScript+Python+Rust) + topic:claude-code / "agent harness" / "self-improving agent" 직접 검색 + Karpathy/Simon Willison/Anthropic 최근 push 프로필 스캔.

9/10rule

neosigmaai/auto-harness: Benchmark-Gated Self-Improvement with 3-Tier Gate

Self-improving agentic system with automatic failure mining and optimization." 에이전트가 직접 agent/agent.py를 편집하되 3개의 순차 게이트로만 통과: (1) regression suite ≥80%, (2) full test score가 best…

분석: 네 가지 primitive.
적용 이유: 우리 autoresearch 스킬(38차 babysitter 참조)은 keep/discard를 실행 시점에만 판정 — "개선이 regression을 유발했는지"는 별도 검증.
기대효과: ~/.claude/scripts/three-gate-regression.sh 도입 시 self-improve가 rule 추가 후 (1) 전체 qa-cycle 재실행하여 regression 확인, (2) 직전 iteration의 CRITICAL/HIGH 수와 비교, (3) 새로 통과한 TC를 docs/qa-test-plan.md에 자동 승격 — 3 단계…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ benchmark-gated-self-improvement.md

8/10rule

facebookresearch/HyperAgents: Self-Referential Self-Improving Agents (Meta Research ⭐2.4K)

Self-referential self-improving agents that can optimize for any computable task." Meta 공식 연구 (arXiv 2603.19461).

분석: 네 가지 primitive.
적용 이유: 우리 recursive-self-improvement-loop.md(autocontext 4단계)와 execution-path-crystallization.md(GenericAgent L0/L2/L3 memory)는 "성공 패턴을 SOP로 결정화"를 제시하지만 "에이전트 코드 자체의 구조적 변경"은 부재.
기대효과: ~/.claude/rules/meta-loop-agent-evolution.md(참조/실험 대상) 도입 시 specialist agent의 system prompt 자체를 iteration 대상으로 격상 — 기존에는 사람이 prompt를 수정했지만, Meta Agent가 최근 N회 실패/성공 패턴 분석 후 자동 제안 + harness-report…
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ meta-loop-agent-evolution.md(실험

8/10rule

affaan-m/everything-claude-code: Cross-Harness Performance Optimization (⭐162)

The agent harness performance optimization system for AI agent harnesses." 162K⭐ 단일 레포에 48 agents + 183 skills + 79 commands + 34 rules + 20+ hooks + 14 MCP servers 통합.

분석: 다섯 가지 primitive.
적용 이유: 우리 시스템과 아키텍처 철학이 거의 동일하지만 규모와 성숙도가 2배 수준 — 직접 흡수할 가치가 높음.
기대효과: ~/.claude/rules/harness-performance-optimization.md 도입 시 3가지 즉시 효과: (1) compact@50% 강제로 long session에서 compaction 실패 방지 (alinaqi의 4-dim fatigue 40/60/75/83%와 단계화 결합 가능), (2) model selection…
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ harness-performance-optimization.md

7/10rule

superradcompany/microsandbox: Hardware-Level Isolation for AI Agents (Rust

Secure, local and programmable sandboxes for AI agents." Rust + libkrun 기반 <100ms boot microVM으로 Docker 컨테이너와 전통 VM 사이 빈 틈을 채움.

분석: 네 가지 primitive.
적용 이유: 우리 permission-mode-safety-tiers.md(41차 OpenHarness/craft-agents)는 Explore/Ask/Auto의 tier 기반 권한 — 하지만 tier 전환 자체는 정책 레벨이고 실제 악성 코드 실행을 제어할 수 없음.
기대효과: ~/.claude/rules/hardware-isolation-for-untrusted-code.md 도입 시 3가지 실험 시나리오 안전화: (1) autoresearch가 benchmark 실험 코드 생성 → microsandbox에서 실행 → 결과만 host 반환, (2) trend-harvester가 외부 repo 코드 샘플 실험 →…
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ hardware-isolation-for-untrusted-code.md

7/10참조

alinaqi/claude-bootstrap: Mnemos Typed Memory

Opinionated project initialization for Claude Code.

분석: 다섯 가지 primitive.
참조 사유: 우리 claude-mem(thedotmack)은 자동 세션 캡처 + 압축 + 재주입 — 모든 컨텍스트를 동일 중요도로 처리.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ mnemos-typed-memory.md(참조)

수확

SEEN 290 | Applied 662026-04-21

GitHub weekly trending(전체+TypeScript) + topic:claude-code/ai-agent 확장 + Simon Willison/Karpathy 최근 push 프로필 스캔 + "agent harness" 직접 검색 + AGENTS.md 생태계 조사.

9/10rule

agents.md / Linux Foundation AAIF: Cross-Tool Agent Instructions Standard (60K+ adopters)

README for humans, AGENTS.md for coding agents." 2025-12 OpenAI·Anthropic·Google·Block 공동 donate로 Linux Foundation Agentic AI Foundation(AAIF) 관리 표준.

분석: 네 가지 primitive.
적용 이유: 우리 agent-manifest-pattern.md(microsoft/apm)는 primitives(skills/agents/hooks)의 선언적 manifest를 제시, agent-skills-format.md(huggingface/skills)는 SKILL.md 포맷 표준을 제시 — AGENTS.md는 instructions 자체의 cross-tool…
기대효과: ~/.claude/rules/agents-md-cross-tool-convention.md 도입 + 프로젝트별 심볼릭 링크 컨벤션 제정 시, 팀이 Claude Code + Cursor + Codex 혼용하는 환경에서 instructions 파편화 원천 차단.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ agents-md-cross-tool-convention.md

9/10rule

langchain-ai/deepagents: LangChain's Official "Inspired by Claude Code" Harness (⭐21)

Deep Agents is inspired by Claude Code." LangChain 공식 에이전트 하네스 — planning tool(write_todos) + filesystem backend + subagent with isolated context window + shell access + context…

분석: 다섯 가지 primitive가 우리 시스템과 독립 수렴.
적용 이유: 외부 독립 수렴의 증거.
기대효과: ~/.claude/rules/deep-agents-harness-primitives.md 도입 시 우리 시스템의 5 primitives 체크리스트를 명시화 — 각 primitive의 "SOFT vs HARD 현실" 표를 갱신하여 자가 진단 가능.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ deep-agents-harness-primitives.md

7/10rule

HKUDS/OpenHarness (⭐10)

두 프로젝트 독립 수렴으로 검증된 3-tier permission safety pattern — Explore(read-only) / Ask to Edit(매 호출 승인) / Auto(permissive).

분석: 세 가지 primitive.
적용 이유: 현재 우리 시스템은 ~/.claude/settings.json permissions가 세션 시작 시 고정 — 중간에 "잠깐 read-only만 하고 싶다"거나 "지금 bulk migration이라 승인 스킵하고 싶다"는 상황 대응 불가.
기대효과: ~/.claude/rules/permission-mode-safety-tiers.md + .claude/session-tier.json schema 도입 시, /tier explore / /tier ask / /tier auto slash command로 대화 중 권한 실시간 조정.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ permission-mode-safety-tiers.md

7/10참조

virattt/ai-hedge-fund: Thematic Persona Parallelization (⭐56)

An AI Hedge Fund Team." 14개 투자자 persona(Warren Buffett / Cathie Wood / Michael Burry 등) + 4개 분석 agent(Valuation/Sentiment/Fundamentals/Technicals) + Risk Manager + Portfolio…

분석: 네 가지 primitive.
참조 사유: 우리 llm-council-pattern.md(karpathy/llm-council)는 익명 리뷰 → Chairman 합의의 explicit voting + 합의 도출 패턴 — 명확하지만 "합의 강제"로 인해 diversity가 소실될 수 있음.
5축: 자동화 1 · 마찰제거 1 · HARD전환 0 · 토큰효율 1 · 측정가능 1

→ thematic-persona-parallelization.md(참조)

수확

SEEN 282 | Applied 632026-04-20

GitHub weekly trending(전체+TypeScript) + topic:ai-agent/claude-code 확장 검색 + Archon·EvoMap/evolver·Multica·addyosmani/agent-skills README 전수 분석.

9/10rule

coleam00/Archon: Harness Builder with Deterministic (⭐19)

The first open-source harness builder for AI coding.

분석: 다섯 가지 primitive.
적용 이유: 우리 deterministic-orchestrator-scheduling.md(bernstein) + canonical-workflow-fsm.md(spec-kitty) + fresh-context-iteration.md(snarktank/ralph)는 각각 "스케줄링 결정론", "FSM 전이 강제", "fresh session 반복"을 개별…
기대효과: ~/.claude/workflows/feature-dev.yml 표준 워크플로우 정의 시 "새 기능 개발"이 버전 관리 가능한 artifact로 — 현재는 /team 스킬이 자연어로 Phase 0~5를 설명하지만, YAML DAG 전환 시 Phase 전이가 depends_on으로 명시되어 "Phase 2를 건너뛰고 Phase 3" 같은 순서 위반 자동…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ harness-builder-yaml-dag.md

9/10rule

EvoMap/evolver: Genome Evolution Protocol with Strategy Preset Ratios (⭐5)

A GEP-powered self-evolution engine for AI agents.

분석: 다섯 가지 primitive.
적용 이유: 우리 recursive-self-improvement-loop.md(greyhaven-ai/autocontext)는 Competitor→Analyst→Coach→Curator 4단계 루프를 개념적으로 제시, execution-path-crystallization.md(lsdefine/GenericAgent)는 성공 경로 → SOP 결정화를 제시 —…
기대효과: ~/.claude/rules/strategy-preset-ratios.md 도입 시 self-improve가 프로젝트 단계별로 자동 preset 전환 — 현재는 "fix 커밋 쌓이면 pending" 단일 트리거, preset 도입 시 ~/.claude/context/project-phase.json의 phase(init/stable/crisis) 기반…
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ strategy-preset-fitness-ratios.md

7/10참조

multica-ai/multica: Task Lifecycle FSM (⭐17)

The open-source managed agents platform.

분석: 네 가지 primitive.
참조 사유: 우리 agent-delegation-strategy.md(키워드 매칭) + deterministic-orchestrator-scheduling.md(bernstein)는 specialist 선택/스케줄링을 다루지만 runtime capability 동적 감지는 부재.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ runtime-capability-registry.md(참조)

7/10참조

addyosmani/agent-skills: 6-Phase × 20 Skills with Anti-Rationalization Tables (⭐18)

Production-grade engineering skills for AI coding agents.

분석: 세 가지 핵심 요소.
참조 사유: 우리 agent-skills-format.md(huggingface/skills)는 SKILL.md 포맷 표준을 제시, addyosmani는 그 포맷으로 20개의 프로덕션 워크플로우를 실제 구현한 레퍼런스 라이브러리.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ anti-rationalization-tables.md(rule

수확

SEEN 278 | Applied 612026-04-20

GitHub daily/weekly trending(전체+TypeScript) + topic:claude-code/ai-agent pushed>2026-04-15 심층 + ECC·nanobot·learn-claude-code·OpenAI Agents README 전수 분석.

10/10rule

affaan-m/everything-claude-code: Cost-Aware Harness Tuning System (⭐161)

AI coding tool config을 static config pack이 아닌 performance system으로 재정의 — 디폴트 설정이 비용 60-70% 낭비." Anthropic 해커톤 우승자가 만든 cross-harness(Claude Code/Cursor/Codex/OpenCode) 최적화 시스템.

분석: 다섯 가지 즉시 적용 가능 primitive.
적용 이유: 우리는 이미 token-brevity-pattern.md(출력 절감) + context-compression-pipeline.md(입력 절감) + cli-output-compression.md(CLI 절감) + token-efficiency-tracking.md(추적)를 보유 — 네 가지 모두 구조적/기법적 차원.
기대효과: ~/.claude/settings.json에 "env": {"MAX_THINKING_TOKENS": "10000"} 1줄 추가 시 다음 모든 세션 thinking cost 즉시 70% 절감 — 1주일 누적 단위로 가장 큰 단일 ROI.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ cost-aware-harness-tuning.md

7/10참조

HKUDS/nanobot: Ultra-Lightweight Agent with Token-Based Memory (⭐40)

Intentionally simple enough to study, modify, and extend." 무거운 framework(LangChain/Haystack) 거부 + core_agent_lines.sh로 LOC를 design constraint로 명시 추적.

분석: 네 가지 minimalist primitive.
참조 사유: 우리 시스템은 이미 reducing-entropy 스킬과 code-review-patterns.md의 "코드 중복 제거"를 보유하지만, nanobot의 LOC를 메트릭으로 추적은 더 강한 강제 — core_agent_lines.sh 같은 측정 스크립트를 우리 scaffold에 도입 시 "스킬/규칙이 비대해지는 현상" 정량 추적 가능.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ scaffold/rules

7/10참조

shareAI-lab/learn-claude-code: Educational Harness Mechanism Decomposition (⭐54)

Treat the team JSONL mailbox protocol as a teaching implementation, not a claim about production internals." 12 progressive sessions(s01-s12)로 Claude Code 하네스의 핵심 mechanism을 단계별…

분석: 다섯 가지 교육적 primitive.
참조 사유: 우리 worktree-shared-state.md(RVC-COAL 파일 기반 조율) + state-driven-orchestration.md(oh-my-codex 파일 영속) + canonical-workflow-fsm.md(spec-kitty FSM)의 패턴을 교육적으로 분해한 reference implementation.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ on-demand

6/10참조

openai/openai-agents-python: Declarative Multi-Agent SDK with Built-in Tracing (⭐23)

Lightweight, powerful framework for multi-agent workflows." OpenAI 공식 SDK — Handoffs(에이전트 간 위임으로 hierarchical workflow) + Sessions(자동 conversation history management, in-memory or…

분석: 다섯 가지 production primitive.
참조 사유: OpenAI 공식 SDK라는 신호 가치 — 우리 patterns(specialist 위임, Sessions 자동 관리, Guardrails declarative validation)이 OpenAI 공식 라이브러리 primitive로 표준화된 것은 외부 검증.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ OpenAI

수확

SEEN 274 | Applied 602026-04-20

GitHub daily trending(전체) + topic:agent-orchestration pushed>2026-04-15 심층 탐색 + Donchitos·babysitter·opencrabs README 전수 분석.

8/10rule

a5c-ai/babysitter: Forced-Stop Hooks (⭐584)

Enforces compliance across agentic workforces — deterministic, hallucination-free orchestration." 매 step 종료 시 mandatory Stop hook이 발동하여 에이전트의 autonomous continuation을 물리적으로 차단.

분석: 여섯 가지 primitive.
적용 이유: 우리 convergence-loop-no-mid-question.md는 "CRITICAL=0 or EXHAUSTED까지 반복"을 말하지만 "진행 여부를 누가 결정하는가"는 여전히 Claude.
기대효과: team-orchestrator Phase 1→2→3 전이를 Claude 판단에서 next-phase.sh 스크립트 결정으로 전환 시 "Phase 1 완료된 것 같음 → Phase 2 시작" 환각 제거.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ forced-stop-hooks-pattern.md

8/10rule

adolfousier/opencrabs: 5-Way Self-Healing Engine for LLM Runtime Pathologies (⭐665)

Single Rust binary.

분석: 다섯 가지 병리 감지.
적용 이유: 우리는 이미 context-compression-pipeline.md(압축 전략) + unified-model-gateway.md(fallback) + convergence-loop-no-mid-question.md(루프 중단)를 분산 보유하지만, opencrabs처럼 런타임 self-healing engine 하나로 통합하지 못함.
기대효과: ~/.claude/hooks/pre-llm-call.sh에 context 65% soft-compaction 자동화 시 long-running 세션의 context rot 마찰 제거.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 0

→ self-healing-autonomy-patterns.md

7/10참조

Donchitos/Claude-Code-Game-Studios: Three-Tier Hierarchy (⭐13)

Turn Claude Code into a full game dev studio — 49 AI agents, 72 workflow skills." 단일 Claude Code 세션을 실제 게임 스튜디오 조직 구조(Directors → Department Leads → Specialists 3-tier)로 재구성.

분석: 다섯 가지 조직 primitive.
참조 사유: 우리 team-orchestrator는 specialist 2-tier(orchestrator → specialist)인데 Claude-Code-Game-Studios는 3-tier(director → lead → specialist)로 확장.
5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ 대규모

7/10참조

nxtg-ai/forge-orchestrator: File Locking (⭐108)

Multi-tool orchestration for Claude Code, Codex CLI, and Gemini CLI." 단일 Rust 바이너리가 state 관리, 동시 편집 방지, 제도적 지식 포착을 통합.

분석: 세 가지 핵심 primitive.
참조 사유: 우리는 Claude Code 단일 도구 사용 전제라 file locking 필요성이 낮음 — 하지만 /codex:rescue로 Codex/GPT를 호출하는 순간 multi-tool 상황 발생.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ codex-convergence-loop.sh에

수확

SEEN 270 | Applied 582026-04-20

GitHub weekly trending(전체+TypeScript+Python) + simonw 최근 push + topic:claude-code/self-improving API 검색. 11개 신규 후보(중복 제외) 중 2개 rule 제안(Ouroboros 9/10 · Spec-Kitty 8/10), 2개 참조(Human-Agent-Society CORAL 7/10 · simonw docs-for-llms 7/10).

9/10rule

Q00/ouroboros: Quantified Ambiguity Gates (⭐2)

Stop prompting.

분석: 다섯 가지 primitive.
적용 이유: 우리 convergence-loop-no-mid-question.md는 "CRITICAL=0 or EXHAUSTED까지 반복"을 말하지만 "CRITICAL=0인지 어떻게 측정하는가"는 여전히 LLM 판단.
기대효과: ambiguity-gate.sh 도입 시 team-orchestrator가 모호한 plan으로 Phase 3 구현을 시작하는 빈도가 구조적으로 급락.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ quantified-ambiguity-gate.md

8/10rule

Priivacy-ai/spec-kitty: Canonical FSM (⭐1)

Coordination is a file system problem, not a SaaS problem." 7-state canonical FSM(planned→claimed→in_progress→for_review→in_review→approved→done)을 tasks.md YAML frontmatter에 박고,…

분석: 네 가지 primitive.
적용 이유: 우리 worktree-parallel-agents.md(worktrunk) + worktree-shared-state.md(RVC-COAL) 조합은 "격리 + 공유 상태"까지만 다룸 — 상태 전이 규칙과 레인 계산 알고리즘이 부재.
기대효과: canonical-workflow-fsm.md 채택 시 TaskUpdate가 out-of-order 전이를 거부하여 "pending에서 바로 completed로 건너뛰기"로 QA 스킵하는 패턴을 구조적 차단.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ canonical-workflow-fsm.md

7/10참조

Human-Agent-Society/CORAL: Eval-on-Commit (⭐499)

Organizations of autonomous AI agents that run experiments, share knowledge, and continuously improve." 각 에이전트가 독립 worktree에서 작업하되 .coral/public/를 심볼릭 링크로 공유 — "zero sync…

분석: 네 가지 primitive.
참조 사유: CORAL 전체는 우리 worktree-shared-state.md + recursive-self-improvement-loop.md와 겹치지만, 두 가지 독창적 원소가 있다.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ qa-commit.sh

7/10참조

simonw/docs-for-llms: Version-Aware Concatenated Docs as LLM Artifact (⭐58) simonw

Concatenated documentation for use with LLMs." 5개 오픈소스 툴(llm/datasette/sqlite-utils/s3-credentials/shot-scraper)의 docs를 버전별 단일 .txt로 aggregate, index.json으로 메타데이터 제공.

분석: 세 가지 요소.
참조 사유: 우리 file-to-markdown-pipeline.md(microsoft/markitdown) + context-compression-pipeline.md(claw-compactor)와 철학 유사 — 다만 docs-for-llms는 "외부 의존성(프레임워크/라이브러리) 문서를 프로젝트 init 시점에 aggregate"라는 새로운 각도.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ /init-project에

수확

SEEN 266 | Applied 562026-04-19

GitHub weekly trending(전체 + topic:claude-code pushed>2026-04-01) + simonw 최근 push + Archon·OMO·evolver·addyosmani README 심층 분석.

9/10rule

coleam00/Archon: YAML DAG Harness Builder with Deterministic (⭐18)

The first open-source harness builder for AI coding.

분석: 세 가지 primitive.
적용 이유: 우리 team-orchestrator/manager-orchestrator의 Phase는 skill/agent markdown에 자연어 프롬프트로 정의 — 매 실행마다 Claude가 다시 해석하므로 재현성 0.
기대효과: .claude/workflows/team.yaml로 Phase 0~5를 DAG로 이관하면 "team-orchestrator가 매 실행마다 Phase 구조를 재발명하는 현상" 종결.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ archon-harness-builder.md

8/10rule

code-yeongyu/oh-my-openagent (OMO): Hashline Content-Hash Edit Safety (⭐52)

The best agent harness." 가장 독창적 primitive는 Hashline — 각 코드 라인에 content hash(LINE#ID)를 앵커링하여 에이전트가 라인 내용을 복제하지 않고 해시로 참조.

분석: 네 가지 primitive.
적용 이유: Hashline이 genuinely novel.
기대효과: Edit 도구가 Hashline 지원 시 "세션 중반 이후 Edit 실패율 급락".
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ hashline-edit-safety.md

7/10참조

addyosmani/agent-skills: Production Skills with Anti-Rationalization Tables (⭐17) addyosmani

Production-grade engineering skills for AI coding agents." 20개 스킬을 6-phase(Define/Plan/Build/Verify/Review/Ship)로 조직.

분석: 다섯 가지 distinctive pattern.
참조 사유: 우리 completion-verification.md, test-first-agent-tasks.md, qa-browser-test-required.md가 이미 "evidence 기반 판정" 원칙을 담고 있음 — addyosmani는 이를 6-phase × 20 skills × anti-rationalization table이라는 구조로 상품화.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ 기존

7/10참조

EvoMap/evolver: GEP Protocol-Constrained Self-Evolution with Audit Trail (⭐5)

The GEP(Gene Expression Programming)-Powered Self-Evolution Engine for AI Agents." 코드를 자동 수정하지 않고 "프로토콜에 바인딩된 prompt를 emit"하여 다음 진화 단계를 유도.

분석: 네 가지 primitive.
참조 사유: 우리 recursive-self-improvement-loop.md(autocontext) + checkpoint-before-mutation.md(moltis) + agent-skill-extraction.md(hermes)는 이미 "변경 전 스냅샷 + 사후 검증 + 성공 패턴 축적"을 담고 있음.
5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ~/.claude/logs/evolution-events.jsonl

수확

SEEN 254 | Applied 542026-04-19

GitHub weekly trending(전체+TypeScript+Markdown) + Karpathy·simonw·anthropics 프로필 스캔 + topic:claude-code 최근 push 검색. 12개 신규 후보 중 4개 고득점, 2개 rule 제안, 2개 참조.

9/10rule

saltbo/agent-kanban: Agents as First-Class Citizens with Self-Authored Task Hierarchies (⭐196)

Traditional kanban boards treat AI as passive task executors." 에이전트에게 cryptographic identity를 부여하고 직접 태스크를 생성·할당·피어 리뷰하게 만든 kubectl-style 리소스 보드.

분석: 네 가지 primitive.
적용 이유: 우리 TaskCreate/TaskUpdate/TaskList는 orchestrator가 authored.
기대효과: specialist에게 "태스크를 만들 권한"을 부여하면 orchestrator가 병목이 되는 현상이 완화.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ agent-authored-tasks.md

8/10rule

diegosouzapw/OmniRoute: 4-Tier Fallback (⭐3)

Never stop coding.

분석: 네 가지 novel primitive.
적용 이유: 우리 unified-model-gateway.md(new-api 기반)는 "포맷 변환 + 채널 가중치"까지만 명시.
기대효과: ~/.claude/logs/model-quota.jsonl에 프로바이더별 RPM/소진율 기록 시, self-improve가 "이번 달 어느 모델이 bottleneck인가"를 통계 분석 가능.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ provider-fallback-circuit-breakers.md

7/10참조

multica-ai/multica: Compound Skill Library for Agent Teams (⭐16) multica-ai

Turn coding agents into real teammates — assign tasks, track progress, compound skills." Next.js + Go + PostgreSQL/pgvector 하이브리드 클라우드.

분석: 세 가지 주목할 primitive.
참조 사유: multica 전체 도입은 오버엔지니어링(Next.js+Go+Postgres+pgvector 전체 스택).
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ memory-bank에

7/10참조

iOfficeAI/AionUi: Local Cowork Platform for 20+ LLM Agents (⭐22)

AionUi is more than a chat client.

분석: 네 가지 주목 요소.
참조 사유: AionUi 전체는 Electron 데스크톱 앱이라 우리 CLI 중심 workflow와 맞지 않음.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ ~/.claude/mcp-registry.json

수확

SEEN 250 | Applied 522026-04-19

GitHub weekly trending(전체+TypeScript) + Karpathy 프로필 직접 스캔 + topic:claude-code API 검색. 15개 신규 후보 중 4개 고득점, 2개 rule 제안, 2개 참조.

9/10rule

tirth8205/code-review-graph: Permanent Code Graph with Blast-Radius Precision (⭐11) tirth8205

AI coding tools re-read your entire codebase on every task." Tree-sitter 파싱 → SQLite 노드/엣지 그래프 → git hook 증분 인덱싱 → blast-radius 분석.

분석: 세 가지 primitive 조합.
적용 이유: 우리 memory-bank가 "대화 이력 검색"은 강하지만 코드 구조 그래프는 부재.
기대효과: .code-graph.db 도입 후 code-reviewer / bug-fixer / frontend-specialist 호출 시 prompt에 "변경 영향 파일 목록"을 JSON으로 주입 → specialist가 grep 재탐색 0.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ content-graph-precise-context.md

8/10rule

EvoMap/evolver: GEP-Powered Self-Evolution with Audit Trail (⭐4)

Evolution is not optional.

분석: Evolver는 code patcher가 아니라 prompt generator.
적용 이유: 우리 self-improve는 fix: 커밋에서 rule을 파생하지만 Curator 단계가 없다 (recursive-self-improvement-loop.md에서 이미 지적된 공백).
기대효과: ~/.claude/evolution-events.jsonl append-only 로그 도입 시, Curator가 "90일 trigger_count agent-memory-hygiene.md가 SOFT 지시로 남긴 rule 수명관리를 HARD 전환.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ evolution-audit-trail.md

7/10참조

johannesjo/parallel-code: Five Agents on Five Features, Zero Conflicts (⭐529)

Turn wait time into parallel progress." Electron + SolidJS 데스크톱 앱.

분석: 기존 worktree 자동화 도구(worktrunk, git worktree)와의 차이점 — desktop UI로 멀티 에이전트를 단일 인터페이스에서 관리.
참조 사유: 우리 worktree-parallel-agents.md, worktree-shared-state.md, cross-model-adversarial-review.md, llm-council-pattern.md가 이미 "여러 모델/에이전트를 동시 돌리고 결과 비교"를 rule로 명시.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ team-orchestrator에

7/10참조

mvanhorn/last30days-skill: Engagement-Scored Cross-Platform Research (⭐22)

Google aggregates editors.

분석: 5-stage synthesis pipeline: (1) Entity resolution — 검색 전 AI가 관련 handle/subreddit/hashtag/repo를 먼저 식별, (2) Engagement scoring — upvotes/likes/views/monetary backing으로 랭킹(keyword 무관), (3) Duplicate…
참조 사유: 우리 loopy-era-trend-harvester(이 스킬 자체)가 현재 GitHub + RSS + X 미러만 커버.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ trend-harvester에

수확

SEEN 235 | Applied 502026-04-19

GitHub weekly trending + anthropics 공식 repo 스캔. 6개 신규 후보, 2개 적용, 2개 참조.

9/10rule

coleam00/Archon: The First Open-Source AI Coding Harness Builder (⭐3) coleam00

When you ask an AI agent to 'fix this bug', what happens depends on the model's mood.

분석: Docker가 인프라에 determinism을 줬고 GitHub Actions가 CI/CD에 줬다면, Archon은 AI 코딩에 determinism을 주입.
적용 이유: 우리 team-orchestrator / manager-orchestrator / auto-issue가 자연어 프롬프트로 워크플로우를 기술 — Phase 전이, specialist 선정, 재시도 결정이 전부 LLM 추론에 의존.
기대효과: /team Phase 1~5를 .claude/workflows/team-orchestration.yaml로 재작성 시 Phase 전이가 자연어 판단 → exit code 기반으로 전환.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ workflow-as-code-harness.md

8/10rule

thedotmack/claude-mem: Progressive Disclosure for Context Injection (⭐14) thedotmack

~10x token savings by filtering before fetching details." 3-layer 점진적 공개 워크플로우: search(50-100토큰 인덱스) → timeline(시계열 맥락) → get_observations(필터링된 ID만 full detail 500-1000토큰).

분석: 5개 lifecycle hook (SessionStart / UserPromptSubmit / PostToolUse / Stop / SessionEnd)이 관찰을 자동 캡처.
적용 이유: 우리 memory-bank도 SQLite FTS5를 사용하지만 search 결과가 곧바로 full content를 반환한다.
기대효과: 장기 세션에서 memory-bank 검색 결과로 context window 포화되는 현상 완화.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ progressive-disclosure-context.md

8/10참조

addyosmani/agent-skills: Anti-Rationalization Tables (⭐5) addyosmani

AI coding agents default to the shortest path — which often means skipping specs, tests, security reviews." 20개 production-grade skill + 3개 specialist persona.

분석: 20개 skill을 6-phase lifecycle에 매핑: Define(2) / Plan(1) / Build(5) / Verify(2) / Review(4) / Ship(5).
참조 사유: 우리 skills/는 현재 "무엇을 하라"만 기술하지, AI가 어떻게 회피할지는 언급 없음.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ qa-cycle/user-proxy/self-improve

7/10참조

anthropics/skills: Official Skill Marketplace (⭐120) anthropics

Anthropic 공식 Agent Skills marketplace.

분석: SKILL.md 최소 구조: YAML frontmatter(name, description) + markdown body.
참조 사유: 우리 이미 agent-skills-format.md로 SKILL.md 표준을 채택했지만, Python 스크립트를 수반하는 skill은 거의 없음.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ skill

수확

SEEN 229 | Applied 482026-04-18

GitHub API topic search (claude-code, ai-agent, agent-harness, self-improving) 4종 병렬 스캔. 4개 신규 후보, 2개 적용, 2개 참조.

9/10rule

redwoodjs/agent-ci: Local GitHub Actions with Pause-on-Failure (⭐567) redwoodjs

Step 6 failed.

분석: GitHub Actions 오케스트레이션 레이어를 로컬 재구현.
적용 이유: 우리 bug-fixer 4회 로테이션의 근본 비효율 — 매 시도마다 "처음부터 다시".
기대효과: qa-cycle 재실행 시간 80% 단축(이미 성공한 단계 스킵).
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ pause-on-failure-pattern.md

9/10rule

chernistry/bernstein: Deterministic CLI-Agent Orchestrator (⭐132)

The task scheduler is plain Python.

분석: Bernstein은 목표를 받으면 manager(LLM)가 task로 분해하고, 이후 scheduler(plain Python)가 agent 선정/재시도/reap 결정을 모두 담당.
적용 이유: 우리 team-orchestrator / manager-orchestrator가 Phase 전이, specialist 선정, 재시도 결정을 모두 LLM 추론에 위임.
기대효과: 조율 판단에 소모되던 orchestrator 토큰 0.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ deterministic-orchestrator-scheduling.md

8/10참조

tw93/Waza: Engineering Habits as Skills (⭐3) tw93

Every rule the author writes becomes a ceiling.

분석: "Waza(技, わざ)"는 무술 용어로 "본능이 될 때까지 연습한 기술".
참조 사유: 우리 rules/ 폴더(~80개)의 대부분이 ceiling 방식("이 패턴 금지", "이 방식만 허용").
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ floor

7/10참조

yonatangross/orchestkit: 103 Skills · 36 Agents · 172 Hooks (⭐149)

Stop explaining your stack.

분석: OrchestKit은 Waza와 정반대 극단 — 최소주의 대신 최대주의.
참조 사유: 우리 /cc-sync는 "User scope 전체 복사"라 프로젝트별 조정 어려움.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 0 · 측정가능 2

→ /cc-apply에

수확

SEEN 225 | Applied 462026-04-18

GitHub API topic search (claude-code, ai-agent, self-improving, agentic-workflow) 4종 병렬 스캔. 56개 후보 중 5개 신규, 1개 적용, 3개 참조.

9/10rule

microsoft/apm: Agent Package Manager (⭐1) microsoft

Think package.json, requirements.txt, or Cargo.toml — but for AI agent configuration." 에이전트 primitive (instructions/skills/prompts/hooks/plugins/MCP)를 선언적 매니페스트로 통합 관리.

분석: apm.yml 하나에 skills, agents, hooks, plugins, MCP 전부 선언.
적용 이유: 우리 /cc-sync가 "User scope 전체 복사" 방식이라 primitive 단위 선택이 불가능.
기대효과: .claude/manifest.yml 스키마 정의 후 pilot 프로젝트 3개에 적용 → scaffold bloat 50% 감소(불필요 rule 미설치).
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ agent-manifest-pattern.md

8/10참조

bytedance/deer-flow 2.0: Super Agent Harness (⭐62) bytedance

Open-source super agent harness that orchestrates sub-agents, memory, and sandboxes — powered by extensible skills." ByteDance의 ground-up rewrite.

분석: Deep Research 프레임워크를 super agent harness로 재정의.
참조 사유: 우리 team-orchestrator의 5 primitive 설계(Task/TodoWrite/Agent/SlashCommand/hooks)와 독립적으로 도달한 동일 결론.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ super-agent-harness

8/10참조

matt1398/claude-devtools: The debugging DevTools for Claude Code (⭐3)

Your Claude is coding blind.

분석: Claude Code 내장 출력이 숨기는 5개 영역을 재구성: (1) 파일 경로·라인번호·syntax-highlighted 콘텐츠, (2) regex 패턴·매칭 파일·매칭 라인, (3) inline diff(추가/제거), (4) per-turn token attribution across 7 categories + compaction 시각화, (5)…
참조 사유: 우리도 같은 문제 보유 — 세션 전체에서 토큰이 어디로 갔는지 추적 불가.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ 토큰

7/10참조

ModelEngine-Group/nexent: Harness Engineering Platform (⭐4)

Zero-code platform for auto-generating production-grade AI agents, built on Harness Engineering principles." 우리가 내부에서 쓰는 "harness" 용어가 외부에서도 정식 엔지니어링 분야로 자리잡고 있음을 확인.

분석: "Harness Engineering" 원칙으로 unified tools, skills, memory, orchestration을 built-in constraints / feedback loops / control planes과 결합.
참조 사유: "Harness Engineering"이라는 용어가 공식 분야로 인정받고 있다는 외부 검증.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ Harness

수확

SEEN 220 | Applied 452026-04-18

GitHub API topic search (claude-code, ai-agent, prompt-engineering, agentic) 스캔. 신규 5개 중 1개 적용, 2개 참조. oh-my-openagent의 Hashline — content-hash anchored edit로 stale-line 에러를 33%→68%+ 로 끌어올린 HARD-측정 가능한 편집 검증 패턴.

9/10rule

code-yeongyu/oh-my-openagent: Hashline (⭐52)

Every edited line carries a content hash (LINE#ID format) — validates changes before application, reducing stale-line errors from ~33% to 68%+ success rates." 편집 실패율을 숫자로 측정 가능한…

분석: oh-my-opencode가 oh-my-openagent로 리네임되면서 도입된 핵심 신기술.
적용 이유: 우리 Edit 도구도 old_string 유일성 요구로 일부 보호하지만, "edit 실패율"이 측정되지 않아 개선을 수치로 추적 불가.
기대효과: Edit 실패 로깅 hook 추가 시 어떤 파일이 자주 stale인지 측정 가능 → Read→Edit 사이에 외부 변경이 잦은 파일에 "auto-re-Read before edit" 규칙 자동 승급.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ content-hash-anchored-edits.md

8/10참조

shareAI-lab/learn-claude-code: Nano Harness Pedagogy "Bash is all you need" (⭐54)

An agent without a plan drifts." "The MODEL decides when to call tools and when to stop.

분석: 12-session 교육용 progressive implementation으로 하네스 최소 구성요소 도출.
참조 사유: 우리 하네스는 이미 5 primitives 전부 보유(Task/TodoWrite/Agent/SlashCommand/hooks), 그러나 primitive 정의가 암묵적이라 새 기여자가 구조를 이해하기 어렵다.
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ 하네스

7/10참조

jackwener/OpenCLI: Three-Tier Degrading Fallback for Web Tools (⭐16)

Same command, same output schema, every time." 웹사이트·Electron 앱·로컬 바이너리를 AI 에이전트가 쓸 수 있는 통일 CLI로 변환.

분석: 세 가지 층위로 커버리지 확보: (1) Pre-built adapters — 90+ 사이트에 대한 결정적 CLI 래퍼, (2) Live browser control — 어댑터 없을 때 브라우저 자동화로 fallback, (3) Auto-synthesis — 에이전트가 behavior로부터 새 adapter 생성.
참조 사유: 우리 web-qa-tester는 현재 chrome-devtools-mcp + agent-browser + expect-cli 3도구 크로스체크지만, 도구 선택 전략이 명시되지 않음.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ web-qa-tester

수확

SEEN 215 | Applied 442026-04-18

GitHub API topic search (claude-code, ai-agent, prompt-engineering) + weekly trending 스캔. 신규 8개 중 1개 적용, 2개 참조. shanraisshan의 "skill descriptions as triggers" 역설 — 기존 문서화 관점을 뒤집어 모델 활성화 관점으로 전환.

9/10rule

shanraisshan/claude-code-best-practice: Structured Agentic Engineering (⭐45)

Skill descriptions are triggers for the model, not documentation" — skill 설명을 '무엇인가' 서술이 아닌 '언제 발동하는가' 트리거로 전환.

분석: 세 가지 구조적 1급 primitive로 에이전트 동작 방식 재정의.
적용 이유: 우리 skill 생태계가 이미 description 필드를 가지지만 용도가 혼합됨 — 일부는 사용자 설명용, 일부는 Claude 발동 트리거용.
기대효과: skill description rewrite guideline 제공 → description 명확도 향상 → 발동 정밀도 개선.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ skill-description-as-trigger.md

8/10참조

affaan-m/everything-claude-code: Cross-Tool Adapter Pattern (⭐159)

AgentShield 레드팀/블루팀/감사자 파이프라인 신규 도입.

분석: 48 agent + 183 skill + 34 rule set + AgentShield 통합 시스템.
참조 사유: 기존 7차에서 "research-first development" 패턴으로 이미 수확했으나 6개월 만에 15K⭐ 추가 성장 → 새 패턴 cross-tool adapter가 추가됨.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ cross-tool-adapter

7/10참조

HKUDS/nanobot: Ultra-Lightweight Agent with HEARTBEAT.md (⭐39)

99% fewer lines of code than OpenClaw" — 200줄 에이전트 루프.

분석: 3가지 simplification — (1) Minimal Agent Loop: loop.py 단일 파일에 LLM↔tool 실행.
참조 사유: 우리 /loop는 Claude Code 세션 내 주기 실행이지만 nanobot의 HEARTBEAT.md는 파일 기반 pending queue로 세션 경계를 넘는다.
5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ heartbeat-file-scheduling

수확

SEEN 207 | Applied 432026-04-17

GitHub API topic search (claude-code, ai-agent) + 구루 프로필 스캔 (karpathy, simonw, mshumer, anthropics). 신규 3개 중 1개 적용, 2개 참조. lean-ctx의 shell hook 기반 토큰 압축 — caveman/rtk/claw-compactor 3축에 빠져있던 "에이전트 무관 공통 압축 레이어" 보강.

9/10rule

yvgude/lean-ctx: Shell Hook Context Compression (⭐650)

Reduce AI coding costs by 99%" — 단일 Rust 바이너리가 MCP + shell hook으로 CLI 출력·파일 읽기를 LLM 도달 전 압축.

분석: 90+ CLI 명령을 34개 카테고리로 패턴 압축(git status 70-95% 절감).
적용 이유: 기존 caveman(출력 절감) + rtk(일부 CLI) + claw-compactor(파일) 3축에 "에이전트 무관 공통 레이어"가 비어있음.
기대효과: Read 도구 mode 기본값 전환 + Bash PreToolUse hook으로 lean-ctx 경유 → 세션 평균 토큰 사용 50%+ 절감 예상.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ shell-hook-context-compression.md

8/10참조

Q00/ouroboros: Spec-Driven Mathematical Gates (⭐2)

Stop prompting.

분석: Nine Minds(Socratic/Ontologist/Contrarian/Hacker 등) on-demand 에이전트.
참조 사유: 우리 two-stage-review-gate(spec→quality) + test-first-agent-tasks(계약 먼저) + recursive-self-improvement-loop(Curator) 방향과 동일하지만, **수치 게이트로 HARD 강제**가 더 강함.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 0 · 측정가능 2

→ two-stage-review-gate.md

7/10참조

PackmindHub/packmind: Multi-Tool Instruction Distribution (⭐262)

엔지니어링 playbook을 CLAUDE.md · .cursor/rules · copilot-instructions.md 포맷별 자동 배포.

분석: packmind-cli init이 코드베이스 패턴 분석 → 표준 포맷 추출.
참조 사유: 우리 agent-memory-hygiene의 "Cross-Project 규칙 승격" 메커니즘과 구조 유사.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ init-project

수확

SEEN 204 | Applied 422026-04-17

GitHub API topic search (claude-code, ai-agent) + 구루 프로필 스캔 (karpathy, simonw). 신규 6개 중 1개 적용, 1개 참조. autocontext의 4단계 폐루프 패턴 — self-improve에 부재했던 Curator 단계 보강.

9/10rule

greyhaven-ai/autocontext: Recursive Self-Improving Agent Harness (⭐740)

Most agent systems still start every run cold" — 반복 실행을 Competitor/Analyst/Coach/Curator 4단계로 구조화.

분석: Competitor(전략 제안) → Analyst(결과 분석) → Coach(playbook 업데이트) → Curator(약한 변경 롤백).
적용 이유: 기존 self-improve는 Competitor(specialist)→Analyst(user-proxy QA)→Coach(scaffold rule 추가)까지만 있고 Curator가 부재.
기대효과: self-improve에 Phase 5 Curator 추가 → scaffold bloat 방지, 토큰 효율 개선, signal과 noise 분리.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ recursive-self-improvement-loop.md

8/10참조

lout33/symbiotic-ai: Pattern-Based Challenge Agent (⭐691)

A symbiotic AI that remembers everything, challenges you" — 4개 지속 파일(SOUL/USER/AGENTS/NOW.md)로 100+ 세션의 사용자 행동 패턴을 축적, 일회성 조언 대신 반복 패턴 지적.

분석: "3주 동안 아무도 요청하지 않은 기능 개발" 같은 구체적 패턴을 날짜 로그로 증명.
참조 사유: 우리 self-mirror(L1~L4 비판) + harsh-critic + user-proxy 에이전트 강화 방향과 일치.
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ self-mirror/harsh-critic

7/10참조

vm0-ai/vm0: Natural Language Workflow Runtime (⭐1)

자연어로 설명된 워크플로우를 자동 실행하는 agentic runtime.

분석: "workflow.md 파일에 자연어로 작성 → 실행" 패턴.
참조 사유: 우리 스킬 시스템이 이미 markdown 기반이므로 직접 적용은 불필요.
5축: 자동화 2 · 마찰제거 1 · HARD전환 0 · 토큰효율 1 · 측정가능 1

→ 워크플로우

수확

SEEN 198 | Applied 412026-04-17

GitHub API topic search (claude-code, ai-agent, autonomous-agent, self-improving, prompt-engineering) + 구루 프로필 스캔 (karpathy, simonw, mshumer, yoheinakajima, hwchase17).

9/10rule

stakpak/agent: 24/7 Autonomous DevOps Agent (⭐1)

Ship your code, on autopilot" — 오픈소스 에이전트가 머신에서 24/7 상주하며 앱을 실행 유지, 사람이 필요할 때만 알림.

분석: 24/7 백그라운드 상주 → 앱 헬스체크 자동 → 장애 자동 복구 → 사람은 에스컬레이션만.
적용 이유: user-proxy 자동 개입 철학과 완전 일치.
기대효과: auto-issue 데몬 → 24/7 상주형으로 진화, 에스컬레이션 자동 텔레그램 알림 강화, 헬스체크 → 자동 복구 루프 표준화
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ autonomous-devops-agent.md

9/10참조

googleworkspace/cli: Dynamic CLI with 40+ Agent Skills (⭐25)

Google Discovery Service에서 런타임에 명령어를 동적 생성.

분석: 정적 명령어 목록이 아닌 API 스펙에서 동적 생성 → 유지보수 부담 제로.
참조 사유: 동적 명령 생성 패턴은 MCP 서버 동적 스킬 생성과 유사.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ 동적

8/10참조

karpathy/nanochat: $100 ChatGPT (⭐52) karpathy

The best ChatGPT that $100 can buy" — 단일 GPU에서 LLM 훈련.

분석: autoresearch keep/discard를 ML 훈련에 적용한 결정적 사례.
참조 사유: 우리 autoresearch 패턴(validate→keep/discard)의 검증 사례.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ autoresearch

8/10참조

aden-hive/hive: Multi-Agent Harness with DAG Execution (⭐10)

Zero-setup, model-agnostic 실행 harness.

분석: "objective → DAG → 자동 병렬 실행" 패턴.
참조 사유: team-orchestrator Phase 3 병렬 구현에 DAG 패턴 적용 검토.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ DAG

7/10참조

xvirobotics/metabot: Self-Evolving Agent Organization (⭐618)

감독형 자기진화 에이전트 조직 인프라.

분석: Agent Factory: 관리자 Bot이 새 에이전트를 런타임에 생성 → 우리 Agent tool과 유사.
참조 사유: "에이전트가 에이전트를 생성" 패턴은 team-orchestrator의 specialist 위임과 동일 방향.
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 1

→ 자기진화

수확

SEEN 190 | Applied 402026-04-17

GitHub API topic search (ai-agent, llm-tools, claude-code, self-improving) + 구루 프로필 스캔 (karpathy, simonw, anthropics, mshumer, yoheinakajima). 신규 7개 중 1개 적용. hermes-agent의 closed learning loop 패턴.

10/10rule

NousResearch/hermes-agent: Closed Learning Loop Agent (⭐93) NousResearch

The only agent with a built-in learning loop" — 스킬이 사용 중 자가 개선, 복잡한 태스크 후 자율 스킬 생성, FTS5 세션 검색으로 크로스 세션 리콜.

분석: 기존 self-improve는 fix 커밋에서만 학습.
적용 이유: 기존 token-brevity-pattern(caveman)과 execution-path-crystallization(GenericAgent)을 통합하는 상위 패턴.
기대효과: self-improve에 성공 패턴 학습 추가, memory-bank FTS5 검색 강화, bug-fixer 멀티턴→싱글턴, user-proxy dialectic modeling 심화
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ closed-learning-loop.md

9/10rule

open-compress/claw-compactor: 14-Stage Token Compression Pipeline (⭐2)

14-stage fusion pipeline for LLM token compression — AST-aware code analysis, JSON schema sampling, simhash dedup.

분석: 15-82% 압축률.
보류 사유: Python 의존성 추가 필요, Claude Code 세션 내 직접 통합 friction 존재.
참조: token-efficiency-tracking, token-brevity-pattern 규칙과 연계.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ 참조

수확

SEEN 183 | Applied 392026-04-13 13:56

GitHub trending daily 수동 실행 (12:00 자동 실행이 API 리밋으로 실패 → 수동 보충). 신규 3개 중 1개 적용. ralph의 fresh-context 반복 루프 패턴.

9/10rule

snarktank/ralph: Fresh-Context Iteration Loop (⭐16) snarktank

대형 작업을 atomic story로 분해, 각각 fresh AI 세션에서 실행.

분석: story 선택 → fresh 세션 구현 → CI 검증 → commit → progress.txt append → 반복.
적용 이유: trend-harvester-autorun.sh가 이미 이 패턴 적용 중(매 실행 fresh claude -p).
기대효과: /team Phase 3 specialist별 fresh session, bug-fixer 4회 로테이션을 fresh session 기반으로 전환, 장기 세션 품질 저하 방지
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ fresh-context-iteration.md

수확

SEEN 180 | Applied 382026-04-13 13:20

GitHub trending weekly 전체 언어 + TypeScript + Python + Rust 4개 소스 동시 스캔. 신규 18개 중 2개 적용 — Archon(⭐17K) YAML 기반 선언적 AI 코딩 하네스 빌더, multica(⭐9.4K) 에이전트 스킬 컴파운딩 플랫폼.

10/10rule

coleam00/Archon: Declarative Harness Builder (⭐17) coleam00

Like Dockerfiles for infrastructure, Archon for AI coding" — YAML 워크플로우로 계획→구현→검증→리뷰→PR을 선언적 정의.

분석: 17개 기본 워크플로우 제공(fix-issue, idea-to-pr, 5-parallel-reviewer).
적용 이유: 기존 declarative-agent-coordination(takt)은 개념 수준.
기대효과: team 오케스트레이터 Phase를 YAML 노드로 구조화, qa-cycle을 bash+AI 하이브리드로, bug-fixer를 loop until:FIX_VERIFIED로, 5-parallel-reviewer를 codex+claude에 적용
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ declarative-harness-builder.md

9/10rule

multica-ai/multica: Skill Compounding Agents (⭐9) multica-ai

에이전트 해결 패턴이 재사용 스킬로 자동 축적 → 팀 역량 복리 성장.

분석: Autonomous Task Lifecycle(enqueue→claim→execute→complete) 완전 자동.
적용 이유: 기존 agent-skill-extraction(hermes)은 개별 에이전트 수준.
기대효과: self-improve의 scaffold rule 추출을 스킬 컴파운딩으로 격상(성공 패턴도 스킬화), init-project에서 축적 스킬 자동 적재, 멀티 모델 벤더 중립 스킬 포맷 표준화
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ skill-compounding-agents.md

수확

SEEN 162 | Applied 362026-04-13 06:35

Anthropic guru GitHub 직접 스캔. 신규 2개 중 1개 적용 — claude-code-action (⭐7K, Anthropic 공식). CI 테스트 실패 시 자동 수정 폐쇄 루프 패턴.

9/10rule

anthropics/claude-code-action: CI Self-Healing Loop (⭐7) anthropics

CI 테스트 실패 → 에이전트 자동 분석 → 수정 커밋 → CI 재실행.

분석: Context-Aware Mode Detection으로 @claude 멘션(interactive) + 스케줄(automated) + 이슈 할당 자동 감지.
적용 이유: 기존 agentic-workflows-cicd는 개념 수준.
기대효과: /auto-issue에 CI 실패 자동 수정 추가, bug-fixer를 CI 내에서 실행(로컬 세션 불필요), PR 리뷰 자동화
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ ci-self-healing-loop.md

수확

SEEN 160 | Applied 352026-04-13 00:35

Rust weekly 스캔. 신규 1개 적용 — forgecode (⭐6.5K). 에이전트 역할별 도구 권한 HARD 분리 패턴.

7/10rule

tailcallhq/forgecode: Role-Based Agent Permissions (⭐6) tailcallhq

에이전트를 Implementer/Researcher/Planner로 분리.

분석: forge(Write 허용)·sage(Read 전용)·muse(계획만 작성) 3 에이전트 트리오.
적용 이유: 기존 per-turn-tool-adaptation은 SOFT(프롬프트 지시).
기대효과: code-reviewer에 Write 차단, Plan 에이전트에 코드 수정 차단.
5축: 자동화 1 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ role-based-agent-permissions.md

수확

SEEN 159 | Applied 342026-04-12 18:36

Python weekly + Go weekly + Shell weekly 3개 소스 스캔. 신규 4개 중 1개 적용. Addy Osmani(Google)의 web-quality-skills — 150+ Lighthouse 감사에서 도출된 성능 예산 패턴.

7/10rule

addyosmani/web-quality-skills: Performance Budget (⭐1) addyosmani

웹 프로젝트에 구체적 수치 기반 성능 예산 설정.

분석: 150+ Lighthouse 감사에서 도출된 임계값을 Agent Skills 포맷으로 구조화.
적용 이유: 기존 pagespeed-analyzer 에이전트는 실행하지만 PASS/FAIL 기준이 모호.
기대효과: vercel preview 후 자동 성능 검증, PR 전 성능 예산 초과 차단, 성능 회귀 방지
5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ web-performance-budget.md

수확

SEEN 155 | Applied 332026-04-12 12:35

GitHub trending TypeScript weekly 스캔. 신규 1개 — oh-my-codex (⭐21K). 오케스트레이션 상태를 파일 시스템에 영구화하여 세션 경계를 제거하는 패턴 추출.

8/10rule

Yeachan-Heo/oh-my-codex: State-Driven Orchestration (⭐21) Yeachan-Heo

오케스트레이션 런타임 상태를 파일 기반으로 영구 저장.

분석: .omx/ 디렉토리가 모든 런타임 결정의 Single Source of Truth.
적용 이유: 현재 team/manager 오케스트레이터는 in-memory 의존 → 세션 종료 시 컨텍스트 소실.
기대효과: bug-fixer 시도 이력 파일 기록으로 전략 중복 방지, trend-harvester 중간 체크포인트, team-orchestrator Phase 상태 영구화
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ state-driven-orchestration.md

수확

SEEN 154 | Applied 322026-04-12 06:35

GitHub trending daily 스캔. 신규 1개 — obra/superpowers (⭐147K). 리뷰를 스펙 준수/코드 품질 두 단계로 분리하는 패턴 추출.

8/10rule

obra/superpowers: Two-Stage Review Gate (⭐147) obra

스펙 준수 리뷰 → 코드 품질 리뷰 순차 게이트.

분석: Stage 1 — 구현이 계획/요구사항과 일치하는가 (기능 누락/범위 이탈 차단).
적용 이유: 기존 Claude+Codex 이중 리뷰는 모델별 분할이지 관점별 분할이 아님.
기대효과: user-proxy QA의 "요구사항 양쪽 구현 필수" 체크를 Stage 1로 격상.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ two-stage-review-gate.md

수확

SEEN 153 | Applied 312026-04-11 21:40

수집 2개 신규 (Karpathy + Anthropic guru GitHub 직접 스캔). 적용 1개. Karpathy의 llm-council — 우리 이중 모델 리뷰의 진화형 패턴 발견.

8/10rule

karpathy/llm-council: Multi-model anonymous review karpathy

여러 LLM이 서로의 답변을 익명으로 리뷰하고 Chairman이 합의를 도출하는 3단계 협업 패턴

분석: Stage 1 — N개 모델 독립 답변.
적용 이유: 우리 이중 모델 리뷰(Claude + GPT)의 진화형.
기대효과: self-improve 규칙 변경 결정 시 council 검증, 중요 의사결정의 객관성 향상, 단일 모델 맹점 구조적 차단
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ llm-council-pattern.md

수확

SEEN 151 | Applied 302026-04-11 20:30

수집 8개 신규 (Python + Go trending). 적용 1개. new-api — 여러 LLM 프로바이더를 단일 게이트웨이로 통합. 이중 모델 리뷰 워크플로우에 직접 적용 가능.

8/10rule

new-api: Unified model gateway (⭐26) QuantumNous

OpenAI/Claude/Gemini 포맷을 자동 크로스 변환하는 통합 AI 게이트웨이 — 멀티모델 워크플로우의 마찰 제거

분석: 채널 가중치 라우팅 + 자동 재시도 + 사용자 레이트 리밋.
적용 이유: codex:review + claude code-reviewer 이중 모델 리뷰의 프로바이더 차이를 게이트웨이 한 층으로 해결.
기대효과: 프로바이더 장애 시 자동 fallback, 세션별 토큰 사용량 중앙 추적, 멀티모델 워크플로우 코드 단순화
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ unified-model-gateway.md

수확

SEEN 143 | Applied 292026-04-11 14:20

수집 6개 신규 (TypeScript trending). 적용 2개 (최대 수확). Continue의 CI 통합 AI 체크와 Google 공식 Chrome DevTools MCP — 둘 다 우리 자가개선/QA 시스템과 직접 연결되는 고득점 패턴.

9/10rule

continue: Source-controlled AI checks (⭐32) continuedev

AI 코드 리뷰를 소스 컨트롤에 버전 관리하고 CI에서 강제 — 개인 도구가 아닌 조직 정책으로 전환

분석: IDE 플러그인에서 CLI 도구(`cn`)로 피봇.
적용 이유: 우리 codex:review + code-reviewer 이중 리뷰를 CI에서 HARD 강제하면 개인 세션에서 우회 불가능 — "조직 정책으로서의 AI 리뷰"
기대효과: scaffold rule 변경을 CI 체크로 검증, 이중 모델 리뷰 결과를 PR status에 직접 반영, 개별 개발자 IDE 의존성 제거
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ source-controlled-ai-checks.md

8/10rule

chrome-devtools-mcp: Browser automation (⭐34) ChromeDevTools

Google 공식 Chrome DevTools Protocol을 MCP 서버로 노출 — 에이전트가 실제 브라우저를 직접 제어

분석: 29개 도구 (input automation, navigation, performance tracing, network inspection, debugging).
적용 이유: web-qa-tester의 DOM 추론 대신 실제 브라우저 상태 직접 조회 — "QA 거짓 PASS" 구조적 방지.
기대효과: console.error count = 0 HARD 강제, Lighthouse 점수 자동 측정, 성능 트레이싱 자동화
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ browser-automation-mcp.md

수확

SEEN 137 | Applied 272026-04-11 08:20

수집 5개 신규 (Daily trending). 적용 1개. markitdown — 비-텍스트 파일을 LLM 친화적 Markdown으로 변환하는 파이프라인. AX-Wiki 업로드 파이프라인과 직접 연결 가능.

8/10rule

microsoft/markitdown: File-to-Markdown for LLMs (⭐99) microsoft

PDF, Office, 이미지, 오디오, HTML, CSV, ZIP, YouTube, EPub 등 모든 포맷을 LLM 친화적 Markdown으로 변환

분석: 단일 Python 유틸리티로 15+ 포맷 지원.
적용 이유: AX-Wiki 같은 지식 베이스의 파일 업로드 파이프라인에 직접 연결 가능.
기대효과: /init-project 분석 시 비-텍스트 문서 자동 처리, Q&A 시스템의 소스 문서 정규화, 파일 포맷 다양성에 따른 마찰 제거
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ file-to-markdown-pipeline.md

수확

SEEN 132 | Applied 262026-04-10 10:05

수집 5개 신규 (Rust trending). 적용 1개. memvid — AI 에이전트 메모리를 단일 파일로 패키징하여 복잡한 RAG 파이프라인을 대체하는 패턴.

8/10rule

memvid: Portable memory layer for AI agents (⭐14) memvid

데이터 + 임베딩 + 검색 구조를 단일 파일로 패키징 — 서버리스 메모리 레이어로 복잡한 RAG를 대체

분석: "Smart Frames" (비디오 인코딩 개념 차용) — immutable 메모리 블록을 순차 append-only로 쌓고 병렬 읽기 + 시간여행 쿼리 지원.
적용 이유: Memory-Bank의 SQLite 구조가 이식성에 제약 — memvid 패턴으로 단일 파일 복사만으로 에이전트 메모리 이전 가능
기대효과: 프로젝트 간 메모리 공유 간소화, 에이전트가 자체 메모리를 "들고" 이동 가능, 인프라 의존성 제거
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ portable-memory-layer.md

수확

SEEN 127 | Applied 252026-04-10 09:30

수집 7개 신규 (Python + Markdown trending). 적용 1개. Anthropic/HF 공식 Agent Skills 표준 포맷 발견 — 우리 시스템과 완벽 호환.

9/10rule

huggingface/skills: Agent Skills marketplace (⭐10) huggingface

Anthropic/HF 공식 Agent Skills 표준 포맷 — SKILL.md + YAML frontmatter + 플러그인 marketplace

분석: 각 스킬이 자체 포함된 폴더 + SKILL.md 파일로 구성.
적용 이유: 우리 시스템의 스킬 포맷을 공식 표준에 맞추면 다른 팀/조직과 호환 가능 + /plugin marketplace add로 배포 가능
기대효과: 스킬 공유 생태계 참여, 외부 스킬 즉시 설치 가능, 자연어 트리거("use the X skill")로 자동 로드
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ agent-skills-format.md

수확

SEEN 120 | Applied 242026-04-10 08:15

수집 11개 신규 (daily trending + TS). 고득점 1개, 적용 1개. Karpathy의 LLM 코딩 실패 패턴을 직접 타겟하는 4원칙.

9/10rule

andrej-karpathy-skills: Karpathy LLM coding principles (⭐10) forrestchang

Karpathy가 관찰한 LLM 코딩 실패 패턴을 4원칙으로 구조화 — Think Before Coding, Simplicity First, Surgical Changes, Goal-Driven Execution

분석: 단일 CLAUDE.md로 LLM의 "run along" 습관(무단 가정), over-engineering(1000줄→100줄), 관련 없는 파일 수정을 구조적으로 차단하는 4원칙
적용 이유: "서비스 완성이 어려운 이유"의 완료 편향·기능 삭제 본능과 정확히 같은 문제를 타겟.
기대효과: specialist 에이전트의 over-implementation 감소, 요구사항 가정 대신 명시적 확인 습관 강화
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ karpathy-coding-principles.md

수확

SEEN 109 | Applied 232026-04-09 17:30

수집 4개 신규 (Go trending). 고득점 1개(adk-go 7/10 분석만), 적용 0개. Go 특화 에이전트 프레임워크라 적용 보류.

7/10analyzed

google/adk-go: Code-first Go AI agent toolkit (⭐7) google

Go 언어 특화 에이전트 빌드/평가/배포 툴킷 — 유연한 코드 퍼스트 접근

분석: Google 공식 Go 에이전트 프레임워크.
보류 이유: Go 특화이므로 현재 시스템(bash/TS/Python)에 직접 적용 어려움.
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

수확

SEEN 105 | Applied 232026-04-09 17:02

수집 13개 신규 (전체 trending + TS/Python/Rust), 고득점 2개, 적용 1개. 나머지 11개는 loopy-era 정합성 부족으로 거부 (on-device ML, RAG, 시계열 모델 등).

8/10rule

repomix: Pack entire repos into AI-friendly files (⭐23)

코드베이스를 XML/Markdown/JSON 단일 파일로 패킹하여 LLM 컨텍스트 효율을 극대화하는 도구

—분석: 파일별 토큰 카운팅 + 민감정보 자동 필터링 + XML/MD/JSON 포맷 선택. 전체 프로젝트를 한 번에 LLM에 전달 가능
—적용 이유: /init-project에서 코드베이스 분석 시 파일별 개별 Read 대신 패킹된 단일 파일 전달로 토큰 절약 + 컨텍스트 완전성 확보
—기대효과: 대규모 코드베이스 분석 시 Read 호출 50%+ 감소, 코드 리뷰 에이전트에 전체 컨텍스트 제공으로 품질 향상
—5축 점수: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1

→ codebase-packing-pattern.md

수확

SEEN 92 | Applied 222026-04-09 12:38

수집 3개, 적용 1개. takt — YAML 명세 기반 에이전트 조율 패턴.

8/10rule

takt: Agent Koordination Topology (⭐913)

에이전트 조율을 선언적 YAML 명세로 정의하여 재현성/공유성/커스터마이징을 동시에 달성

—분석: YAML로 persona/permissions/transition 규칙 정의. NDJSON 추적 로그로 실행 재현 가능
—적용 이유: /team 오케스트레이터의 에이전트 조율을 선언적 명세로 전환하면 재현성/공유성 확보
—기대효과: 워크플로우를 코드 대신 YAML로 정의하여 비개발자도 조율 로직 이해·수정 가능

→ declarative-agent-coordination.md

수확

SEEN 89 | Applied 212026-04-09 06:39

수집 5개, 적용 1개. gh-aw — GitHub 공식 마크다운 에이전트 워크플로우.

8/10rule

gh-aw: GitHub Agentic Workflows (⭐4) github

마크다운 에이전트 워크플로우를 GitHub Actions에서 샌드박스 실행하는 공식 패턴

분석: 마크다운으로 에이전트 워크플로우 정의 + GitHub Actions 샌드박스 실행.
적용 이유: /auto-issue 워크플로우를 GitHub Actions로 확장하면 코드 푸시 없이도 에이전트 실행 가능
기대효과: CI/CD 파이프라인에 에이전트를 통합하여 PR 자동 생성·리뷰·머지까지 자동화
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ agentic-workflows-cicd.md

수확

SEEN 84 | Applied 202026-04-09 00:39

수집 6개, 적용 1개. rtk — CLI 입력 토큰 60-90% 압축. caveman(출력 65%)과 합쳐 전체 80%+ 절감 스택 완성.

10/10rule

rtk: CLI proxy 60-90% token reduction (⭐20)

CLI 출력을 LLM에 전달하기 전에 투명 프록시로 60-90% 압축 — 만점 획득

분석: 100+ CLI 명령 출력을 smart filtering/grouping/truncation/dedup으로 60-90% 압축.
적용 이유: caveman(출력 65%)과 결합하면 입력+출력 전체 토큰 80%+ 절감 스택 완성.
기대효과: 세션당 토큰 비용 80%+ 절감, 컨텍스트 윈도우 여유 확보로 더 많은 파일 동시 분석 가능
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ cli-output-compression.md

수확

SEEN 78 | Applied 192026-04-07 06:39

수집 5개, 적용 1개. caveman — 출력 토큰 65% 절감 + 정확도 26점 향상.

9/10rule

caveman: Cut 65% tokens in Claude Code responses (⭐6)

출력 토큰 65% 절감 + 정확도 26점 향상 — 간결함이 품질과 비용을 동시에 개선

분석: 언어적 필러(pleasantries, hedging, articles) 제거.
적용 이유: 2026-03 연구에서 간결한 응답이 정확도 26점 향상시킨다는 증거 — 장황함이 정확도를 떨어뜨림
기대효과: 출력 토큰 65% 절감으로 비용 감소 + 응답 품질 동시 향상.
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ token-brevity-pattern.md

수확

SEEN 73 | Applied 182026-04-07 00:41

수집 26개 (ai-agent 10, claude-code 10, autonomous 6), 적용 3개. 최대 수확 회차. topic search 경유.

9/10rule

ARIS: Auto-Research-In-Sleep (⭐5)

Cross-model adversarial review — 동일 모델 self-play의 맹점을 다른 모델로 보완

분석: Claude Code 실행 + GPT-5.4 리뷰의 크로스 모델 adversarial loop.
적용 이유: 우리 시스템의 Codex 이중 리뷰(Claude QA + GPT 크로스체크)와 동일 패턴 — 독립적으로 도달한 동일 결론이 패턴의 유효성 증명
기대효과: 단일 모델 맹점 감소, QA 거짓 PASS 비율 하락
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ cross-model-adversarial-review.md

8/10rule

beads: Memory upgrade for coding agents (⭐20)

Semantic memory compaction — 완료 태스크를 자동 요약하여 컨텍스트 보존

분석: 의존성 인식 그래프 DB(Dolt) 기반 에이전트 영구 메모리.
적용 이유: Memory-Bank의 conversation-index가 같은 역할이지만, beads의 semantic decay(완료 태스크 자동 요약) 패턴이 컨텍스트 윈도우 관리에 유용
기대효과: 장시간 세션에서 컨텍스트 열화 감소, 완료된 작업이 불필요하게 윈도우를 차지하는 문제 완화
5축: 자동화 2 · 마찰제거 2 · HARD전환 0 · 토큰효율 2 · 측정가능 2

→ semantic-memory-compaction.md

8/10rule

GenericAgent: Self-evolving skill tree (⭐880)

Execution path crystallization — 성공한 실행 경로를 자동으로 스킬로 변환

분석: 3단계 자가진화 루프: 탐색→결정화(crystallization)→메모리 영속화.
적용 이유: 우리 /self-improve의 "fix 커밋→scaffold 규칙" 패턴과 유사하지만, 성공 경로도 스킬로 결정화하는 점이 차별점 — 실패뿐 아니라 성공에서도 학습
기대효과: 반복 성공 패턴을 자동 스킬화하여 동일 작업의 재실행 속도 향상
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ execution-path-crystallization.md

수확

SEEN ? | Applied 152026-04-06 18:40

수집 3개, 적용 0개. oh-my-codex 발견했으나 기존 pending(oh-my-claudecode)과 중복 → 보강 신호로만 기록.

9/10pending

oh-my-claudecode: Teams-first orchestration

verify→fix 루프를 오케스트레이션에 내장 — semantic completion 보장 파이프라인 (보강 신호)

→ verification-driven-pipeline.md

수확

Applied 152026-04-06 12:39

수집 대상 전면 확장 후 첫 수확. oh-my-claudecode, everything-claude-code, hermes-agent 등 대량 적용.

9/10rule

oh-my-claudecode: Teams-first Multi-agent orchestration

team-plan→team-prd→team-exec→team-verify→team-fix — verification-driven pipeline

분석: 19개 전문 에이전트 + 스마트 모델 라우팅(Haiku/Opus) + 자동 스킬 추출.
적용 이유: /team 오케스트레이터에 verify→fix 루프를 Phase로 내장하면 semantic completion 보장 강화
기대효과: 오케스트레이션 레벨에서 검증 누락 방지, "빌드만 통과" 판정 구조적 차단
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ verification-driven-pipeline.md

9/10rule

everything-claude-code: research-first development (⭐142) affaan-m

구현 전 기존 코드베이스 탐색 필수 — 중복 코드 생성과 토큰 낭비를 동시에 방지

분석: 142K stars agent harness — skills, instincts, memory, security를 체계적으로 관리.
적용 이유: LLM이 기존 코드를 모르고 새 파일을 만드는 안티패턴을 근본 차단 — 구현 전 Grep/Glob으로 기존 구현 탐색 강제
기대효과: 중복 파일 생성 감소, 기존 유틸리티 재사용률 향상, 토큰 효율 개선
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ codebase-search-before-create.md

9/10rule

get-shit-done: Meta-prompting spec-driven dev (⭐49)

Context stays fresh — 태스크별 격리 윈도우로 context rot 방지

분석: 계층적 컨텍스트 엔지니어링: PROJECT.md/REQUIREMENTS.md/STATE.md 영구 컨텍스트.
적용 이유: 긴 세션에서 요구사항 소실(context rot)이 "서비스 완성이 어려운 이유" 핵심 원인 — 태스크별 격리 윈도우가 해결책
기대효과: 세션 후반부 요구사항 탈락 감소, 컨텍스트 열화 방지
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ context-freshness.md

9/10rule

EvoScientist: Self-evolving AI Scientists (⭐3)

Per-turn tool adaptation — 각 턴마다 관련 도구만 선택하여 인지 노이즈 감소

분석: 6개 전문 서브에이전트 협업.
적용 이유: specialist 에이전트에 불필요한 도구가 로드되면 인지 노이즈 증가 — 턴별 도구 선택으로 효율화
기대효과: 에이전트 응답 품질 향상, 불필요한 도구 호출 감소
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ per-turn-tool-adaptation.md

9/10rule

worktrunk: Git worktree CLI for parallel AI agents (⭐4)

브랜치명 기반 worktree 관리 — 병렬 에이전트 작업의 마찰을 극적으로 감소

분석: 브랜치명으로 worktree 접근(경로 대신).
적용 이유: team-orchestrator의 병렬 specialist 실행 시 파일 충돌 방지를 위해 worktree 격리가 필수 — worktrunk 패턴이 마찰 제거
기대효과: 병렬 에이전트 5-10개 동시 작업 시 충돌 0건, worktree 관리 오버헤드 제거
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ worktree-parallel-agents.md

9/10rule

moltis: Persistent agent server in Rust (⭐2)

Checkpoint: 스킬/메모리 변경 전 자동 스냅샷 → 실패 시 복원

분석: 단일 Rust 바이너리(44MB), 196K줄, 3100+ 테스트, unsafe 0.
적용 이유: /self-improve가 규칙을 변경할 때 회귀 방지를 위한 checkpoint 패턴 — 변경 전 스냅샷, 실패 시 자동 복원
기대효과: self-improve의 안전성 향상, 잘못된 규칙 변경의 자동 rollback 보장
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ checkpoint-before-mutation.md

8/10rule

hermes-agent: The agent that grows with you NousResearch

RPC 기반 파이프라인으로 멀티턴 → 싱글턴 축소

분석: 40K+ stars.
적용 이유: RPC 기반 제로 컨텍스트 코스트 오케스트레이션으로 멀티턴 대화를 싱글 호출로 축소 — 토큰 절감
기대효과: specialist 호출 시 매번 전체 컨텍스트 재전달 없이 RPC로 결과만 수신
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ agent-skill-extraction.md

8/10rule

agent-orchestrator: Parallel coding agents (⭐5)

이슈 단위 격리 에이전트 + CI/리뷰 피드백 자동 라우팅

분석: 이슈 단위로 격리 에이전트 생성 — 각 이슈에 독립 worktree + tmux 세션.
적용 이유: /auto-issue의 이슈→브랜치→PR 흐름에 피드백 자동 라우팅 추가하면 사람 개입 더 감소
기대효과: CI 실패 시 해당 에이전트가 자동 수정, 30분 에스컬레이션으로 방치 방지
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ feedback-routing.md

8/10rule

tdd-guard: Automated TDD enforcement (⭐2)

Test-first를 HARD hook으로 강제 — over-implementation 구조적 차단

분석: 테스트 없이 구현 차단.
적용 이유: "서비스 완성이 어려운 이유"의 해결책 — test-first를 HARD hook으로 강제하면 요구사항 누락 구조적 방지
기대효과: 기능 누락 감소, "빌드만 통과" 판정 방지, 테스트 커버리지 자동 보장
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 0 · 측정가능 2

→ tdd-enforcement.md

7/10scaffold-rule

claude-howto: Visual guide to Claude Code (⭐21)

Claude Code 베스트 프랙티스 커뮤니티 표준화

분석: 시각적 예제 중심 가이드.
적용 이유: 우리 scaffold와 커뮤니티 베스트 프랙티스 비교 검토 — 놓친 패턴 발굴
기대효과: scaffold 규칙의 완전성 검증, 커뮤니티 표준과의 갭 분석
5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ community-best-practices.md

7/10rule

mini-tokyo-3d: Real-time 3D digital map of Tokyo nagix

실시간 데이터 스트리밍 + 3D 시각화 — UI/UX 레퍼런스급 구현

분석: Three.js/WebGL + GLSL 셰이더 기반 도쿄 교통 실시간 3D 지도.
적용 이유: frontend-patterns.md의 UI/UX 레퍼런스로 추가.
기대효과: frontend-specialist/figma-designer의 인터랙티브 UI 구현 품질 향상
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ ui-ux-reference-nagix.md

수확

Applied 42026-04-06 16:28

첫 수확. Simon Willison의 테스트 병목 인사이트, honcho 메모리 패턴, tokscale 토큰 추적, scan-for-secrets 시크릿 감지.

9/10rule

Testing as the new bottleneck in agentic engineering simonw

코딩 에이전트 시대에서 테스트가 새로운 병목

분석: Simon Willison: Nov 2025가 코딩 에이전트가 프로덕션급이 된 변곡점.
적용 이유: 에이전트 태스크 시작 전 테스트 계획 수립을 강제하면 "빌드만 통과" 판정 방지 — /qa-scenario-gen과 연동
기대효과: 테스트 없는 구현 방지, 요구사항 누락 감소, QA 품질 구조적 향상
5축: 자동화 2 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ test-first-agent-tasks.md

8/10rule

scan-for-secrets 0.3: CLI secret scanner with redaction simonw

시크릿 감지를 JSON/backslash 인코딩까지 확장

분석: Simon Willison의 CLI 도구.
적용 이유: no-env-commit hook의 시크릿 감지가 단순 패턴 매칭 — scan-for-secrets 수준으로 강화하면 인코딩된 시크릿도 감지 가능
기대효과: .env 외에 JSON/config 파일에 숨겨진 API 키 유출 방지
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 0 · 측정가능 2

→ secret-scanning-depth.md

8/10rule

tokscale: CLI tool tracking token usage junhoyeo

토큰 사용량을 세션별로 추적하여 비효율 패턴을 데이터 기반으로 식별

분석: Claude Code, Codex, OpenCode 등 멀티 AI 어시스턴트의 토큰 사용량 추적 CLI.
적용 이유: 토큰 효율 추적이 없으면 어떤 에이전트/작업이 비효율적인지 파악 불가 — 데이터 기반 최적화의 기반
기대효과: 세션별 토큰 사용 패턴 시각화, 비효율적인 에이전트 호출 식별 및 제거
5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 2

→ token-efficiency-tracking.md

7/10rule

honcho: Memory library for stateful agents plastic-labs

에이전트의 크로스 세션 메모리를 구조화하면 동일 실수 반복 방지

분석: 영구 메모리 라이브러리.
적용 이유: Memory-Bank 플러그인과 동일 문제 해결 — 크로스 세션 메모리 구조화 패턴의 외부 검증
기대효과: agent-memory-hygiene 규칙 강화, 메모리 노화·정리 패턴 적용
5축: 자동화 1 · 마찰제거 2 · HARD전환 0 · 토큰효율 2 · 측정가능 2

→ agent-memory-hygiene.md

9/10rule

stop-slop: 산문 AI tells 룰 기반 제거 hardikpandya

LLM 산문의 예측가능한 AI tells를 결정론적 룰로 제거 — UI slop이 아닌 산문 slop 전담(우리 시스템 미보유 영역)

분석: 단어/구문 리스트 + 구조 규칙으로 throat-clearing 서두·em-dash 남용·hedging·비즈니스 jargon 제거. SKILL.md 단일 파일, LLM 재평가 불필요.
적용 이유: 기존 anti-slop은 UI 전용 — 산문 영역은 비어 있던 갭. token-brevity(토큰)와 직교(authenticity).
기대효과: documentation/PR/changelog 산문 품질 게이트 — 5차원(Directness/Rhythm/Trust/Authenticity/Density) 35/50 미만 시 revision.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ prose-anti-slop-pattern.md

7/10rule

revfactory/harness: 메타-스킬 팀 팩토리 revfactory

도메인 설명 → 에이전트 팀 + 스킬 자동 설계(L3 메타 팩토리), 6개 아키텍처 패턴 contextual 선택

분석: 6-Phase(Domain Analysis→Team Design→Agent Gen→Skill Gen→Orchestration→Validation)로 .claude/agents + .claude/skills 자동 생성. 도메인 적응형.
적용 이유: team-orchestrator 상위 메타 레이어 — 정적 팀 템플릿과 달리 도메인별 specialist 팀과 스킬을 자동 설계.
기대효과: init-project가 도메인별 팀 설계, 6개 아키텍처 패턴을 위임 구조 기준으로 도입, with/without-skill A/B 검증(+60%).
5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2

→ meta-skill-team-factory.md

9/10rule

OpenCLI — Account-safe browser CLI hub for AI agents jackwener

AI 에이전트의 브라우저 자동화는 매번 토큰을 쓰지 말고 결정론적 CLI 어댑터로 결정화하라 — 로그인 세션은 재사용, 출력은 스키마 고정

분석: Turn any website/tool/Electron app into a deterministic CLI — AI agent reuses your logged-in Chrome session via CDP without leaking credentials.
적용 이유: Skill-based adapter pattern: AI agent crystallizes repeated browser actions into reusable adapters (zero LLM cost at runtime, deterministic output).
기대효과: Pipeable, scriptable, CI-friendly — same command produces same output schema every time.
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ browser-automation-crystallization.md

8/10rule

HyperAgents: 자기참조 진화적 자가개선 (Meta) facebookresearch

진화적 population + 자기참조 메타 레이어 + 실행 기반 검증 — 단일 루프 self-improve의 진화적 확장

분석: meta-agent가 task-agent를 진화 — population + parent selection
적용 이유: 개선을 실제 실행 메트릭으로 검증(computable task)
기대효과: self-referential: 개선 전략 자체도 개선, hierarchical 안전 게이트
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2

→ self-referential-evolutionary-improvement.md

9/10rule

ruflo: 합의 기반 스웜 조율 (Raft/Byzantine) ruvnet

합의-before-execution + 행동 신뢰 점수 공식으로 분산 스웜 조율 — silent degradation 차단

분석: 실행 전 정족수 합의(Raft/Byzantine) 요구 — 단일 오케스트레이터 병목 제거
적용 이유: deterministic substrate(합의/A*/HNSW) + LLM overlay 분리
기대효과: 행동 신뢰 점수 0.4×success+... 0.75 초과 시 자동 권한 상승
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 2 · 측정가능 2

→ consensus-based-swarm-coordination.md

7/10rule

agent-sandbox: K8s 선언적 에이전트 워크로드 (k8s-sigs) kubernetes-sigs

K8s CRD로 stateful singleton 에이전트 워크로드를 pause/resume/warm-pool로 선언적 관리 — 격리 sandbox 룰과 직교

분석: 격리 기술 아닌 control-plane 추상화 — singleton stateful CRD
적용 이유: pause/resume + scheduled deletion + SandboxWarmPool
기대효과: Deployment/StatefulSet 빈틈(장기 stateful 단일 에이전트) 충족
5축: 자동화 2 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ k8s-declarative-agent-workload.md

9/10rule

baml: Typed LLM Function + Schema-Aligned Parsing BoundaryML

prompt-as-typed-function + schema-aligned parsing으로 freeform JSON 파싱의 반복 마찰을 구조적으로 제거

분석: LLM 호출을 반환 타입 가진 함수로 선언 — freeform 프롬프트+JSON 파싱 대체
적용 이유: Schema-Aligned Parsing: 유연한 출력을 결정론적 스키마로 검증, native tool-calling 미지원 모델도 OK
기대효과: 파싱 실패 retry 마찰 제거 + 타입 안전 스트리밍, 모델 무관 구조화 출력
5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1

→ typed-llm-function-parsing.md

8/10rule

OS-Level Syscall Sandbox — 무컨테이너 secure-by-default 프로세스 격리 anthropic-experimental

sandbox-exec/bubblewrap + seccomp BPF + dual FS policy(deny-then-allow read/allow-only write) + proxy allowlist로 컨테이너 없이 native 속도 OS-level 격리

5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 1 · 측정가능 1

→ os-level-syscall-sandbox.md