loopy-era-trend-harvester가 6시간 주기로 외부 AI 트렌드를 자동 수집하고, 5축 철학 필터(자동화·마찰 제거·HARD 전환·토큰 효율·측정 가능)와 autoresearch keep/discard 판정을 거쳐 시스템에 반영한 전체 기록. 110회차 누적.
graph-rag-codebase-indexing(74차) + semantic-code-search-mcp(85차) + bi-temporal-structural-memory(109차 pending) 3개 패턴이 모두 "한 번 인덱싱 후 재사용"이었다면, CocoIndex는 "인덱싱 자체를 incremental delta로 격상" — memory-bank/rules/skills의 변경 추적도 hash-based delta로 전환 가능. agent의 입력/출력 양방향 결정화(108·109차)에 이어 "입력 데이터 freshness 자체도 LLM 비용 0으로 incremental"가 추가되어 grounded-context 인프라 3축 완성(저장=bi-temporal, 검색=hybrid retrieval, 갱신=incremental delta). 핵심 발견 #2: openai/symphony(⭐22,423, +2,406/wk, Elixir 95.5%, Apache-2.0) — "Symphony turns project work into isolated, autonomous implementation runs" — Work-Item-Level Orchestration on Elixir/BEAM. OpenAI가 직접 출시한 멀티-에이전트 오케스트레이터로 핵심 슬로건이 "manage work instead of supervising coding agents". Linear 같은 work board를 모니터링 → 태스크 자동 spawn → proof-of-work 산출(CI status, PR feedback, complexity analysis) → 안전하게 PR 머지. Elixir/BEAM 선택은 경량 프로세스 + supervision tree + fault tolerance로 수십~수백 동시 에이전트 런 관리에 최적화. 시사점: 우리 state-driven-orchestration(19차) + declarative-agent-coordination(36차) + ci-self-healing-loop(22차)이 모두 "agent supervise 자동화"였다면, Symphony는 한 차원 위 — "work-item을 manage하면 agent supervise는 자동으로 사라진다" 추상화. 우리 /team·/manager 오케스트레이터의 다음 진화 방향: Phase 단위가 아니라 work-item 단위 추상화. 핵심 발견 #3: mattpocock/skills(⭐65,094, +16,579/wk, Shell+Markdown, MIT) — Cross-Model Skills Catalog Mainstream Saturation. Matt Pocock(TypeScript 교육자)이 발행한 17개 엔지니어링 skills(diagnose · grill-with-docs · triage · improve-codebase-architecture · tdd · to-issues · to-prd · zoom-out · prototype · caveman · grill-me · write-a-skill · git-guardrails-claude-code · migrate-to-shoehorn · scaffold-exercises · setup-pre-commit · setup-matt-pocock-skills) 카탈로그가 단일 주에 +16,579⭐로 폭발. 핵심 메시지: "They work with any model" — Claude Code 전용이 아니라 모든 model에 적용 가능한 generic skill format. 시사점: 우리 cross-cli-skill-portability(106차)가 "스킬의 cross-CLI 이식 가능성"을 제안했다면, mattpocock/skills는 실증 65K 규모로 mainstream 진입 — HarnessKit(109차, 219⭐) + memtrace 9-CLI auto-config(109차, 148⭐)와 결합 시 "skill 카탈로그가 model-agnostic + CLI-agnostic 양축 portability 완성". 추가 주목: 1jehuang/jcode(⭐4,878, +3,026/wk, Rust) — 우리 implicit-semantic-memory(97차) 패턴의 본격 성장(27.8MB RAM · 14ms TTFF · cosine 기반 dynamic skill 로딩 · self-modification + rebuild + hot reload), TauricResearch/TradingAgents(⭐71,194, +14,322/wk) — 도메인 특화(금융) multi-agent의 폭발적 성장, virattt/dexter(⭐24,720, +3,108/wk) — autonomous deep financial research agent, anthropics/financial-services(⭐12,076, +2,410/wk) — Anthropic 직접 출시 financial-services solutions, LearningCircuit/local-deep-research(⭐6,325, +1,640/wk) — Ollama+SearXNG+SQLCipher AES-256 로컬 deep research, 10+ search engines(arXiv·PubMed·Semantic Scholar·Wikipedia·SearXNG·Tavily·Brave) + LangGraph 자율 모드, AIDC-AI/Pixelle-Video(⭐13,382, +4,999/wk) — 자동 short-form video 생성 엔진, warpdotdev/warp(⭐56,400, +8,625/wk 안정 가속) — agentic terminal mainstream, ComposioHQ/awesome-codex-skills(⭐7,473, +2,287/wk) — Codex CLI 전용 skill 큐레이션. 구루 동향: anthropics — May 7-8 양일에 SDK quad-push (claude-agent-sdk-python 6,731⭐, claude-code-action 7,478⭐, claude-code-base-action 813⭐, claude-agent-sdk-typescript 1,382⭐, claude-code 121,378⭐ 본체, claude-plugins-community 72⭐, claude-plugins-official 18,809⭐, financial-services 12,077⭐) — 109차 plugin/workshop/SDK triple-saturation에 이어 SDK 4종(python/typescript/java/go) + plugins community/official + financial-services 동시 push로 SDK quad-saturation 가속; karpathy — nanochat(53,075, May 5 push 안정 +0/wk, "$100 ChatGPT"), autoresearch(79,582, +49/wk 누적), llm-council(18,457 안정), nanoGPT(57,674 클래식 안정 + 44/wk); simonw — 5월 8일 단일일자에 6+개 scraper repo 동시 push(usgs-scraper 11⭐, package-stats 10⭐, scrape-fema-shelters 12⭐, scrape-florida-outages 12⭐, pge-outages 23⭐, simonwillisonblog-backup 46⭐) + llm-gemini 438⭐ 활발 유지, tools 1,679⭐(거의 100% LLM 생성 도구 모음) — "공공 데이터 → LLM 친화 가공 + LLM-generated tools" 일일 다중 push 패턴 5주 연속 가속도 유지. 생태계 메타: 이번 주 전체 특징 — "Cross-Model Skills 65K 폭발(mattpocock — agent skills mainstream 진입) + Work-Item-Level Orchestration(symphony 22.4K — Elixir/BEAM 'manage work, not agents') + Incremental Delta Engine(cocoindex 8.9K — sub-second freshness + 10× 비용 절감 + byte-level lineage) + Domain-Specific Multi-Agent 폭발(TradingAgents 71K + dexter 24.7K + financial-services 12K — 금융 도메인 단일 주에 100K+ 누적) + Anthropics SDK Quad-Push(python/typescript/java/go 동시) + Local-First Deep Research(local-deep-research 6.3K — Ollama+SearXNG+SQLCipher) + simonw 일일 6+ scraper push 5주 연속 + agentic terminal saturation(warp 56.4K)"."Your agents deserve fresh context. CocoIndex transforms codebases, documents, Slack messages, PDFs, and videos into live, always-fresh context for LLM applications. Delta-only processing: when sources change, only affected records reprocess. Sub-second freshness instead of day-old batches. 10× cost reduction by skipping unchanged data. Explainable outputs where every vector traces back to its source byte."
self-improve의 rule 변경 시 영향 분석에 직접 적용 가능 — rule 파일 변경 → 영향받는 memory-bank entry만 재인덱싱. 핵심 혁신 #3: End-to-End Lineage — 모든 vector를 source byte까지 역추적 가능. "왜 이 답이 나왔나"가 완전 explainable — 우리 completion-verification(12차) "수치 보고 필수 규칙"과 결합 시 모든 결정에 source 증거 자동 첨부. 핵심 혁신 #4: Python-Native Declarative Flows — target state(vector DB, knowledge graph, warehouse)를 선언하면 incremental sync 자동, ETL 보일러플레이트 0 — 우리 declarative-agent-coordination(36차) 원칙의 데이터 영역 확장. 핵심 혁신 #5: Production-Grade Rust Core — retries · dead-letter queues · zero data-loss · parallel-by-default — Python declarative 표면 + Rust 안정성 코어 결합. 핵심 혁신 #6: Universal Source Support — codebase · documents · Slack · PDF · video → 모두 동일 incremental engine으로 처리. 시사점: 우리 graph-rag-codebase-indexing(74차) + semantic-code-search-mcp(85차) + bi-temporal-structural-memory(109차 pending)이 모두 "한 번 인덱싱 후 재사용"이었다면, CocoIndex는 "인덱싱 자체를 incremental delta로 격상" — grounded-context 인프라 3축 완성(저장=bi-temporal, 검색=hybrid retrieval, 갱신=incremental delta). agent reasoning의 입력 사이드가 저장+검색+갱신 모두 LLM 비용 0으로 결정화되어 long-horizon agent의 진정한 "fresh context guarantee" 가능. autoresearch 실험 keep 판정: BASELINE harness-report 대비 +1 점수 상승 예상(데이터/메모리 갱신 영역 신규 결정론적 패턴 추가)~/.claude/rules/incremental-delta-indexing.md 신규 생성 후보(권한 보류 — 사용자 승인 시 적용). 핵심: (A) Delta-Only 표준 — 모든 인덱싱 작업(memory-bank · rules · skills · scaffold)에 hash-based change detection 강제, 변경 없는 데이터 재처리 금지 (B) Code-Hash Aware Caching — 변환 코드 변경 시 영향받는 행만 재계산, 무관 코드 수정 시 캐시 100% 재사용 검증 (C) End-to-End Lineage 표준 — 모든 vector/embedding에 source byte 메타데이터 첨부, "왜 이 결과인가" 완전 explainable 보장 (D) Python Declarative + Rust Core 분리 — 표면(declarative flow)과 안정성 코어(retries, DLQ, zero data-loss) 분리 (E) Universal Source 지원 — codebase + documents + 외부 API + 로그 등 모두 동일 incremental engine (F) HARD 검증 — incremental ratio = bash로 "재처리 행 수 / 전체 행 수" 계산 후 임계값(<10%) 초과 시 exit 2, lineage coverage = "source byte 메타데이터 없는 vector 수 = 0" assertion, 캐시 히트율 = numeric assertion (G) 점진적 적용 — Phase A: cocoindex 로컬 PoC + memory-bank 1개 워크스페이스 incremental sync → Phase B: rules/ 디렉토리 변경 시 영향받는 memory-bank entry만 재인덱싱 → Phase C: skills/ 디렉토리에 동일 패턴 적용 → Phase D: trend-harvester의 .seen.json도 incremental delta 처리 (H) 직교 패턴 결합 — graph-rag-codebase-indexing(74차) × semantic-code-search-mcp(85차) × bi-temporal-structural-memory(109차) 3개 패턴을 delta-only 갱신 차원으로 통합 격상해 grounded-context 3축(저장+검색+갱신) 완성CALLS, IMPLEMENTS, IMPORTS, EXPORTS, CONTAINS)를 직접 추출, LLM 기반 entity 추출 대비 1,200× 빠른 1,500파일/1.2~1.8초 인덱싱 + 매 파일 LLM 호출 0회 (C) 6-Axis Scoring — impact(blast radius) · novelty · recency · directional · compound · overview(Louvain community detection) 6가지 채점 알고리즘으로 "지금 가장 관련 있는 것"을 시간+구조 양쪽 종합 판정 (D) Hybrid Retrieval — BM25 full-text + Vector similarity + Reciprocal Rank Fusion + Cross-encoder rerank 다단계 결합, p95 8ms latency + 96.6% accuracy (E) MCP Native + 9 CLI 자동 구성 — npm install -g memtrace 한 줄로 Claude Code · Claude Desktop · Cursor · Codex · Windsurf · VS Code Copilot · Hermes · OpenCode · Kiro 9개 CLI에 25 MCP tools + 17 workflow skills 자동 등록 (F) 26 MB RSS — vector DB 대비 41× 효율, 로컬 ArcadeDB 사용으로 코드 외부 유출 0. 시사점: 기존 우리 graph-rag-codebase-indexing(74차)이 단일-시점 6단계 파이프라인이었다면, memtrace는 이중 시간축 + 결정론적 심볼 참조 + 6축 scoring로 한 차원 격상. 우리 semantic-code-search-mcp(85차) + implicit-semantic-memory(97차)와 결합 시 "입력 사이드 메모리도 LLM 호출 0으로 결정화"가 가능 — agent의 양방향(입력=bi-temporal grounded memory, 출력=UI/workflow primitive) 결정화 완성. 핵심 발견 #2: superset-sh/superset(⭐10,465, +10K/wk new launch, "Code Editor for the AI Agents Era") — Multi-Agent Desktop Cambrian Explosion. "Run an army of Claude Code, Codex, etc. on your machine"이라는 명시 슬로건으로 git-worktree 기반 병렬 에이전트 함대 + parallel-coding + opencode/cursor-agent/coding-agents 동시 호출 + tmux/electron 통합 desktop UI. 단일 카테고리에 superset(10K+ launch week) ↔ AionUi(24K, 107차) ↔ nanoclaw(28.7K, 108차) ↔ CherryHQ/cherry-studio(45K) ↔ rowboatlabs/rowboat(13.3K) ↔ iOfficeAI/AionUi(24K) — "AI 에이전트 함대 관리 desktop"이 7개 이상 등장한 cambrian 폭발. 시사점: 우리 multi-agent-fleet-management(90차, njbrake/agent-of-empires 1.9K)가 tmux 기반 fleet의 첫 신호였다면, 이번 주는 같은 패턴이 10K~45K 규모로 7개 이상 동시 출현 — agent fleet 관리가 niche에서 mainstream UI 카테고리로 전환. 핵심 발견 #3: RealZST/HarnessKit(⭐219, "More than a skill manager") — Universal Harness Aggregator 신 카테고리. "manage skills, MCP servers, plugins, hooks, CLIs, configs, memory & rules across every AI coding agent"라는 단일 도구로 8가지 primitive(skill+MCP+plugin+hook+CLI+config+memory+rules)를 통합 관리. cross-cli-skill-portability(106차)가 "스킬 한 종류의 cross-CLI 이식"이었다면, HarnessKit는 "전체 8 primitive의 cross-CLI 통합 관리"로 한 차원 더 큰 단위 — 우리 cc-sync/cc-apply 패턴(user-scope ↔ project-scope 전체 동기화)이 industry 표준화 단계 진입. 핵심 발견 #4: proxysoul/soulforge(⭐630, "Graph-powered code intelligence, multi-agent coding with codebase-aware AI") — Graph RAG × Multi-Agent 융합. graph-rag-codebase-indexing(74차)와 multi-agent-fleet-management(90차)의 첫 결합 사례 — agent들이 동일 그래프를 공유하며 "no more grep & pray" 슬로건으로 grep 기반 탐색의 한계를 그래프 RAG + 멀티-에이전트 동시 호출로 해결. 핵심 발견 #5: Fergana-Labs/stash(⭐94, "Shared memory for your team's coding agents") — Team-Level Shared Memory. 기존 shared-agent-memory(26차, xvirobotics/metabot 618)가 단일 사용자의 multi-agent shared memory였다면, stash는 "team-level cross-user shared memory"로 격상 — context-engineering + continual-learning + personal/team knowledge-base + semantic-search + skills + workspace 통합. 추가 주목: qwibitai/nanoclaw(⭐28,672, "lightweight alternative to OpenClaw that runs in containers for security" — 컨테이너 격리 + Anthropic Agents SDK 기반), yonatangross/orchestkit(⭐168, "103 skills, 36 agents, 172 hooks. Production-ready patterns" — primitive 카운트 명시 fullstack toolkit), NousResearch/hermes-agent(⭐137,407, +407/wk 안정 saturation), CopilotKit/CopilotKit(⭐30,950, +79/wk 108차 적용 후 안정), googleworkspace/cli(⭐25,885, Google 공식 + AI agent skills 통합), activepieces/activepieces(⭐22,092, n8n-alternative + ~400 MCP servers + workflow-automation), nocobase/nocobase(⭐22,300, AI + no-code platform). 구루 동향: anthropics — May 7 새로운 6개 push(claude-plugins-community 72⭐ 신규, cwc-workshops 66⭐ 워크숍 큐레이션, riv2025-long-horizon-coding-agent-demo 60⭐ long-horizon agent demo, anthropic-sdk-java 304⭐, anthropic-sdk-python 3,378⭐, anthropic-sdk-go 1,018⭐) — 108차 11-repo push에 이어 community/workshop/SDK triple-saturation 가속; karpathy — nanochat(53,069, May 5 push 안정 +32/wk), autoresearch(79,533, +131/wk 누적), llm-council(18,433 안정), nanoGPT(57,669 클래식 안정); simonw — 5월 7일 단일일자 추가 11개 repo push(simonwillisonblog-backup, scrape-florida-outages, scrape-fema-shelters, usgs-scraper, package-stats, simonw, llm-gemini, scrape-hacker-news-by-domain, scrape-roads-dot-ca-gov, pge-outages 등) — llm-gemini 438⭐ 활발 유지, "공공 데이터 → LLM 친화 가공" 일일 다중 push 패턴 4주 연속 가속도 유지. 생태계 메타: 이번 주 전체 특징 — "Bi-Temporal Structural Memory(memtrace 148 — zero LLM call + 1,200× 빠른 인덱싱 + 9 CLI 자동 구성) + Multi-Agent Desktop Cambrian(superset 10K + AionUi 24K + nanoclaw 28.7K + cherry 45K + rowboat 13.3K — 7개 이상 동시 출현) + Universal Harness Aggregator 신 카테고리(HarnessKit 219 — 8 primitive 통합 단일 도구) + Graph RAG × Multi-Agent 융합(soulforge 630 — '74차+90차' 첫 결합) + Team-Level Shared Memory(stash 94 — '26차' team-level 격상) + Anthropics community/workshop/SDK triple-saturation(plugin-community + cwc-workshops + riv2025-long-horizon-demo + SDK 6종 동시) + simonw 일일 11+ scraper push 4주 연속 가속도"."Indexing 1,500 files in 1.2–1.8 seconds at zero API cost — roughly 1,200× faster than systems requiring LLM-based entity extraction. Bi-temporal awareness with version history × structural relationships across time. Six scoring algorithms (impact, novelty, recency, directional, compound, overview)."
valid time(코드의 version history) × transaction time(인덱스 갱신 시각) 이중 시간축 동시 추적. 기존 RAG/지식그래프는 단일 시점 스냅샷만 저장하여 "이 함수가 작년에는 어떤 시그니처였나?", "이 의존성이 언제 추가됐고 우리가 언제 그걸 알았나?", "최근 변경된 게 뭐가 있나?" 같은 시간 비교 질의가 불가능. memtrace는 양 시간축을 1급 지원 — symbol 레벨 변경 추적 + 인덱스 갱신 시점 메타데이터 동시 저장. 핵심 혁신 #2: Zero LLM Call Indexing — 기존 RAG는 LLM으로 entity 추출 → 매 인덱싱마다 비용 + 지연 (1,500 파일 30분~수 시간). memtrace는 Tree-sitter AST로 결정론적 심볼 참조(CALLS, IMPLEMENTS, IMPORTS, EXPORTS, CONTAINS)를 직접 파싱 → 1,500 파일 1.2~1.8초 (1,200× 빠름) + 매 파일 LLM 호출 0회 + 동일 코드 → 동일 그래프 재현 가능. 핵심 혁신 #3: 6-Axis Scoring Algorithm — 단순 BM25/cosine만으로는 "지금 가장 관련 있는 것"을 못 찾음. 6가지 채점 축 제공: impact(blast radius — 변경 시 영향받는 노드 수), novelty(최근 추가/변경 정도), recency(마지막 접근/수정 시각), directional(호출 방향성 caller vs callee), compound(가중 합), overview(Louvain community detection). 시간 + 구조 양쪽을 종합 판정. 핵심 혁신 #4: Hybrid Retrieval Pipeline — Query → BM25 full-text → Vector similarity → Reciprocal Rank Fusion → Cross-encoder rerank 다단계 결합, p95 latency 8ms 미만 + 96.6% accuracy. 핵심 혁신 #5: MCP Native + 9 CLI 자동 구성 — npm install -g memtrace 한 줄로 Claude Code · Claude Desktop · Cursor · Codex · Windsurf · VS Code Copilot · Hermes · OpenCode · Kiro 9개 CLI에 25 MCP tools + 17 workflow skills 자동 등록. 우리 cross-cli-skill-portability(106차) 패턴의 실전 구현체. 핵심 혁신 #6: 26 MB RSS Footprint — vector DB 대비 41× 효율, ArcadeDB 로컬 사용으로 코드 외부 유출 0, 텔레메트리는 timing/sanitized error만. 시사점: 우리 graph-rag-codebase-indexing(74차, 단일 시점 6단계 파이프라인) + semantic-code-search-mcp(85차, BM25+vector 하이브리드) + implicit-semantic-memory(97차, cosine 기반 turn-level 임베딩) 세 패턴을 이중 시간축 + 결정론적 심볼 참조 + 6축 scoring + 9 CLI MCP 자동 구성로 한 차원 격상 + 통합. agent의 출력 산물 격상(108차 AG-UI Protocol, 107차 n8n workflow JSON)에 이어, 입력 사이드 메모리/컨텍스트도 LLM 비용 0으로 결정화되어 agent reasoning이 양방향(입력=bi-temporal grounded memory, 출력=UI/workflow primitive) 결정화 완성. autoresearch 실험 keep 판정: BASELINE harness-report 대비 +1 점수 상승 예상(메모리/그래프 영역 신규 결정론적 패턴 추가)~/.claude/rules/bi-temporal-structural-memory.md 신규 생성 후보(권한 보류 — 사용자 승인 시 적용). 핵심: (A) Bi-Temporal 메모리 표준 — memory-bank에 valid_from · valid_to · recorded_at · last_verified · deprecated_at 5개 시간 필드 표준화 (B) Zero-LLM-Cost Indexing 우선 — 코드/심볼 관계 추출은 Tree-sitter AST + 결정론적 참조 우선, LLM 기반 entity 추출은 fallback (C) 6-Axis Scoring 활용 — rule recency/impact 자동 측정, 90일 미트리거 + impact=0 rule은 archive 자동 후보 (D) Hybrid Retrieval 4-stage — BM25 → vector → RRF → cross-encoder rerank 다단계 결합 (E) MCP-Native 자동 구성 — 단일 명령으로 9 CLI 자동 등록 패턴 채택 (F) HARD 검증 — 인덱싱 시간 = bash time, blast radius 임계값 = 영향 심볼 카운트 exit code, p95 latency = numeric assertion (G) 점진적 적용 — Phase A: memtrace 로컬 설치 + 1개 프로젝트 PoC → Phase B: code-reviewer가 PR 분석 시 blast radius 자동 호출 → Phase C: self-improve의 Curator 단계에 recency/impact scoring 통합(recursive-self-improvement-loop 27차 미구현 단계 해결) → Phase D: trend-harvester dedup에 시간 차원 추가 (H) 직교 패턴 결합 — graph-rag-codebase-indexing(74차) × semantic-code-search-mcp(85차) × implicit-semantic-memory(97차) × cross-cli-skill-portability(106차) 4개 패턴을 시간 차원 + 결정론 + 9 CLI 자동 구성으로 통합 격상time memtrace index ., blast radius 임계값 = 영향 심볼 카운트 exit code, p95 latency = 8ms numeric assertion, 결정론 검증 = 동일 코드 → 동일 그래프 hash 비교, recency 임계값 = 90일 미트리거 → exit 2) · 토큰효율 2(매 인덱싱 LLM 호출 0회, 매 query LLM 추론 0회 — 그래프 traversal로 결과 반환, 26 MB RSS로 컨텍스트 윈도우 절약, 6-axis scoring으로 상위 N개만 LLM에 주입 가능 — 무관 컨텍스트 차단) · 측정가능 2(인덱싱 시간 초 단위, 그래프 노드/엣지 카운트, blast radius 심볼 수, p95 retrieval latency, fact precision/recall over time, query 정확도 96.6%, MCP tool 호출 빈도, recency-based archive 카운트)browser-automation-crystallization(38차) rule이 "사이트 → 어댑터 결정화"였다면, AG-UI는 "agent → UI 결정화"의 반대 방향 결정화. 핵심 발견 #2: Harness Cambrian Explosion — 단일 카테고리 안에서 ⭐ 분포가 cambrian 폭발: affaan-m/everything-claude-code(175K, May 3 push, "performance optimization with skills/instincts/memory/security 4-pillar"), NousResearch/hermes-agent(137K, May 7 push, "the agent that grows with you" — 7차 수확 시 29K → 4.7배 폭발), thedotmack/claude-mem(73K, claude-mem plugin), farion1231/cc-switch(62K, cross-platform desktop all-in-one), gsd-build/get-shit-done(60K, meta-prompting + spec-driven), ComposioHQ/awesome-claude-skills(58K, claude-specific skills curation), code-yeongyu/oh-my-openagent(56K, oh-my-opencode rebrand → 19차 수확 시 21K → 2.7배 폭발), shanraisshan/claude-code-best-practice(51K, agentic engineering), HKUDS/nanobot(42K, ultra-lightweight 대척점) — 같은 "harness" 카테고리에서 무게/철학별 분기. 시사점: 우리 시스템은 hook 17개 + skill 80+로 heavy 쪽인데, nanobot 패턴은 "개인 사용 시 light variant 유지 가능성" 시사. 핵심 발견 #3: HKUDS/nanobot(⭐41,905, +1,000+/wk, Python — 같은 org가 OpenHarness 5-layer 11.9K도 운영) — 동일 org의 heavy/lean 쌍 운영 패턴. 핵심: (A) Small Readable Core — "codebase intentionally simple enough to study, modify, and extend" 명시적 학습용 설계 (B) On-Demand Loading — memory/skills/tools를 항상 활성 컴포넌트로 두지 않고 "context로만 끌어옴" (C) Built-in Without Bloat — chat channels/API/memory/MCP/deployment paths를 "빌트인 + 미니멀" 양립 (D) HKUDS 동일 조직이 OpenHarness(101차 수확 5-layer reference architecture)와 nanobot(ultra-light)을 동시 운영 — deployment context별 harness 무게 선택 패러다임. 시사점: 우리 user-scope 17개 hook은 enterprise-grade인데, 개인 사용자/특정 프로젝트엔 과할 수 있음. nanobot 패턴 차용 시 "context-aware harness depth selection" 가능. 핵심 발견 #4: Skill Marketplace 4-Way Divergence — 단일 awesome-list에서 4-way 동시 분기: mattpocock/skills(63,809, +20,777/wk — 15주 연속 1위 폭발 지속, /grill-me + /tdd + /diagnose + caveman 등 실용 엔지니어링), ComposioHQ/awesome-claude-skills(58,492, Claude 전용 + 1000+ Composio 통합), antigravity-awesome-skills(36,585, 1400+ agentic skills), VoltAgent/awesome-agent-skills(20,473, 1000+ agent skills), K-Dense-AI/scientific-agent-skills(20,244, research/science vertical), ComposioHQ/awesome-codex-skills(7,182, Codex 전용), anthropics/claude-plugins-official(18,762, Anthropic 공식 큐레이션). 시사점: 106차의 cross-cli-skill-portability에 이어, 일반/전용/공식/도메인-수직 4축 동시 진화 — 향후 Cursor/Gemini CLI 전용 awesome-list 출현 예상. 추가 주목: warpdotdev/warp(⭐56,053, +15,633/wk — 3주 연속 폭발 agentic terminal), TauricResearch/TradingAgents(⭐70,694, +15,576/wk — 3주 연속 폭발 multi-agent finance), 1jehuang/jcode(⭐4,642, +3,332/wk — Coding Agent Harness 8주 연속), googleworkspace/cli(⭐25,875, Google 공식 + AI agent skills 통합). 구루 동향: anthropics — May 7 11개 repo 동시 push(claude-code 121,245 — 12.1만 유지, claude-plugins-official 18,762, knowledge-work-plugins 11,888, claude-cookbooks 42,322, claude-code-action 7,466, claude-agent-sdk-python 6,716 — 24h만에 +6, anthropic-sdk-typescript 1,911, anthropic-sdk-go 1,017, anthropic-cli 331, anthropic-sdk-java 303, tokio 13) — SDK·CLI·Plugin·Action·Cookbook·Tokio 풀스택 saturation 도달; karpathy — nanochat(53,037, May 5 push 유지) "$100 ChatGPT" 안정, autoresearch(79,402) AI agent training 누적; simonw — 5월 7일 단일 일자에만 11개+ scraper 신규 push(usgs-scraper, scrape-florida-outages, package-stats, scrape-fema-shelters, simonwillisonblog, scrape-fediverse, sf-tree-history, tools, ollama-models-atom-feed, usgs-demo, scrape-roads-dot-ca-gov 등) — "공공 데이터 → LLM 친화 가공" 일일 다중 push 가속도 가속(지난주 14개 → 이번주 11+ 추가 신규). 생태계 메타: 이번 주 전체 특징 — "Agent 출력 산물 2단계 격상(107차 backend workflow JSON → 108차 frontend UI primitive — AG-UI Protocol Google/LangChain/AWS/MS 4대 vendor 채택) + Harness Cambrian Explosion(everything-claude-code 175K↔nanobot 42K 양극 spectrum + hermes-agent 137K 4.7배 폭발 + oh-my-openagent 56K 2.7배 rebrand 폭발) + Skill Marketplace 4-Way Divergence(mattpocock 63K + Composio Claude 58K + antigravity 36K + Anthropic Official 18.7K) + Anthropics May 7 단일일자 11-repo 동시 push 풀스택 saturation + simonw scraper 일일 11+ 신규 push 공공데이터 가공 가속도 가속"."The Frontend Stack for Agents & Generative UI. Built on AG-UI Protocol — adopted by Google, LangChain, AWS, Microsoft. Agents execute backend tools that return UI components, which render directly on the client side without requiring predefined interfaces."
Static(AG-UI Protocol) 사전 정의된 컴포넌트 매핑, Declarative(A2UI) JSX 유사 명세 자유 형식, Open-Ended(MCP Apps) 완전 자유 형식 — 3단계 자유도 spectrum 제공. 프로젝트 성숙도/안전성 요구에 맞게 선택 가능. 핵심 혁신 #3: Shared State Layer — agent와 UI가 동일 state 객체를 read/write 양방향 sync. "agent가 form 필드 자동 채움 → UI 즉시 반영 → 사용자가 일부 수정 → agent state 자동 업데이트 → 다음 step에서 수정된 값 반영" 패턴이 protocol 1급 지원, 별도 sync 코드 불필요. 우리 state-driven-orchestration(19차) rule이 backend orchestration state 영구화였다면, AG-UI는 agent ↔ UI 양방향 state sync로 frontend 영역까지 확장. 핵심 혁신 #4: Human-in-the-Loop Native — agent가 실행 중 pause하여 사용자 입력/승인 요청 가능, "다음 step 진행 전 확인" 워크플로우가 protocol 1급 시민. 우리 user-proxy 패턴(qa-cycle PASS 후 자동 승인)에서 한 단계 더 나아가, agent 실행 중간에도 사용자 개입 지점 표준화. 핵심 혁신 #5: useAgent Hook — React/Angular에서 단일 hook(useAgent())으로 agent 제어 + state 관리 + streaming 응답 + tool invocation 전체 라이프사이클 처리. 별도 SDK/wrapper 코드 없음. 핵심 혁신 #6: 4-Vendor 동시 채택 — Google(Gemini API frontend), LangChain(LangGraph), AWS(Bedrock), Microsoft(Copilot Studio) 4대 vendor가 동시 채택은 agent ↔ UI 인터페이스 표준화의 산업 합의 단계 진입을 증명. 향후 6개월 내 Anthropic/OpenAI도 호환 채택 예상. 시사점: 기존 우리 frontend-specialist + figma-designer + ui-ux-designer가 agent 응답을 받아 별도 JSX/Vue 코드를 생성하고 빌드/배포/테스트하는 흐름에서, AG-UI Protocol 도입 시 "agent 응답이 즉시 렌더 가능한 UI primitive"로 격상되어 "코드 생성 → 빌드 → 배포 → 테스트" 사이클이 "agent 응답 → 즉시 렌더" 1단계로 단축됨. 107차 agent-as-workflow-compiler(n8n-mcp)가 "agent → backend workflow JSON 컴파일"이었다면, AG-UI는 "agent → frontend UI primitive 컴파일"의 반대 방향 — agent reasoning이 backend automation에서 frontend UI까지 양방향 결정권 확보. autoresearch 실험 keep 판정: BASELINE harness-report 대비 +1 점수 상승 예상(frontend 영역 신규 표준 패턴 추가)~/.claude/rules/agent-driven-ui-protocol.md 신규 생성. 핵심: (A) AG-UI Protocol 우선 — frontend-specialist/figma-designer가 agent 응답을 JSX/Vue 코드로 변환하기 전에 AG-UI primitive로 표현 가능한지 먼저 검토 (B) 3-Approach Spectrum 선택 기준 — 안전성 우선 시 Static(사전 컴포넌트), 유연성 우선 시 Declarative(A2UI), 실험 단계 시 Open-Ended(MCP Apps) (C) Shared State Layer 강제 — agent ↔ UI 양방향 sync가 필요한 모든 form/dashboard에 적용, 별도 sync 코드 작성 금지 (D) Human-in-the-Loop 표준화 — agent 실행 중간 사용자 개입 지점은 protocol 1급으로 표현(별도 confirm 다이얼로그 ad-hoc 구현 금지) (E) useAgent Hook 사용 — React 프로젝트에서 agent 호출 코드 작성 시 useAgent() 단일 hook 표준 채택, 별도 wrapper 작성 금지 (F) Vendor-Neutral 유지 — Google/LangChain/AWS/MS 4대 vendor 어느 것에도 lock-in되지 않도록 protocol layer만 의존, 구체적 vendor SDK 직접 호출 회피 (G) HARD 검증 — protocol schema 검증 = JSON schema validate exit code, render success rate = console error count, state sync 충돌 = unique key 중복 체크 (H) 점진적 적용 — Phase A: 기존 frontend-specialist 산출물 중 AG-UI 호환 가능 컴포넌트 식별 → Phase B: useAgent hook 도입한 신규 컴포넌트 1개 PoC → Phase C: Shared State Layer 적용 영역 확대 → Phase D: 모든 agent ↔ UI 인터페이스 AG-UI Protocol 표준화 (I) 직교 패턴과 결합 — agent-as-workflow-compiler(107차, agent → backend workflow)와 agent-driven-ui-protocol(108차, agent → frontend UI)을 동시 적용 시 agent reasoning이 backend automation + frontend UI 양방향 결정권 확보 → "agent 1회 호출 → workflow 컴파일 + UI primitive 동시 생성 → 둘 다 LLM 호출 0으로 N회 실행"browser-automation-crystallization(38차, OpenCLI) rule이 "단일 사이트 어댑터 결정화"였다면, n8n-mcp는 "멀티-스텝 자동화 파이프라인 전체를 결정화". 우리 execution-path-crystallization(GenericAgent 8차) 패턴이 SOP 한 단위 결정화였다면, n8n-mcp는 "외부 runtime이 자율 실행 가능한 자동화 그래프 단위 결정화"로 한 차원 격상. 핵심 발견 #2: mksglu/context-mode v2 진화(⭐13,703, +2,470/wk — 85차 수확 시 11.7K → 현재 13.7K, 5주간 +2K 누적 성장) — Tool Output Sandboxing 패턴이 14개 플랫폼으로 확산. 새 발견: 단순 도구 출력 압축에 그치지 않고 (A) "Code-Generation-over-Data-Loading"이 14개 플랫폼(Claude Code · Codex · Cursor · Aider · Cline · Continue · OpenInterpreter · Goose · Smol-Developer · OpenDevin · GPT-Engineer · Plandex · Sweep · CrewAI)에 호환 어댑터 출시 (B) SQLite FTS5 인덱싱이 표준화 — 도구 출력 5KB 초과 시 자동 인덱싱, intent-driven retrieval로 BM25 검색 (C) 98% 압축률은 통계 검증 — 다양한 작업(Playwright snapshot 99%, GitHub Issues 98%, 전체 세션 98%) 평균 98% 절감 reproducibly 측정. 시사점: 기존 tool-output-sandboxing(85차) rule이 "단일 패턴 식별"이었다면, 이번 진화는 "플랫폼 unification standard로 정착". 핵심 발견 #3: iOfficeAI/AionUi(⭐23,936, +987/wk, TypeScript) — 20+ AI assistant를 단일 desktop coworking app으로 통합. 핵심: (A) Multi-Agent Coworking — Claude Code · Gemini CLI · Codex · Cursor · Aider · Cline · Continue · GitHub Copilot 등 20+ 에이전트를 단일 UI에서 동시 호출 (B) Visual Conversation Branching — 각 에이전트의 응답을 분기로 시각화, 사용자가 N개 에이전트의 답변을 동시 비교 (C) Local-First — 모든 데이터 로컬 저장, OS 수준 격리. 시사점: 106차의 cross-cli-skill-portability가 "스킬을 N개 CLI에 호환되게"였다면, AionUi는 "N개 CLI를 동시에 사용자 1명이 활용"하는 반대 방향 통합. 핵심 발견 #4: vercel-labs/portless(⭐9,045, +651/wk, TypeScript — Vercel 공식) — Vercel-Labs가 portless 패턴을 공식 채택. 우리는 이미 CLAUDE.md에 "dev 서버 실행 시 portless 필수" rule을 갖고 있는데, Vercel 공식이 같은 패턴을 채택했다는 것은 "port number → stable named URL 패턴이 LLM 시대 dev tool 표준으로 자리잡고 있음"의 강력한 신호. agent가 localhost:3000 같은 휘발 URL 대신 myapp.localhost를 안정적으로 참조 가능 → "agent가 만든 instruction이 다음 세션에서도 깨지지 않음". 추가 주목: warpdotdev/warp(⭐56,053, +15,633/wk — 2주 연속 폭발, agentic terminal), TauricResearch/TradingAgents(⭐70,694, +15,576/wk — 2주 연속 폭발, multi-agent finance), mattpocock/skills(⭐63,809, +20,777/wk — 15주 연속 1위 기록 갱신), ruvnet/ruflo(⭐45,644, +10,993/wk — multi-agent swarm 지속), 1jehuang/jcode(⭐4,642, +3,332/wk — Coding Agent Harness 7주 연속 폭발), abhigyanpatwari/GitNexus(⭐36,574, +3,239/wk — 그래프 RAG agent), linshenkx/prompt-optimizer(⭐28,286, +762/wk — prompt engineering 도우미). 구루 동향: anthropics — May 7에 claude-agent-sdk-python(6,710 — 24h만에 +15) + cwc-workshops 신규 push, claude-code(121,147 — 12.1만 유지) + claude-plugins-official(18,744) + knowledge-work-plugins(11,880) 활발 유지, SDK·Plugin·Workshop 트리플 확장 지속; karpathy — nanochat(53,037, May 5 push) "$100 ChatGPT" 안정 유지, autoresearch(79,402) AI agent training 누적; simonw — 5월 7일 하루에만 14개 repo 동시 push(usgs-scraper · package-stats · scrape-fema-shelters · scrape-florida-outages · tools · ollama-models-atom-feed · usgs-demo · scrape-roads-dot-ca-gov · scrape-fediverse · scrape-faa-releasable-aircraft · scrape-hacker-news-by-domain · uv-init-demos · simonwillisonblog-backup · pge-outages) + 1개 신규(inaturalist-clumps) — "공공 데이터 → LLM 친화 가공" 패턴 일일 다중 push로 더욱 강화 (지난주 9개 → 이번주 14개+신규 1, +56%). 생태계 메타: 이번 주 전체 특징 — "Agent의 출력 산물 격상 — 코드/응답에서 외부 runtime 실행 가능한 workflow JSON으로(n8n-mcp 20K + 525+ 노드 + validation 빌트인) + Tool Output Sandboxing 표준화(context-mode 13.7K, 14개 플랫폼 호환 + 98% 압축 reproducibly) + 멀티-CLI 통합 데스크탑(AionUi 23.9K — 20+ 에이전트 단일 UI) + portless 패턴 Vercel 공식 채택(9K — agent-friendly URL 표준화) + simonw scraper 일일 다중 push 56% 증가(공공 데이터 LLM 가공 가속도 증가)"."MCP server enabling Claude Desktop/Code and Cursor to automatically build n8n workflows. 525+ integrations with 99% property coverage. Compile workflow once, run thousands of times with zero LLM cost."
generate → validate → fix → revalidate). 잘못된 workflow가 production에 도달하지 않음. 핵심 혁신 #4: AI-Friendly Documentation — 모든 노드의 input/output schema를 LLM이 직접 읽을 수 있는 Markdown으로 노출, "Slack 노드는 메시지 전송용이며 channel/text/blocks 입력을 받고 ts/ok 출력을 반환" 같은 자연어 설명 자동 생성 → agent가 "어떤 노드가 어떤 작업에 적합한지" 자율 판단. 핵심 혁신 #5: 525+ 즉시 사용 노드 — Composio(106차)가 1000+ SaaS API를 통합 인터페이스로 추상화한다면, n8n-mcp는 해당 통합을 "실행 가능한 그래프 단위"로 격상. Composio = "1회 액션 실행", n8n-mcp = "다단계 자동화 파이프라인 자율 실행". 시사점: 기존 우리 시스템에서 agent가 task 실행을 직접 담당하는 모든 영역(특히 반복 작업: 일일 리포트 생성, 알림 라우팅, 데이터 동기화, CI/CD 트리거)에서 workflow 컴파일러 패턴 도입 시 LLM 호출을 ÷ 100~10000으로 줄일 수 있음. 우리 browser-automation-crystallization(38차)이 단일 브라우저 흐름 결정화였고, execution-path-crystallization(GenericAgent 8차)이 SOP 한 단위 결정화였다면, n8n-mcp 패턴은 "멀티-스텝 자동화 그래프 전체를 외부 runtime이 자율 실행 가능한 형태로 결정화" — 한 차원 더 큰 단위. autoresearch 실험 keep 판정: BASELINE harness-report 대비 +1 점수 상승 예상(workflow 자동화 영역 신규 패턴 추가)~/.claude/rules/agent-as-workflow-compiler.md 신규 생성. 핵심: (A) Compile-Once-Run-Many 원칙 — 반복 task는 agent 직접 실행 대신 workflow JSON으로 컴파일하여 외부 runtime(n8n/Zapier/Make/Github Actions)에 위임, LLM 호출 ÷ N 절감 (B) Workflow Validation Loop 강제 — agent가 workflow를 생성하면 즉시 schema validate + dry-run 필수, validation feedback으로 self-correct (C) AI-Friendly Tool Documentation — 외부 도구의 input/output schema를 Markdown으로 노출, agent가 자율 판단 가능하도록 (D) MCP Server as Tool Surface — 외부 자동화 플랫폼을 MCP server로 노출하여 525+ 노드를 통합 인터페이스로 사용 (E) Decoupling Reasoning from Execution — agent reasoning(컴파일) ≠ workflow runtime(실행), 양쪽 분리하여 각자 최적화 (F) 점진적 적용 — Phase A: /auto-issue 스킬에서 GitHub Issues → workflow 컴파일러 모드 추가 검토 → Phase B: self-improve가 반복 패턴 감지 시 workflow 컴파일 제안 → Phase C: 사용자 승인 후 n8n/Zapier에 자동 배포 → Phase D: 배포된 workflow의 LLM 호출 절감량 추적agent-skills-format(huggingface/skills, 12차 수확) rule이 "Anthropic/HF 스킬 표준 채택"이었다면, 이번 주 출현은 스킬 표준이 Codex CLI까지 확산되어 cross-CLI 호환성이 가능한 단계. 핵심 발견 #2: anthropics/claude-plugins-official 정착(⭐18,710, May 6 push) — Anthropic 자체 큐레이션 공식 디렉토리 출범·정착 단계. internal(Anthropic 직접 개발) + external(파트너/커뮤니티 검수 통과)로 분리, 표준 plugin.json 메타데이터, /plugin install {name}@claude-plugins-official 명령으로 설치 단순화. 596 active issues + 48 PR + 334 commits로 활발 운영 중. 기존 canonical-plugin-three-layer(75차 수확, knowledge-work-plugins 11.7K) rule이 "3계층 구조"였다면, 이번 주는 플러그인 디렉토리가 awesome-list 비공식에서 Anthropic 공식 마켓플레이스로 격상. 핵심 발견 #3: virattt/dexter(⭐24,405, +2,668/wk, TypeScript) — "Claude Code, but for financial research" — domain-vertical agent의 결정화. 핵심: (A) Intelligent Decomposition — 복잡한 금융 질문을 step-by-step 리서치 task로 자동 분해 (B) Autonomous Tool Selection — income statement/balance sheet/cash flow 등 적절한 데이터 도구를 에이전트가 자율 선택 (C) Self-Validation Loop — "checks its own work and iterates until tasks are complete" 재귀적 정제 (D) Loop Detection + Step Limits — 무한 재시도 차단 안전장치 빌트인. 같은 트렌드: TauricResearch/TradingAgents(⭐70,431, +15,576/wk — Multi-Agents LLM Financial Trading Framework). 시사점: horizontal general agent에서 domain-vertical agent로 분기 단계 — 우리 시스템의 frontend-specialist/backend-specialist 키워드 매칭에서 한 단계 진화하여 도메인 지식 + 자율 task decomposition + self-validation까지 갖춘 specialist agent 가능성. 핵심 발견 #4: ruvnet/ruflo(⭐45,373, +10,993/wk — 이전 Claude Flow에서 rebrand) — multi-agent swarm orchestration의 production-grade 진입. 핵심: (A) 100+ Specialized Agents가 swarm으로 자율 조직화, shared memory + consensus mechanism 빌트인 (B) Federation System — Raft/Byzantine/Gossip consensus로 다머신·다조직·다클라우드 zero-trust 협업, "agents on different machines, orgs, or cloud regions can discover each other, prove who they are, and collaborate" (C) AgentDB — HNSW 인덱싱으로 vector search 150x~12,500x faster, RAG + 그래프 기반 navigation (D) 12 Auto-Triggered Background Workers — 지속 최적화 자동화 (E) 27 MCP Hooks — Claude Code/MCP Server와 깊은 통합. 시사점: 우리 multi-agent-fleet-management(agent-of-empires 1.9K, 단일 머신 tmux 격리) 대비 ruflo는 다머신·federation 단계로 한 차원 격상. 단일 사용자에겐 과하지만 swarm topology(hierarchical/mesh/adaptive) 개념은 /team Phase 3 위임에 reference 가치. 추가 주목: mattpocock/skills(⭐63,224, +20,777/wk — 14주 연속 1위 폭발, /grill-me + /tdd + /diagnose + caveman 등 실용 엔지니어링 스킬), warpdotdev/warp(⭐55,821, +15,633/wk — agentic development environment), 1jehuang/jcode(⭐4,553, +3,332/wk — Coding Agent Harness, 6주 연속 폭발), D4Vinci/Scrapling(⭐46,404, +6,699/wk — Adaptive Web Scraping), Alishahryar1/free-claude-code(⭐22,070, +3,775/wk — Claude Code 무료 사용 도구). 구루 동향: anthropics — May 6에 claude-code(⭐121,034 — 12.1만 돌파!) + claude-agent-sdk-python(6,695) + claude-agent-sdk-typescript(1,374) + claude-code-action(7,450) + claude-code-base-action(809) + claude-cookbooks(42,322) + knowledge-work-plugins(11,865) + claude-plugins-official(18,710) 8개 핵심 repo 동시 push, SDK·CLI·Plugin·Action·Cookbook 풀스택 확장; karpathy — nanochat(53,021, May 5 push) "$100 ChatGPT" 안정 유지, autoresearch(79,346) AI agent training research 누적; simonw — 5월 6-7 양일간 다수 scraper 신규 push(usgs-scraper, scrape-fema-shelters, scrape-florida-outages, scrape-fediverse, scrape-hacker-news-by-domain, scrape-roads-dot-ca-gov, scrape-faa-releasable-aircraft, pge-outages, ollama-models-atom-feed) — "공공 데이터 → LLM 친화 형식 일일 자동화" 패턴 더욱 강화. 생태계 메타: 이번 주 전체 특징 — "스킬 마켓 cross-CLI 분기(Composio Codex 7K 진입 + mattpocock 63K 14주 연속 + Anthropic 공식 18.7K 정착) + domain-vertical agent 결정화(dexter/TradingAgents — finance vertical) + multi-agent federation production화(ruflo 45K — Raft/Byzantine/Gossip + AgentDB HNSW 150x) + Anthropic 8-repo 동시 push 풀스택(claude-code 121K + 7개 SDK/cookbook/plugin) + simonw scraper 일일 다중 push(공공 데이터 LLM 가공 자동화 가속)"."Practical Codex skills for automating workflows across the Codex CLI and API. Each skill is a self-contained SKILL.md with metadata Codex reads to determine when to trigger execution. The body loads only after activation, keeping context efficient."
agent-skills-format(huggingface/skills, 12차 수확) rule이 "Anthropic/HF 표준" 단일 플랫폼이었다면, 이번 주 Composio 진입은 "SKILL.md가 cross-vendor 표준으로 진화"를 증명. 핵심 혁신 #2: $CODEX_HOME/skills 거울 구조 — Claude Code의 ~/.claude/skills/와 동일한 디렉토리 컨벤션 채택, 즉 같은 스킬 파일을 심볼릭 링크 한 줄로 양쪽 CLI에서 공유 가능: ln -s ~/.claude/skills $CODEX_HOME/skills. 핵심 혁신 #3: 1000+ 앱 통합 — Composio 어댑터로 Slack/email/Linear/Jira/GitHub/Notion 등 1000+ SaaS 앱 액션 가능. 스킬이 "텍스트 생성"을 넘어 "실세계 액션" 단위로 격상. 우리 browser-automation-crystallization(38차 수확)이 "단일 사이트 어댑터 결정화"였다면, Composio는 "1000+ 앱을 통일 인터페이스로 추상화". 핵심 혁신 #4: Progressive Disclosure — name/description만 사전 로드(메타데이터), 본문은 트리거 시에만 활성화. 컨텍스트 윈도우에 모든 스킬을 미리 로드하지 않아 토큰 효율 유지. 핵심 혁신 #5: Cross-CLI Compatibility Matrix 가능성 — 같은 SKILL.md가 Claude Code · Codex CLI · Gemini CLI · Cursor에서 동작하려면 (a) frontmatter schema 호환, (b) 디렉토리 컨벤션 통일, (c) trigger 의미론 통일이 필요. 이번 주 출현으로 (a)+(b)는 자연스러운 표준화 진행 중. 핵심 혁신 #6: 도메인별 스킬 분류 — development/productivity/communication/data-analysis 4 카테고리로 정리되어 사용자가 필요한 스킬을 빠르게 발견. 같은 트렌드: antigravity-awesome-skills(⭐36,585 — 1,400+ agentic skills), VoltAgent/awesome-agent-skills(⭐20,473 — 1000+ agent skills), K-Dense-AI/scientific-agent-skills(⭐20,244 — research/science/engineering), mattpocock/skills(⭐63,224, 14주 연속 1위) — 스킬 마켓이 Claude Code 단일 플랫폼에서 cross-CLI/cross-domain으로 동시 분기. Composio Codex 7K 진입은 cross-CLI 표준화의 첫 신호이며, 향후 6개월 내 Cursor/Gemini CLI까지 같은 패턴 확산 예상~/.claude/rules/cross-cli-skill-portability.md 신규 생성. 핵심: (A) SKILL.md frontmatter 호환 schema — name/description은 필수, allowed-tools/license/trigger 등 cross-CLI 옵션 필드 표준화 (B) 디렉토리 컨벤션 통일 — ~/.claude/skills/와 $CODEX_HOME/skills 심볼릭 링크 가능 구조로 작성, 한 번 작성으로 N개 CLI 커버 (C) Progressive Disclosure 강제 — 메타데이터 line ≤ 5줄, 본문은 트리거 시에만 로드되도록 분리 (D) Cross-CLI Compatibility Matrix — 각 스킬에 호환 CLI 목록 명시(claude-code/codex-cli/gemini-cli/cursor), 미지원 기능 fallback 정의 (E) 1000+ 앱 통합 referencing — Composio 같은 외부 통합 도구를 스킬에서 참조 가능하도록 외부 액션 어댑터 메타데이터 표준화 (F) 점진적 적용 — Phase A: 기존 user-scope skills 중 Codex 호환 가능한 것 식별(현재 ~80%) → Phase B: frontmatter validity 체크 hook 추가 → Phase C: cross-CLI 호환 매트릭스 자동 생성 스크립트 → Phase D: 새 스킬 작성 시 cross-cli compatibility 자동 검증 게이트task_plan.md·findings.md·progress.md 3개 파일에 영속 기록, /clear 후에도 다음 세션이 자동으로 읽음 (B) Cross-Session Recovery via session-catchup.py — ~/.claude/projects/(Claude Code) + ~/.codex/sessions/(Codex)에서 plan 파일 마지막 갱신 이후의 conversation 추출 → catchup report로 사용자에게 표시 → git diff와 합쳐 plan 자동 동기화 (C) SHA-256 Hash Attestation (HARD!) — /plan-attest 명령으로 task_plan.md를 SHA-256으로 잠금, hooks가 매 UserPromptSubmit/PreToolUse마다 해시 비교 → 변조 감지 시 "[PLAN TAMPERED — injection blocked]" 출력하고 instruction 주입 차단 (D) The 2-Action Rule — "view/browser/search 작업 2회마다 즉시 키 발견을 텍스트 파일에 저장" — 시각/멀티모달 정보 손실 방지 (E) Read-Before-Decide / Update-After-Act 게이트 — 모든 주요 결정 전 plan 재독, 모든 phase 완료 후 즉시 progress 업데이트 (PostToolUse hook이 자동 알림) (F) Universal Multi-Agent Adapter — Claude Code, Codex, Gemini CLI, GitHub Copilot, Pi Agent, Hermes, Mastra, OpenClaw, Antigravity, Kiro, Factory, BoxLite 등 13개 IDE/agent 플랫폼 동시 지원(per-IDE branch + Codex hooks.json 통합). 검증: 96.7% benchmark pass rate + A/B blind 3/3 wins + Tessl CI. 기존 hatchet(104차, durable workflow)이 "프로세스 생애를 초월한 영속화"였다면, planning-with-files는 "컨텍스트 윈도우 자체의 휘발성을 우회" — 더 작은 단위(/clear 한 번)에서 작동. 핵심 발견 #2: 하네스 엔지니어링 awesome-list 정식 분류 — ai-boost/awesome-harness-engineering(⭐759, May 6 push)·Picrew/awesome-agent-harness(⭐295, May 6 push) 동시 활발. OpenAI(2026)가 명명한 "harness engineering" 분야가 커뮤니티 awesome-list로 카테고리화 시작. 항목 분류: tools / patterns / evals / memory / MCP / permissions / observability / orchestration. 기존 harness-engineering-paradigm·open-reference-harness-architecture rule이 1차 식별이었다면, 이번 주는 "하네스 엔지니어링이 독립 학문 영역으로 자리잡기 시작". 추가 주목: sd0xdev/sd0x-dev-flow(⭐155, "harness engineering reference implementation with hook-enforced dual review, state-machine gates that survive context compaction, fail-closed safety where it counts. Quality gates that AI can't skip"), Chorus-AIDLC/Chorus(⭐788 — Agent Harness for AI-Human Collaboration, AI-DLC Lifecycle), NousResearch/hermes-agent(⭐135,762, +700/wk — "The agent that grows with you" 7주 연속 폭발), thedotmack/claude-mem(⭐72,894, +900/wk — Claude Code 자동 컨텍스트 캡처+압축+주입), gsd-build/get-shit-done(⭐60,462, May 6 push — meta-prompting+context engineering+spec-driven), code-yeongyu/oh-my-openagent(⭐56,183, +500/wk — "the best agent harness"), HKUDS/nanobot(⭐41,807, May 6 push — Ultra-Lightweight Personal AI Agent), can1357/oh-my-pi(⭐4,039, May 6 push — hash-anchored edits + LSP + subagents), moltis-org/moltis(⭐2,656, May 6 push — secure persistent personal agent server in Rust, multi-provider+sandboxed), jackwener/OpenCLI(⭐18,983, May 6 push — Make Any Website & Tool Your CLI, universal CLI Hub), pydantic/pydantic-ai(⭐16,873, May 6 push — Agent Framework with type safety), holaboss-ai/holaOS(⭐4,860, May 6 push — Open Agent Computer for ANY digital work), safishamsi/graphify(⭐43,841, May 6 push — code+docs+SQL을 단일 queryable knowledge graph로), K-Dense-AI/scientific-agent-skills(⭐20,244 — research/science/engineering 즉시 사용 스킬 셋), VoltAgent/awesome-agent-skills(⭐20,473 — 1000+ agent skills), sickn33/antigravity-awesome-skills(⭐36,585 — 1,400+ agentic skills 설치형 GitHub 라이브러리), HKUDS/DeepCode(⭐15,334 — Paper2Code+Text2Web+Text2Backend 자율 코딩). 구루 동향: anthropics — claude-agent-sdk-typescript(1.4K, May 6 push) + anthropic-sdk-java(303, May 6 신규 push 활발) + anthropic-sdk-go(1K, May 6 push) + connect-rust(324, May 6 push) + buffa(693, May 6 — Rust protobuf with editions support) 5개 SDK/인프라 동시 활발, Python·TypeScript·Go·Java·Rust 5개 언어 풀스택 SDK 전개로 확장; karpathy — nanochat(53K) 안정 유지, autoresearch repo 79K star 누적; simonw — 5월 6일 하루에만 5개 scraper repo 신규 push(scrape-florida-outages·scrape-fema-shelters·usgs-scraper·package-stats·scrape-hacker-news-by-domain) — "공공 데이터 → LLM 친화 형식 자동화" 패턴 강력 지속. 생태계 메타: 이번 주 전체 특징 — "파일 기반 영속 메모리 패러다임 결정화(planning-with-files 20K — Manus 2B 인수 패턴이 Claude 스킬로) + 하네스 엔지니어링 awesome-list 정식 카테고리화(ai-boost+Picrew 동시 출현 — OpenAI 명명 분야가 커뮤니티 분류로) + Anthropic 5개 언어 SDK 풀스택 확장(Python·TS·Go·Java·Rust) + simonw scraper 일일 다중 push(공공 데이터 LLM 가공 자동화 일관 실천)"."Context Window = RAM (volatile, limited). Filesystem = Disk (persistent, unlimited). → Anything important gets written to disk. Work like Manus — the AI agent company Meta acquired for $2 billion."
task_plan.md(phases/progress/decisions) + findings.md(research/discoveries) + progress.md(session log/test results) 3개 파일에 영속 기록. /clear 한 번에 사라지는 컨텍스트와 무관하게 다음 세션이 자동으로 읽음. 핵심 혁신 #2: Cross-Session Recovery via session-catchup.py — ~/.claude/projects/(Claude Code) + ~/.codex/sessions/(Codex)에서 plan 파일 마지막 갱신 이후의 conversation을 추출 → catchup report로 사용자에게 표시 → git diff --stat과 합쳐 plan 자동 동기화. 사람이 "어디까지 했더라?" 판단 0. 핵심 혁신 #3: SHA-256 Hash Attestation (HARD 게이트!) — /plan-attest 명령이 task_plan.md를 SHA-256으로 잠그고 .attestation 파일에 저장. UserPromptSubmit/PreToolUse hook이 매번 sha256sum task_plan.md 비교 → 변조 감지 시 "[PLAN TAMPERED — injection blocked]" 출력하고 plan instruction 주입 자체를 차단. prompt injection 방어를 hash 비교(bash exit code)로 결정론화. 핵심 혁신 #4: The 2-Action Rule — "view/browser/search 작업 2회마다 즉시 키 발견을 텍스트 파일에 저장" — 시각/멀티모달 정보가 컨텍스트 윈도우 회전으로 사라지기 전에 디스크 commit 강제. 핵심 혁신 #5: Read-Before-Decide / Update-After-Act 게이트 — UserPromptSubmit hook이 매번 task_plan.md 상위 50줄 + progress.md 마지막 20줄을 자동 주입(plan을 attention window에 재투입), PostToolUse hook이 Write/Edit 후 "progress.md를 업데이트하라" 자동 알림. 핵심 혁신 #6: Universal Multi-Agent Adapter — Claude Code/Codex/Gemini CLI/GitHub Copilot/Pi Agent/Hermes/Mastra/OpenClaw/Antigravity/Kiro/Factory/BoxLite + 다국어(zh-TW·아랍·독일·스페인) 13개 IDE/agent + 4개 언어 동시 지원(per-IDE branch + Codex hooks.json 통합). 기존 state-driven-orchestration(세션 내 상태)·hatchet(104차, 프로세스 초월 영속화)이 "세션/프로세스 단위"였다면, planning-with-files는 더 작은 단위(/clear 한 번)에서 작동. Forks 1,843개·v2.2~v2.37 35회 패치 활발~/.claude/rules/persistent-file-based-planning.md 신규 생성. 핵심: (A) Context-as-RAM / Filesystem-as-Disk 분리 — task_plan.md/findings.md/progress.md 3개 파일을 working memory로 (B) Cross-Session Recovery — /clear 후 session-catchup으로 plan 자동 복원 (C) Hash Attestation — SHA-256으로 plan 무결성 잠금, prompt injection 차단 (D) 2-Action Rule — multimodal 작업 2회마다 디스크 commit (E) Read-Before-Decide / Update-After-Act — UserPromptSubmit/PostToolUse hook으로 plan 재투입 + 진행 추적 자동화 (F) 점진적 적용 — Phase A: 기존 auto-issue·team 오케스트레이터에 task_plan.md 표준 도입 → Phase B: bug-fixer 4회 로테이션을 progress.md에 영속 기록 → Phase C: self-improve가 매 라운드 결과를 findings.md로 누적state-driven-orchestration(세션 내 상태 파일)과 pause-on-failure-pattern(step 실패 시 환경 보존)이 "세션 단위"를 다뤘다면, hatchet은 "프로세스 생애를 초월한 워크플로우 영속화" — 재배포 후에도 같은 workflow_id로 이어 실행. 핵심 발견 #2: AI 에이전트 인프라의 시스템 언어 동시 이행 — 이번 주 GitHub 트렌딩에 Go·Rust 기반 production-grade 에이전트 인프라가 동시다발적 출현: Gentleman-Programming/engram(⭐3,300, Go, +270/wk — AI 코딩 에이전트용 영속 메모리), gastownhall/gascity(⭐613, Go — multi-agent 코딩 워크플로우 SDK), Tencent/WeKnora(⭐14,300, Go — LLM KB + 자율 추론 에이전트), xingkongliang/skills-manager(⭐1,091, Rust — 15+ 코딩 도구 스킬 관리), junhoyeo/tokscale(⭐2,600, Rust, +294/wk — 다중 AI 플랫폼 토큰 추적), CJackHwang/ds2api(⭐3,700, Go, +1,310/wk — AI 통합용 프로토콜 어댑터 미들웨어), 1jehuang/jcode(⭐4,400, Rust, +3,447/wk — 5주 연속 폭발). 패턴: "Python으로 검증된 패턴이 Go/Rust로 production 이행" — beads(memory)→engram·gascity, agent-manifest-pattern→skills-manager(Rust), token-efficiency-tracking→tokscale(Rust), unified-model-gateway→ds2api(Go). 핵심 발견 #3: anthropics SDK-First 에이전트 개발 패러다임 — claude-agent-sdk-python(⭐6.7K, May 6 push)·claude-agent-sdk-typescript(⭐1.4K, May 6 push)·claude-code-base-action(807, May 6 push) 동시 활발. CLI 단독에서 SDK + Managed Agents API + GitHub Actions 풀스택으로 확장. 추가 주목: refactoringhq/tolaria(⭐9,874, +2,086/wk — 에이전트 워크플로우용 마크다운 KB), lukilabs/craft-agents-oss(⭐5,758, +926/wk — 에이전트 오케스트레이션 OSS 가속), Q00/ouroboros(⭐3,500, +703/wk — Agent OS 사양 기반 루프, quantified-ambiguity-gate 출처 지속), LearningCircuit/local-deep-research(⭐5,500, +591/wk — 로컬 LLM 다중소스 리서치), mattpocock/skills(⭐61,880, +25,389/wk — 14주 연속 1위), warpdotdev/warp(⭐55,361, +28,493/wk — 14주 연속 폭발), ruvnet/ruflo(⭐44,464, +9,159/wk), TauricResearch/TradingAgents(⭐69,802, +14,697/wk), D4Vinci/Scrapling(⭐45,549, +5,667/wk), abhigyanpatwari/GitNexus(⭐36,101, +3,497/wk), simonw/llm(⭐11,800, May 6 push) + docs-for-llms(58, Apr 30 — LLM 소비용 문서 concat) + tools(1,700, May 4 — LLM 생성 유틸 모음) + research(636, May 4) 일관 push. 구루 동향: anthropics — agent SDK Python·TypeScript + GitHub Action + claude-plugins-official 동시 May 6 push, SDK-first 패러다임 진입 단계; karpathy — nanochat(52.9K) 안정기 + reader3(3.5K) 신규(LLM으로 책 읽기 illustration); simonw — scraper 시리즈 + LLM-native docs concat + LLM-generated utility 컬렉션 일일 push, "LLM 소비 가능한 형식으로 외부 데이터 사전 가공" 패턴 일관 실천. 생태계 메타: 이번 주 전체 특징 — "durable workflow 엔진 부상(hatchet — 세션 초월 영속화) + 에이전트 인프라 시스템 언어 production 이행(engram·gascity·tokscale·skills-manager·ds2api·jcode 동시 출현 — Python→Go·Rust) + Anthropic SDK-first 풀스택 확장(Python·TS·CLI·GitHub Action·plugins-official 동시 활발) + 하네스 생태계 14주 연속 폭발 지속(skills 6.2만 · warp 5.5만)"."Orchestration engine for AI agents and durable workflows that survive crashes, deployments, and restarts. Engine, not user, owns the resume decision — workflows continue from the last successful step automatically."
state-driven-orchestration(세션 내 파일 기반 상태)과 pause-on-failure-pattern(같은 세션 내 step 실패 시 환경 보존)이 "세션 단위"였다면, hatchet은 "세션 초월" — 다음 세션·다음 배포에서도 같은 workflow_id로 이어 실행. 핵심 혁신 #3: Declarative Retry Policy — exponential backoff + jitter + max-attempts + retry-on-error-class를 step별 메타데이터(YAML)로 선언. 코드 if/else에서 메타데이터로 외부화 → 재정책 변경 시 코드 수정 불필요. 기존 error-recovery(bug-fixer 4회 코드 로테이션)를 메타데이터화 가능. 핵심 혁신 #4: Replay & Audit — 모든 실행이 append-only 이벤트로 기록되어 재현·감사 가능. workflow_id별 lineage 완전 추적. Go 7.1K stars, 트렌딩 신규 진입~/.claude/rules/durable-agent-workflow.md 신규 생성. 핵심: (A) Step-Level Checkpointing — 외부 저장소에 step 결과 영구 기록 (B) Engine-Owned Crash Recovery — 프로세스 죽어도 다음 세션에서 자동 재개 (C) Declarative Retry Policy — 메타데이터 기반 재시도, 코드 외부화 (D) 점진적 적용 — Phase A: trend-harvester를 workflow file 기반 재정의 → Phase B: /team Phase 1~5 격상 → Phase C: bug-fixer 4회 외부화 → Phase D: /auto-issue를 workflow ID로 PR까지 단일 lineagegrill-me·grill-with-docs(구현 전 강제 질문 루프로 가정 표면화); Verbosity(도메인 용어 불일치 + 장황) → caveman(압축 출력) + CONTEXT.md(도메인 ubiquitous language); Code Quality(테스트 없이 구현 → 회귀 누적) → tdd·diagnose; Architectural Decay(시간이 지나며 구조 일관성 상실) → improve-codebase-architecture·zoom-out. Eric Evans Domain-Driven Design의 ubiquitous language 개념을 스킬 시스템에 도입. 기존 karpathy-coding-principles(Think Before Coding, Simplicity First, Surgical Changes)가 "원칙"을 정의했다면, mattpocock/skills는 "실패 모드를 명명하고 대응 스킬을 매핑"하는 조작화(operationalization)된 구현. 핵심 발견 #2: ComposioHQ/awesome-codex-skills(⭐7,000, +3,370/wk, Python) — 표준화된 스킬 메타데이터 스키마. 50+ 스킬을 5개 카테고리(Development & Code Tools / Productivity & Collaboration / Communication & Writing / Data & Analysis / Meta & Utilities)로 정리. 핵심 패턴: SKILL.md + YAML frontmatter(name, description) + scripts/(deterministic 작업) + references/(조건부 로딩). Progressive disclosure로 컨텍스트 오버헤드 최소화. Codex 스킬은 task description 매칭 기반 트리거, 메타데이터를 instruction body와 분리하여 컨텍스트 보존. 1,000+ SaaS 통합(Slack/GitHub 등)을 Composio CLI로 노출. agent-skills-format(huggingface/skills) + canonical-plugin-three-layer(anthropics 3계층)와 일관되는 표준화 흐름. 핵심 발견 #3: 3사 공식 스킬 카탈로그 병행 가속 — anthropics/claude-plugins-official(⭐18,636, May 6 push, +1.8K/wk), openai/skills(⭐18,380, +579/wk), ComposioHQ/awesome-codex-skills(⭐7,000, +3,370/wk) 모두 동시 활발. 스킬이 model-specific 자산이 아니라 AI 코딩 생태계 공통 기본 단위로 자리잡는 단계. 추가 주목: warpdotdev/warp(⭐55,361, +28,493/wk — 14주 연속 신기록 갱신), ruvnet/ruflo(⭐44,464, +9,159/wk — Claude 멀티에이전트 오케스트레이션), TauricResearch/TradingAgents(⭐69,802, +14,697/wk — 도메인 자율 에이전트 가속), D4Vinci/Scrapling(⭐45,549, +5,667/wk — 적응형 웹 스크래핑), abhigyanpatwari/GitNexus(⭐36,101, +3,497/wk), linshenkx/prompt-optimizer(⭐28,194, +767/wk), czlonkowski/n8n-mcp(⭐20,123, +1,269/wk — 102차 연속 성장), mksglu/context-mode(⭐13,390, +2,002/wk), iamgio/quarkdown(⭐13,776, +2,055/wk), AIDC-AI/Pixelle-Video(⭐12,394, +4,201/wk), hugohe3/ppt-master(⭐12,021, +2,575/wk), refactoringhq/tolaria(⭐9,874, +2,086/wk), vercel-labs/portless(⭐8,987, +879/wk — AI 친화 named URL), cocoindex-io/cocoindex(⭐8,544, +1,148/wk — 100차 출처 가속), AnmolSaini16/mapcn(⭐8,538, +1,046/wk), ComposioHQ/awesome-codex-skills(⭐6,992, +3,370/wk), Alishahryar1/free-claude-code(⭐21,785, +4,510/wk), soxoj/maigret(⭐25,756, +5,645/wk), iOfficeAI/AionUi(⭐23,847, +1,083/wk), virattt/dexter(⭐24,051, +2,050/wk), LearningCircuit/local-deep-research(⭐5,370, +591/wk — ~95% SimpleQA 로컬 LLM). 구루 동향: anthropics — claude-code(⭐120,808 — 5월 6일 push) · claude-cookbooks(42.2K) · claude-agent-sdk-python(6.7K) · claude-agent-sdk-typescript(1.4K) · claude-code-action(7.4K) · claude-plugins-official(18.6K) 6개 인프라 동시 활발 지속(102차에서도 동일 패턴 — 안정 유지 단계 진입); karpathy — nanochat(52.9K) 안정기; simonw — scraper 시리즈 일관 push 지속. 생태계 메타: 이번 주 전체 특징 — "스킬 설계 철학 재정의(failure-mode-anchored — '기능' 아닌 '실패 모드'로 출발) + 3사(Anthropic·OpenAI·Composio) 공식 스킬 카탈로그 병행 가속(스킬이 model-agnostic 공통 자산화) + mattpocock/skills 14주 연속 폭발 1위(엔지니어링 실무자 채택 가속)"."Skills for Real Engineers. Straight from my .claude directory. Skills should be anchored to the failure modes they prevent — not to abstract feature buckets."
grill-me·grill-with-docs로 구현 전 강제 질문 (2) Verbosity(도메인 용어 불일치 + 장황) → caveman(압축) + CONTEXT.md(ubiquitous language) (3) Code Quality(테스트 없이 회귀 누적) → tdd·diagnose (4) Architectural Decay(시간이 지나며 구조 상실) → improve-codebase-architecture·zoom-out. 핵심 혁신 #2: Operationalization of Principles — 기존 karpathy-coding-principles가 "Think Before Coding, Simplicity First" 같은 원칙을 정의했다면, mattpocock는 "각 원칙 위반 시 발생하는 실패 모드를 명명하고 즉시 트리거되는 스킬을 매핑". 원칙→실패 모드→스킬 트레이서빌리티. 핵심 혁신 #3: Domain-Driven Design 통합 — Eric Evans의 ubiquitous language 개념을 CONTEXT.md로 도입. 도메인 용어를 미리 정의하면 verbosity와 misalignment가 동시에 감소. 핵심 혁신 #4: Composability over Completeness — 작고 hackable한 스킬을 조합. 모든 모델 호환. 4가지가 끝이 아니라 **새 실패 모드 발견 시 등록 절차**가 명시됨~/.claude/rules/failure-mode-anchored-skills.md 신규 생성. 핵심: (A) 4가지 실패 모드 매핑표 — Misalignment/Verbosity/Code Quality/Architectural Decay와 우리 시스템 대응 스킬 매핑 (B) 새 스킬 작성 전 "어떤 실패 모드를 막는가?" 필수 정의 — 답이 없으면 작성 금지 (C) 기존 스킬 검토 — 실패 모드 매핑 없는 항목은 archive 후보 (D) HARD 전환 — SKILL.md에 failure_mode 메타데이터 필수화 (E) Architectural Decay 대응 스킬 신규 작성 후보(우리 시스템 부재 영역)browser-automation-mcp(ChromeDevTools — 브라우저 액션 노출)와 unified-model-gateway(QuantumNous — 모델 라우팅)가 "단일 도구 인터페이스"였다면, n8n-mcp는 "도메인 도구의 전체 capability 카탈로그를 사전 색인하여 query"하는 새 패러다임. AI 에이전트가 노드 config를 매번 reverse-engineer 할 필요 없이 schema lookup 1회로 검증된 패턴 활용. Claude Code/Cursor/Windsurf/Cline 호환. 핵심 발견 #2: virattt/dexter(⭐23,869, +2,050/wk, TypeScript) — 자율 금융 리서치 에이전트. 101차 anthropics/financial-services(7.9K — Anthropic 공식)의 community 진영 대응. 도메인 특화 Autonomous Research Agent 패턴 확산. 핵심 발견 #3: anthropics 활동 지속 — claude-code(⭐121K, 연일 push), claude-plugins-official(⭐19K, May 6 push), claude-agent-sdk-python(⭐6.7K, May 6 push), claude-code-action(⭐7.4K, May 6 push), claude-agent-sdk-typescript(⭐1.4K, May 6 push), anthropic-cli(⭐329, May 6 push) — Claude 에이전트 인프라 6개 동시 활발. 핵심 발견 #4: czlonkowski 패턴 다른 변형들: iOfficeAI/AionUi(⭐23,820, 99차에서 발견 — Multi-CLI Agent Cowork)와 결합 시, MCP 카탈로그 → AI 자동 선택 → 다중 CLI 에이전트 병렬 실행이 single chain으로 가능. 추가 주목: warpdotdev/warp(⭐55,093, 14주 연속 폭발 — 초대형 유지), mattpocock/skills(⭐61,223, 14주 연속 최고 성장), TauricResearch/TradingAgents(⭐69,472, +14,697/wk — 가속), ruvnet/ruflo(⭐43,874, +9,159/wk — Claude 에이전트 오케스트레이션 platform), abhigyanpatwari/GitNexus(⭐35,979, +3,497/wk), mksglu/context-mode(⭐13,143, +2,002/wk), refactoringhq/tolaria(⭐9,810, +2,086/wk), cocoindex-io/cocoindex(⭐8,433, +1,148/wk — 100차 출처 지속 성장), ComposioHQ/awesome-codex-skills(⭐6,901, +3,370/wk), AIDC-AI/Pixelle-Video(⭐11,916, +4,201/wk), hugohe3/ppt-master(⭐11,804, +2,575/wk), Alishahryar1/free-claude-code(⭐21,662, +4,510/wk), soxoj/maigret(⭐25,575, +5,645/wk). 구루 동향: anthropics — Claude 에이전트 인프라 6개 repos 동시 활발(claude-code 121K · claude-plugins-official 19K · agent-sdk-python 6.7K · agent-sdk-typescript 1.4K · code-action 7.4K · cli 329 모두 May 6 push), 인프라 정합성 강화 단계; karpathy — nanochat(52.9K) 안정기 유지; simonw — scraper 시리즈 일관 push 지속. 생태계 메타: 이번 주 전체 특징 — "외부 도메인 도구의 capability를 MCP 서버로 노출하는 패턴 확산(n8n-mcp 20K — Zapier · Airtable · Notion 등으로 확장 가능) + Anthropic 공식 에이전트 인프라 6 repos 동시 활발(SDK · plugins · CLI · GitHub Action) + 도메인 자율 리서치 에이전트 generalization(financial · trading · research)"."A MCP for Claude Desktop / Claude Code / Windsurf / Cursor to build n8n workflows. Rather than forcing AI agents to reverse-engineer node configurations, deliver comprehensive access to structured documentation."
browser-automation-mcp(브라우저 액션 노출)와 unified-model-gateway(모델 라우팅)가 "단일 도구 인터페이스"였다면, n8n-mcp는 "도메인 도구의 capability 카탈로그를 통째로 MCP화"하는 새 패러다임. 핵심 혁신 #2: 3-Tier Validation Framework — minimal/full/comprehensive 검증 단계로 deployment 전 misconfiguration 차단. LLM 추론 없이 schema 기반 결정론적 검증 → exit code로 PASS/FAIL. soft-to-hard-promotion의 외부 검증 패턴. 핵심 혁신 #3: Real-World Template Index — 2,352개 실제 사용된 워크플로우를 99.96% AI 메타데이터로 색인. 에이전트가 "이론적 가능성" 대신 "검증된 패턴" 기반 작업. 핵심 혁신 #4: Multi-Agent CLI Compatibility — Claude Code/Cursor/Windsurf/Cline/Claude Desktop 동시 호환. 단일 카탈로그가 모든 주요 CLI 에이전트의 자산. 265개 AI-capable tool variants. TypeScript 91.8%~/.claude/rules/structured-knowledge-mcp.md 신규 생성. 핵심: (A) Capability Catalog as MCP — 도메인 도구의 전체 capability를 MCP로 노출, schema lookup 기반 (B) Validation Framework — 3단계 검증으로 deployment 전 차단 (C) Real-World Templates — 검증된 패턴 색인 (D) 우리 시스템 적용 — trend-harvester/scaffold/skills 카탈로그를 MCP화하여 에이전트 자가 활용harness-engineering-paradigm.md(개념 수준)를 구체적 5계층 참조 구현으로 보강. 핵심 발견 #2: ai-boost/awesome-harness-engineering(⭐740, Python) — 하네스 엔지니어링 분야 체계적 정리. 12개 카테고리(Foundations, Design Primitives, Reference Implementations, Security/Sandbox, Evals, Templates 등)로 분야 전체를 구조화. 핵심 인사이트: "Context as First-Class Resource(토큰 예산을 제약이 아닌 최적화 변수로), Authorization as Structured Policy(자연어 승인→선언적 사전 차단), Memory as Persistent Infrastructure(세션 간 회상을 하네스 컴포넌트로)". Anthropic 2026 Agentic Coding Trends Report에서 "harness setup alone can swing benchmarks by 5+ percentage points" 인용. 추가 주목: mattpocock/skills(⭐60,729, +31K/wk — 13주 연속 최고 성장), warpdotdev/warp(⭐54,871, +27.9K/wk — 13주 연속 폭발), obra/superpowers(⭐178K+), TradingAgents(⭐69,193, +13.3K/wk), farion1231/cc-switch(⭐59,786, +6.3K/wk), ruvnet/ruflo(⭐43,380, +6.8K/wk), rtk-ai/rtk(⭐42,121, +4.5K/wk), abhigyanpatwari/GitNexus(⭐35,896, +4.7K/wk), D4Vinci/Scrapling(⭐45,067, +5.7K/wk), soxoj/maigret(⭐25,450, +4.8K/wk), iOfficeAI/AionUi(⭐23,799, +1.1K/wk), virattt/dexter(⭐23,697, +1.5K/wk), Alishahryar1/free-claude-code(⭐21,548, +5.8K/wk), anthropics/claude-plugins-official(⭐18,599), openai/skills(⭐18,321), mksglu/context-mode(⭐12,954, +1.9K/wk), AIDC-AI/Pixelle-Video(⭐11,572, +3.6K/wk), 1jehuang/jcode(⭐4,182, +3.4K/wk — 5주 연속 폭발), lakehq/sail(⭐2,384 — Rust Spark 대체), razvandimescu/numa(⭐951 — 포터블 DNS in Rust). 구루 동향: anthropics — connect-rust(320⭐ — ConnectRPC Rust 구현) 신규 push, claude-agent-sdk-python(6.7K) 연일 push, buffa(690⭐) 유지, claude-plugins-official(18.6K) 성장 지속; karpathy — nanochat(52.9K) 유지, 안정기 지속; simonw — scraper 시리즈(FEMA/PG&E/Florida/USGS/HN 등 10+ repos) 연일 push, git scraping 자동화 파이프라인 일관 실천 중. 생태계 메타: 이번 주 전체 특징 — "하네스 엔지니어링 분야 성숙(OpenHarness 참조구현 12K⭐ + awesome-list 체계화 + Anthropic 공식 'harness setup swings benchmarks by 5+pt' 인용) + 하네스 생태계 초대형 14주 지속(superpowers 17.8만 · skills 6.1만 · warp 5.5만 · cc-switch 6.0만 · rtk 4.2만)"."The LLM is the intelligence. The harness supplies hands, eyes, memory, and safety boundaries. Complete infrastructure that wraps around an LLM to make it a functional agent."
harness-engineering-paradigm.md(개념)를 구체적 참조 구현으로 보강. 핵심 혁신 #2: Headless + Dry-Run 패턴 — 터미널 UI 없이 JSON 출력(CI/CD 통합) + 모델 실행 없이 계획 미리보기(하네스 변경 사전 검증). self-improve나 trend-harvester가 rule 적용 전 dry-run으로 회귀 사전 감지 가능. 핵심 혁신 #3: Plugin Compatibility — 12개 claude-code 플러그인 호환 검증 완료, anthropics/skills 생태계와 직접 호환. 114개 unit/integration 테스트로 하네스 안정성 보장. Python, MIT~/.claude/rules/open-reference-harness-architecture.md 신규 생성. 핵심: (A) 5-Layer Architecture — Agent Loop · Tools · Skills · Multi-Agent · Safety 계층 분리 (B) Headless Execution — JSON/streaming JSON 출력으로 CI/CD 통합 (C) Dry-Run Preview — 모델 실행 없이 계획 사전 검증 (D) Plugin Compatibility — anthropics/skills 생태계 호환context-freshness(wave execution)와 fresh-context-iteration(atomic story per session)가 "세션 단위 신선도"를 다뤘다면, cocoindex는 "데이터 행 단위 인크리멘탈 신선도"를 달성하는 근본적으로 다른 접근. 추가 혁신: (A) End-to-End Lineage — 모든 target 레코드가 원본 소스 바이트까지 추적 가능, 감사 가능한 AI 파이프라인 (B) React-for-Data 패러다임 — DAG 워크플로우 정의 대신 최종 상태를 선언하면 엔진이 동기화를 자동 유지 (C) Sub-second Freshness — 소스 변경 감지 후 1초 이내 target 갱신 (D) MCP Integration — Claude Code, Cursor 등 에이전트와 직접 연동. 핵심 발견 #2: anthropics/financial-services(⭐7,917, 신규, Apache-2.0) — Anthropic 공식 도메인 특화 에이전트 플러그인 아키텍처. "Ready-to-deploy agents for investment banking, equity research, private equity, and wealth management — as Cowork plugins or Managed Agents API." — 10개 Named Agent(Pitch Agent, Market Researcher, Model Builder, KYC Screener 등) + 6개 Vertical Plugin(financial-analysis, investment-banking, equity-research, private-equity, wealth-management, fund-admin) + 11개 MCP Data Connector(Daloopa, Morningstar, S&P Global, FactSet 등). canonical-plugin-three-layer(Skills·Commands·Connectors 3계층)의 가장 완성도 높은 실전 구현. 핵심 패턴: (A) Skill Sync Pipeline — vertical plugin의 skill을 agent plugin에 자동 동기화 (sync-agent-skills.py) (B) Dual Deployment — 동일 시스템 프롬프트로 Cowork(interactive) + Managed Agents API(headless) 동시 배포 (C) Human-in-the-Loop Staging — 모든 출력은 사람 검토용 staging, 바인딩 결정 없음. 추가 주목: anthropics/claude-plugins-official(⭐18,586 — 98차 community 미러에서 공식 디렉토리로 승격), ComposioHQ/awesome-codex-skills(⭐6,753, +3,964/wk — Codex 스킬 큐레이션), openai/skills(⭐18,299 — OpenAI 공식 Codex 스킬 카탈로그), D4Vinci/Scrapling(⭐44,750, +5,650/wk — 적응형 웹 스크래핑), mattpocock/skills(⭐60,268, +31K/wk — 13주 연속 최고 성장), warpdotdev/warp(⭐54,741, +27.9K/wk — 13주 연속 폭발), obra/superpowers(⭐178,662+), TradingAgents(⭐68,847, +13.3K/wk), farion1231/cc-switch(⭐59,657, +6.3K/wk), rtk-ai/rtk(⭐41,964, +4.5K/wk), ruvnet/ruflo(⭐42,852, +6.8K/wk), abhigyanpatwari/GitNexus(⭐35,831, +4.7K/wk), mksglu/context-mode(⭐12,798, +1.9K/wk), virattt/dexter(⭐23,558, +1.5K/wk), Alishahryar1/free-claude-code(⭐21,454, +5.8K/wk), AIDC-AI/Pixelle-Video(⭐11,414, +3.6K/wk), hugohe3/ppt-master(⭐11,546, +2.6K/wk — AI PPT 생성), iamgio/quarkdown(⭐13,610, +2.6K/wk — Markdown superpowers), cocoindex-io/cocoindex(⭐8,253, +745/wk — 인크리멘탈 델타 엔진), Gentleman-Programming/engram(⭐3,200, +271/wk — 에이전트 불변 메모리 Go), 1jehuang/jcode(⭐4,120, +3.4K/wk — 4주 연속 폭발), lukilabs/craft-agents-oss(⭐5,758, +1.1K/wk — 데스크탑 에이전트 플랫폼), xingkongliang/skills-manager(⭐1,091 — 15+ 코딩 도구 스킬 관리). 구루 동향: anthropics — financial-services(7.9K) 공개(도메인 에이전트 레퍼런스 구현), claude-plugins-official(18.6K — 공식 플러그인 디렉토리 승격), claude-agent-sdk-python(6.7K) 연일 push, claude-cookbooks(42.2K) 유지; karpathy — nanochat(52.9K) 유지, 안정기 지속; simonw — scraper 시리즈(FEMA/USGS/Florida/Fediverse 등 10+ repos) 연일 push, git scraping 자동화 파이프라인 실천 중. 생태계 메타: 이번 주 전체 특징 — "인크리멘탈 델타 처리로 에이전트 데이터 파이프라인 혁신(cocoindex — Target=F(Source) + 99.9% 캐시) + Anthropic 공식 도메인 에이전트 플러그인 표준(financial-services — 10 agents + 6 verticals + 11 connectors) + 스킬 생태계 확대(Anthropic·OpenAI·Composio 3사 병렬 스킬 카탈로그) + 하네스 생태계 초대형 13주 지속(superpowers 17.9만 · skills 6.0만 · warp 5.5만 · rtk 4.2만)"."Declare Target = F(Source). Engine maintains sync automatically. Delta-only processing with hash-of-input + hash-of-code memoization — 99.9% cache hit at scale."
Target = F(Source) 선언만으로 엔진이 자동 동기화 유지. DAG 워크플로우 정의 불필요, 최종 상태만 선언하면 변경분 자동 계산. React의 상태→UI 패러다임을 데이터 엔지니어링에 적용. 핵심 혁신 #2: Dual-Hash Memoization — hash-of-input(소스 변경) + hash-of-code(변환 로직 변경) 이중 해시로 "소스가 바뀌었든 코드가 바뀌었든" 영향받는 행만 정확히 재실행. 기존 context-freshness(세션 단위 신선도)와 fresh-context-iteration(스토리 단위 분리)가 "세션/작업 단위"를 다뤘다면, cocoindex는 "데이터 행 단위"의 정밀 인크리멘탈 처리. 핵심 혁신 #3: End-to-End Lineage — 모든 target 레코드가 원본 소스 바이트까지 역추적 가능. 감사 가능한 AI 파이프라인으로 "왜 이 결과가 나왔는가"에 완전한 답변. 추가: (A) Sub-second Freshness — 소스 변경 1초 이내 target 갱신 (B) Petabyte Scale — Rust 코어 + 병렬 청킹 + zero-copy (C) MCP Integration — Claude Code, Cursor 직접 연동. Python 75% + Rust 25%, Apache-2.0~/.claude/rules/incremental-delta-processing.md 신규 생성. 핵심: (A) Declarative Delta — Target=F(Source) 선언적 동기화 (B) Dual-Hash Memoization — input hash + code hash로 정밀 재실행 범위 결정 (C) End-to-End Lineage — target→source 완전 역추적 (D) Sub-second Freshness — 변경 감지 후 1초 이내 갱신state-driven-orchestration(oh-my-codex)이 "상태 기록"에 집중했다면, gascity는 "상태 수렴을 자동화"하는 ��동적 접근. 추가 혁신: (A) Multi-Runtime Provider — tmux, subprocess, ACP, Kubernetes 동시 지원. city.toml의 runtime 필드만 변���하면 동일 토폴로지를 다른 환경에서 실행 (B) Beads-Backed Work Tracking — 분자 워크플���우 + 대기 + 메시징을 원자적 작업 단위로 관리 (C) Health Patrol �� 에이전트 상태 주기적 점검 + 자동 복구 (D) Multi-Project Packs — 프로젝트별 override + rig-scoped 오케스트레이션. 핵심 발견 #2: iOfficeAI/AionUi(⭐23,753, TypeScript/Electron) — Multi-CLI Agent Cowork Desktop Platform. "Free, local, open-source 24/7 Cowork app for Claude Code, Codex, Hermes Agent, OpenClaw and 20+ CLI agents." — 핵심 혁신: Auto-Detection + Team Mode + Unified MCP. 설치된 CLI 에이전트를 자동 감지���여 단일 인터페이스로 통합. Leader 에���전트가 태스크 분해하여 Teammate 에이전트 병렬 실행, async mailbox로 결과 공유. MCP 설정을 한 번만 ���면 모든 에이전트에 자동 전파. 추가: (A) YOLO Mode — 원클릭 전체 승인 우회, 무인 운영 (B) Scheduled Automation — cron 기반 24/7 자동 실행 (C) WebUI 원격 접근 — headless 배포 + Telegram/Lark 통합. 추가 주목: mattpocock/skills(⭐59,718, +31K/wk — 12주 연속 ��고 성장), warpdotdev/warp(⭐54,529, +27.9K/wk — 12주 연속 폭발), obra/superpowers(⭐178,662, +8.7K/wk), TradingAgents(⭐68,335, +13.3K/wk), farion1231/cc-switch(⭐59,373, +6.3K/wk), badlogic/pi-mono(⭐44,718, +3.1K/wk), ruvnet/ruflo(⭐42,198, +6.8K/wk), rtk-ai/rtk(⭐41,715, +4.5K/wk), HKUDS/nanobot(⭐41,658 — ultra-lightweight dream memory), abhigyanpatwari/GitNexus(⭐35,728, +4.7K/wk), QuantumNous/new-api(⭐30,653, +1.3K/wk), soxoj/maigret(⭐25,213, +4.8K/wk), gastownhall/beads(⭐23,172, +1.1K/wk), virattt/dexter(⭐23,393, +1.5K/wk), Alishahryar1/free-claude-code(⭐21,355, +5.8K/wk), Leonxlnx/taste-skill(⭐15,420, +1.9K/wk), mksglu/context-mode(⭐12,653, +1.9K/wk), AIDC-AI/Pixelle-Video(⭐11,136, +3.6K/wk), refactoringhq/tolaria(⭐9,643, +2.5K/wk), 1jehuang/jcode(⭐4,043, +3.4K/wk — 3주 연속 폭발), anthropics/claude-agent-sdk-python(⭐6,669 — In-Process MCP + Hooks 리뉴얼). 구루 동향: anthropics — claude-agent-sdk-python(6.7K) 연일 push(In-Process MCP Server + Hook System 핵심 업데이트), buffa(Rust protobuf 690⭐) 신규, claude-plugins-community 유지, SDK 4개 언어 + cookbooks(42.2K) 활발; karpathy — nanochat(52.9K) 유지, 안정기 지속; simonw — scraper 시리즈(FEMA shelters, USGS earthquakes, Florida outages 등 10+ repos) ���일 push, 실시간 데이터 수집 자동화 파이프라인 실천 중(GitHub Actions + git scraping 패턴). 생태계 메타: 이번 주 전체 특징 — "선언적 상태 수렴 오케스트레이���(gascity — city.toml + reconciliation + multi-runtime) + 멀티에이��트 자동 감지 및 팀 모드 조율(AionUi — auto-detect + Leader/Teammate + async mailbox + YOLO) + 하네스 생태계 ���대형 12�� 지속(superpowers 17.9만 · skills 6.0만 · warp 5.5만 · rtk 4.2만)"."Extracts the reusable infrastructure from Gas Town into a configurable toolkit with runtime providers, work routing, formulas, orders, health patrol, and a declarative city configuration."
state-driven-orchestration(oh-my-codex)이 "상태 기록"에 집중했다면, gascity는 "상태 ��렴을 자동화". 핵심 혁신 #3: Multi-Runtime Provider — tmux(개발), subprocess(테스트), ACP(원격), Kubernetes(프로덕션) 동시 지원. city.toml의 runtime 필드��� 변경하면 동일 토폴로지를 다른 환경���서 실행. Go, MIT~/.claude/rules/declarative-state-reconciliation.md 신규 생성. 핵심: (A) Declarative Topology — agent 토폴로지를 설정 파일로 선언 (B) Reconciliation Controller — desired vs actual state 자동 수렴 (C) Multi-Runtime Portability — 동��� 선언으로 tmux/subprocess/K8s 전환 (D) Health Patrol — 주기적 점검 + 자동 복구inotifywait 커널 이벤트로 처리하여 폴링 CPU 0% + API 호출 0회 달성. 태스크를 Bloom 레벨(L1~L6)로 자동 분류하여 결정론적으로 에이전트 할당. 기존 multi-agent-fleet-management(agent-of-empires, tmux 세션 관리)와 worktree-shared-state(CORAL, 파일 기반 상태 공유)를 결합하면서 "통신 방식 자체를 이벤트 드리븐으로 전환"한 패러다임 업그레이드. 추가 혁신: (A) Dynamic Model Routing — capability_tiers로 Bloom 레벨별 모델 자동 매핑, 에이전트 재시작 없이 실시간 전환 (B) Non-Blocking Delegation — Shogun이 즉시 위임 후 복귀, 최대 8개 에이전트 동시 실행 (C) Phone Integration — ntfy 기반 양방향 음성 명령 + 완료 알림 (D) Dashboard — dashboard.md에 라이브 태스크 상태, worker 할당, 스킬 후보 실시간 표시. 추가 주목: anthropics/claude-plugins-community(⭐65, 신규) — Anthropic 공식 커뮤니티 플러그인 마켓플레이스 론칭, anthropics/claude-code(⭐120,399, 연일 push), mattpocock/skills(⭐59,188, +31K/wk — 11주 연속 최고 성장), warp(⭐54,360, +27.9K/wk — 11주 연속 폭발), ruvnet/ruflo(⭐41,602, +6.8K/wk), rtk-ai/rtk(⭐41,495, +4.5K/wk), farion1231/cc-switch(⭐59,110, +6.3K/wk), TradingAgents(⭐67,697, +13.3K/wk), abhigyanpatwari/GitNexus(⭐35,636, +4.7K/wk), mksglu/context-mode(⭐12,604, +1.9K/wk), refactoringhq/tolaria(⭐9,569, +2.5K/wk), 1jehuang/jcode(⭐3,942, +3.4K/wk — 2주 연속 폭발), gastownhall/beads(⭐23,148, +1.1K/wk), activepieces/activepieces(⭐22,046 — 280+ integrations → 400 MCP 서버 자동 변환). 구루 동향: anthropics — claude-plugins-community 공개(플러그인 마켓플레이스 읽기 전용 미러), SDK 4개 언어 연일 push; karpathy — nanochat(⭐52.9K) 유지, 최근 push 4/14(안정기 지속). 생태계 메타: 이번 주 전체 특징 — "멀티에이전트 통신의 근본 효율화(shogun — zero-polling mailbox + Bloom routing, API 0회) + 플러그인 생태계 공식화(anthropics/claude-plugins-community) + 하네스 생태계 초대형 유지(superpowers · skills 5.9만 · warp 5.4만 11주 · rtk 4.1만)"."Communication flows through YAML files in a mailbox pattern rather than direct API calls, eliminating coordination costs. Zero-polling via inotifywait kernel events."
inotifywait 커널 이벤트로 처리. 폴링 루프 없이 파일 변경 즉시 감지하여 메시지 전달. CPU 0%, 지연 <1ms. 기존 worktree-shared-state(CORAL, JSON 폴링)와 multi-agent-fleet-management(agent-of-empires, tmux 관리)를 결합하면서 통신 레이어를 근본적으로 이벤트 드리븐으로 전환. 핵심 혁신 #2: Bloom Taxonomy Routing — 태스크를 Bloom 레벨(L1~L6)로 자동 분류하여 결정론적으로 에이전트 할당. L1-L3(저비용 모델 Ashigaru), L4-L5(중비용 Karo/Gunshi), L6(고비용 Opus Gunshi). deterministic-orchestrator-scheduling(bernstein)의 "No LLM in scheduling" 원칙을 교육학적 분류 체계로 구체화. 추가 혁신: (A) Dynamic Model Routing — capability_tiers YAML로 Bloom 레벨별 모델 자동 매핑, 에이전트 재시작 없이 실시간 전환 (B) Feudal Hierarchy — Shogun(사용자 인터페이스) → Karo(분배/품질) → Ashigaru(7명 병렬 실행) + Gunshi(심층 분석). 최대 8개 에이전트 동시 실행 (C) Phone Integration — ntfy 양방향 음성 명령 + SayTask(행동심리학 기반 작업 캡처) (D) Multi-CLI Support — Claude Code, Codex, Copilot, Kimi 동시 사용. Shell 75%, Kotlin 18%, Python 6%, MIT~/.claude/rules/hierarchical-agent-mailbox.md 신규 생성. 핵심: (A) Feudal Hierarchy — 4계층 역할 분리(Shogun/Karo/Ashigaru/Gunshi) (B) Zero-Polling Mailbox — inotifywait 커널 이벤트 기반 파일 통신, 폴링 CPU 0% (C) Bloom Taxonomy Routing — L1-L6 레벨 분류로 결정론적 에이전트 할당 (D) Dynamic Model Routing — 무중단 모델 전환mem_search() 같은 명시적 도구 호출 없이 에이전트가 인간처럼 "그냥 기억". 기존 shared-agent-memory(metabot, 파일 기반 + 키워드 검색)와 engram(96차, SQLite FTS5 + MCP 도구 호출)이 모두 명시적 검색 트리거를 요구한다면, jcode는 "검색 자체를 하네스 레벨에서 암묵적으로 수행"하는 패러다임 전환. 추가 핵심: (A) Self-Dev Mode — 에이전트가 자신의 소스 코드를 수정하고 자동 리빌드 + 바이너리 핫 리로드. loopy-era self-improve의 가장 직접적 구현 (B) 극한 효율 — RAM 27.8MB baseline (경쟁자 140~386MB), 첫 프레임 14ms (경쟁자 590~3,436ms), 세션당 추가 ~10.4MB (C) Cross-Harness Session Portability — Claude Code ↔ Codex ↔ OpenCode 간 세션 이식 가능 (D) Adaptive Truncation — grep 도구가 에이전트 지식 상태에 따라 컨텍스트 양 자동 조절 (E) 30+ Provider 지원 — Claude, OpenAI, GitHub Copilot, Gemini, Ollama 등. v0.11.9, 57 releases. 핵심 발견 #2: chenhg5/cc-connect(⭐7,223, +1,001/wk, Go, MIT) — AI 에이전트 → 메시징 플랫폼 게이트웨이. "Bridges local AI coding agents to messaging platforms without public IP requirements." — 로컬 AI 코딩 에이전트(Claude Code, Codex, Gemini CLI 등 10+)를 Slack, Discord, Telegram, Feishu, WeChat 등 11개 메시징 플랫폼으로 연결하는 브릿지. 핵심 혁신: No Public IP + Multi-Agent Group Chat Orchestration. 기존 telegram-notifier(단방향 알림)와 /rc 스킬(Telegram reply 라우팅)이 "완료 알림 + 간단한 reply 제어"라면, cc-connect는 "그룹 챗에서 여러 에이전트를 멘션으로 선택 호출 + slash commands(/model, /dir, /cron, /mode)로 완전 제어"하는 본격적 에이전트 운영 플랫폼. 추가: (A) OS-Level Isolation — run_as_user로 에이전트 실행 격리 (B) Multimodal I/O — 음성, 스크린샷, 파일 첨부 지원 (C) 자동 세션 로테이션 — idle 후 세션 자동 교체 (D) 웹 대시보드 — 다국어(영/중/일/스) 관리 인터페이스. v1.3.2. 추가 주목: obra/superpowers(⭐178,243, +9,102/wk — 17.8만, 역대 최대 규모 유지), mattpocock/skills(⭐58,832, +34,848/wk — 5.9만 9주 연속 최고 성장), warpdotdev/warp(⭐54,219, +27,189/wk — 5.4만 10주 연속 폭발), TauricResearch/TradingAgents(⭐67,214, +11,252/wk — 6.7만 강세), farion1231/cc-switch(⭐59,016, +6,634/wk), Z4nzu/hackingtool(⭐71,346), badlogic/pi-mono(⭐44,522, +3,699/wk), rtk-ai/rtk(⭐41,360, +4,664/wk — 4.1만), ruvnet/ruflo(⭐41,117, +4,321/wk), abhigyanpatwari/GitNexus(⭐35,569, +5,423/wk), QuantumNous/new-api(⭐30,555), zed-industries/zed(⭐81,638), soxoj/maigret(⭐24,722), gastownhall/beads(⭐23,129, +1,520/wk), virattt/dexter(⭐23,112, +1,308/wk — 금융 리서치 에이전트), Alishahryar1/free-claude-code(⭐21,170, +8,276/wk), anthropics/skills(⭐127,956), openai/skills(⭐18,230), Leonxlnx/taste-skill(⭐15,304, +1,833/wk), Tencent/WeKnora(⭐14,219), mksglu/context-mode(⭐12,488), AIDC-AI/Pixelle-Video(⭐10,812), refactoringhq/tolaria(⭐9,511, +3,337/wk — 마크다운 KB 관리 데스크톱 앱), cocoindex-io/cocoindex(⭐7,946), anthropics/claude-code-action(⭐7,409), chenhg5/cc-connect(⭐7,223 — 신규), hatchet-dev/hatchet(⭐7,067), ai-dynamo/dynamo(⭐6,732), anthropics/claude-agent-sdk-python(⭐6,663), ComposioHQ/awesome-codex-skills(⭐6,465, +4,279/wk), lukilabs/craft-agents-oss(⭐5,738), Tracer-Cloud/opensre(⭐4,429, +1,051/wk), 1jehuang/jcode(⭐3,860, +3,000/wk — 신규 폭발), CJackHwang/ds2api(⭐3,369), Q00/ouroboros(⭐3,254), Gentleman-Programming/engram(⭐3,170), junhoyeo/tokscale(⭐2,574), njbrake/agent-of-empires(⭐1,933), xingkongliang/skills-manager(⭐1,075), razvandimescu/numa(⭐931), gastownhall/gascity(⭐584). 구루 동향: anthropics — SDK 4개 언어(Python/TS/Java/Go) + cookbooks(42.2K) 연일 push, 플랫폼 확장 가속; karpathy — autoresearch(78.9K) 유지, 최근 push 없음 (안정기); simonw — actions-latest(69⭐) push, GitHub Actions 버전 관리 자동화 실천 중. 생태계 메타: 이번 주 전체 특징 — "에이전트 메모리의 암묵화(jcode — explicit search → implicit vector recall, 토큰 0 오버헤드) + 에이전트 제어의 탈터미널화(cc-connect — 11 messaging platforms, no public IP, group chat orchestration) + 하네스 생태계 초대형 유지(superpowers 17.8만 · skills 12.8만 · warp 5.4만 10주 연속 · rtk 4.1만)". 에이전트 생태계가 "프로덕션급 메모리 인프라 완성"(96차 engram/cocoindex)에서 "메모리가 투명하게 동작하고, 에이전트가 터미널을 벗어나 메시징에서 운영되는 단계"(97차 jcode/cc-connect)로 진화."Next generation coding agent harness to raise the skill ceiling — semantic vector embeddings for each turn, enabling agents to retrieve relevant memories via cosine similarity without explicit tool calls, mimicking human memory recall."
mem_search() 같은 명시적 도구 호출 없이 에이전트가 인간처럼 "그냥 기억". 기존 shared-agent-memory(metabot ⭐618, 파일 기반 + 키워드 검색)와 engram(96차, SQLite FTS5 + 18 MCP 도구 호출)이 모두 명시적 검색 트리거를 요구한다면, jcode는 "검색 자체를 하네스 레벨에서 암묵적으로 수행"하는 패러다임 전환. (A) Self-Dev Mode — 에이전트가 자신의 소스 코드를 수정하고 자동 리빌드 + 바이너리 핫 리로드. loopy-era self-improve의 가장 직접적 구현체 (B) 극한 효율 — RAM 27.8MB baseline (경쟁자 140~386MB), 첫 프레임 14ms (경쟁자 590~3,436ms), 세션당 추가 ~10.4MB (C) Cross-Harness Session Portability — Claude Code, Codex, OpenCode 간 세션 이식 가능. portable-memory-layer 패턴의 하네스 수준 구현 (D) Adaptive Truncation — grep 도구가 에이전트 지식 상태에 따라 컨텍스트 양 자동 조절. tool-output-sandboxing 패턴의 하네스 네이티브 구현 (E) Multi-Agent Swarm — 공유 리포에서 에이전트 간 자동 충돌 감지 + 알림. 30+ provider(Claude, OpenAI, Gemini, Ollama 등) 지원, v0.11.9, 57 releases~/.claude/rules/implicit-semantic-memory.md 신규 생성. 핵심: (A) Turn-Level Embedding — 매 턴 벡터화 + cosine similarity 자동 검색 (B) Implicit Retrieval — 명시적 도구 호출 없이 관련 메모리 자동 주입, 토큰 오버헤드 0 (C) Self-Dev Mode — 에이전트 자가 소스 수정 + 핫 리로드 (D) Cross-Harness Portability — 하네스 전환 시에도 메모리 보존"Bridges local AI coding agents to messaging platforms without public IP requirements — Slack, Discord, Telegram, Feishu, WeChat and more."
telegram-notifier(단방향 알림)와 /rc 스킬(Telegram reply 라우팅)이 "완료 알림 + 간단한 reply 제어"라면, cc-connect는 "그룹 챗에서 여러 에이전트를 멘션으로 선택 호출 + slash commands(/model, /dir, /cron, /mode)로 완전 제어"하는 운영 플랫폼. (A) 플랫폼 네이티브 프로토콜 — WebSocket(Feishu), Long Polling(Telegram), Socket Mode(Slack), Gateway(Discord) 등 각 플랫폼에 최적화된 연결 방식 (B) OS-Level User Isolation — run_as_user로 에이전트 실행을 OS 사용자 수준에서 격리 (C) Multimodal I/O — 음성 메시지, 스크린샷, 파일 첨부 + 스트리밍 응답 지원 (D) 웹 대시보드 — 다국어(영/중/일/스) 관리 인터페이스. v1.3.2, MIT~/.claude/rules/agent-messaging-gateway.md 신규 생성. 핵심: (A) No Public IP — 플랫폼 네이티브 프로토콜로 공인 IP 없이 연결 (B) Multi-Agent Group Chat — 그룹 챗에서 멘션으로 에이전트 선택 호출 (C) Slash Commands — 터미널 없이 에이전트 완전 제어 (D) OS-Level Isolation — run_as_user 격리shared-agent-memory(metabot ⭐618, 파일 기반 공유)가 "markdown 파일 → 키워드 검색"이라면, engram은 "SQLite FTS5 + 구조화된 메모리 타입 + 충돌 감지(mem_judge/mem_compare)"로 메모리 품질과 검색 정확도를 격상. 추가 핵심: (A) Compaction Survival — 에이전트 세션 압축(compaction) 이벤트에서도 핵심 메모리 보존. 우리 semantic-memory-compaction(beads 패턴, 완료 태스크 3줄 요약)이 "텍스트 요약으로 압축"이라면, engram은 "SQLite 레코드로 영속하여 압축 자체를 무시"하는 다른 차원의 접근 (B) Conflict Detection — `mem_judge`, `mem_compare`로 메모리 간 모순을 자동 감지. 에이전트가 "A는 true"와 "A는 false"를 동시에 기억하는 상황을 구조적으로 차단 (C) Git Sync — 압축 청크로 메모리를 Git으로 크로스머신 공유, 머지 충돌 방지, 로컬 SQLite가 source of truth (D) Agent-Agnostic — Claude Code, OpenCode, Gemini CLI, VS Code Copilot, Cursor, Windsurf 등 모든 MCP 호환 에이전트에서 동작. 74 releases, v1.15.4(2026-05). 핵심 발견 #2: cocoindex-io/cocoindex(⭐7,813, +638/wk, Python+Rust, Apache-2.0) — 증분 데이터 파이프라인 엔진. "React for data engineering" — Target = F(Source) 선언적 모델. 핵심 혁신: Delta-Only Reprocessing으로 에이전트 컨텍스트를 항상 최신 유지. 0.1% 변경 시 99.9% 스킵 → 10x 비용 절감. 기존 context-freshness(get-shit-done 49K⭐, 태스크별 격리 윈도우)가 "세션 단위로 context rot 방지"라면, cocoindex는 "데이터 파이프라인 레벨에서 소스 변경 → 타겟 자동 갱신"하는 인프라 접근. 추가 핵심: (A) Hash-Based Cache Invalidation — hash(input) + hash(code)로 캐시 유효성 자동 판정. 변환 코드가 바뀌어도 영향받는 출력만 재계산. 우리 trend-harvester의 `.seen.json` 중복 제거와 동일 원리이나 범용 프레임워크로 격상 (B) Byte-Level Lineage — 모든 출력이 원본 소스 바이트까지 역추적 가능. "explainable by default" — 규제 산업에서도 사용 가능한 투명성 (C) Sub-Second Freshness — 배치 ETL의 시간 지연 없이 에이전트 컨텍스트를 거의 실시간 갱신 (D) Rust Core + Python Bindings — 성능(Rust)과 접근성(Python 데코레이터 `@coco.fn`)을 동시 달성. 8개 소스(Git, S3, DB, 큐, API 등) → 6개 타겟(관계형DB, 벡터DB, 그래프DB, 큐 등) 지원. 추가 주목: obra/superpowers(⭐178,013, +9,102/wk — 17.8만, 역대 최대 규모 도달), warpdotdev/warp(⭐54,059, +27,189/wk — 5.4만, 9주 연속 폭발 성장), forrestchang/andrej-karpathy-skills(⭐110,047 — 11만 유지), mattpocock/skills(⭐58,390, +34,848/wk — 5.8만 8주 연속 최고 성장), TauricResearch/TradingAgents(⭐66,630 — 6.7만 안정), farion1231/cc-switch(⭐58,912 — 5.9만), Z4nzu/hackingtool(⭐71,225), badlogic/pi-mono(⭐44,411, +3,699/wk — 4.4만), rtk-ai/rtk(⭐41,149, +4,664/wk — 4.1만), ruvnet/ruflo(⭐40,492 — 4만), abhigyanpatwari/GitNexus(⭐35,477), GyulyVGC/sniffnet(⭐37,175), QuantumNous/new-api(⭐30,529), zed-industries/zed(⭐81,610, +1,752/wk — 8.2만, 에디터 강세 지속), soxoj/maigret(⭐24,493), gastownhall/beads(⭐23,106, +1,520/wk — v1.0.3 안정), virattt/dexter(⭐22,938, +1,308/wk — 금융 리서치 에이전트 신규 성장), Alishahryar1/free-claude-code(⭐21,029), anthropics/claude-plugins-official(⭐18,519 — 공식 플러그인 디렉토리 1.9만), anthropics/skills(⭐127,956 — 12.8만, 스킬 생태계 지배), openai/skills(⭐18,215), Leonxlnx/taste-skill(⭐15,211, +1,833/wk — 1.5만, 디자인 품질 강세), Tencent/WeKnora(⭐14,216 — LLM 지식 플랫폼), mksglu/context-mode(⭐12,488), AIDC-AI/Pixelle-Video(⭐10,682), refactoringhq/tolaria(⭐9,429), cocoindex-io/cocoindex(⭐7,813 — 증분 파이프라인 신규 주목), anthropics/claude-code-action(⭐7,409), everywall/ladder(⭐7,426), chenhg5/cc-connect(⭐7,205), hatchet-dev/hatchet(⭐7,064), ai-dynamo/dynamo(⭐6,732), anthropics/claude-agent-sdk-python(⭐6,663), ComposioHQ/awesome-codex-skills(⭐6,378), lukilabs/craft-agents-oss(⭐5,733), Tracer-Cloud/opensre(⭐4,411, +1,051/wk — AI SRE 에이전트 성장), 1jehuang/jcode(⭐3,740), CJackHwang/ds2api(⭐3,344), Gentleman-Programming/engram(⭐3,159 — MCP 영속 메모리 신규), Q00/ouroboros(⭐3,237), Gentleman-Programming/engram(⭐3,159), njbrake/agent-of-empires(⭐1,932), xingkongliang/skills-manager(⭐1,070), razvandimescu/numa(⭐929), gastownhall/gascity(⭐578). 구루 동향: anthropics — plugins-official(18.5K) + skills(128K) + SDK(6.7K) + cookbooks(42K), 플러그인·스킬·SDK 3축 생태계 확장 가속; karpathy — nanochat(52.9K) + autoresearch(78.8K) 유지; simonw — 데이터 스크래핑·모니터링 도구 연일 push (scrape-fema-shelters, usgs-scraper 등), 실시간 데이터 → AI 컨텍스트 파이프라인 실천 중. 생태계 메타: 이번 주 전체 특징 — "에이전트 메모리의 프로덕션 인프라화(engram — MCP-native SQLite FTS5 단일 바이너리) + 에이전트 컨텍스트의 증분 파이프라인화(cocoindex — delta-only, 10x 절감) + 하네스 생태계 초대형화(superpowers 17.8만·skills 12.8만·warp 5.4만 9주 연속)". 에이전트 생태계가 "선언적 SDK로 에이전트를 조율"(95차)한 후 "에이전트가 프로덕션급 메모리와 항상 최신 컨텍스트를 갖추는 인프라 완성"(96차)으로 진화."Agent-agnostic. Single binary. Zero dependencies. Named after the neuroscience term for the physical trace of a memory in the brain."
shared-agent-memory(metabot ⭐618, 파일 기반 공유 + 키워드 검색)가 "markdown 파일 → 수동 저장 → 파일명 기반 검색"이라면, engram은 "SQLite FTS5 + 구조화된 메모리 타입(What/Why/Where/Learned) + 충돌 감지(mem_judge/mem_compare)"로 메모리 품질과 검색 정확도를 격상. (A) Compaction Survival — 에이전트 세션 압축 이벤트에서도 핵심 메모리 보존. 우리 semantic-memory-compaction(beads 패턴, 3줄 요약)이 "텍스트를 축약"하는 접근이라면, engram은 "SQLite 레코드로 영속하여 압축 자체를 우회" (B) Conflict Detection — mem_judge, mem_compare로 메모리 간 모순을 자동 감지. "A는 true"와 "A는 false"를 동시에 기억하는 상황을 구조적으로 차단 (C) Git Sync — 압축 청크로 메모리를 Git으로 크로스머신 공유, 머지 충돌 방지, 로컬 SQLite가 source of truth (D) Agent-Agnostic — Claude Code, OpenCode, Gemini CLI, Cursor, Windsurf 등 모든 MCP 호환 에이전트에서 동작. v1.15.4, 74 releases, Claude plugin marketplace 직접 설치 지원~/.claude/rules/shared-agent-memory.md에 MCP-Native Persistent Memory 패턴 추가. 핵심: (A) 단일 바이너리 + SQLite FTS5 — 외부 의존성 0으로 에이전트 메모리 인프라 구축 (B) 18 MCP Tools — 구조화된 save/search/compare/judge 워크플로우 (C) Conflict Detection — 모순 메모리 자동 감지 (D) Compaction Survival — 세션 압축에서 메모리 보존"React for data engineering. Target = F(Source). Only the delta is reprocessed on every change — 10× cheaper at scale."
Target = F(Source) 선언적 모델로 소스 변경 시 영향받는 타겟만 자동 재계산. 0.1% 변경 시 99.9% 스킵 → 10x 비용 절감. 기존 context-freshness(get-shit-done 49K⭐, 태스크별 격리 윈도우)가 "세션 단위로 context rot 방지"하는 접근이라면, cocoindex는 "데이터 파이프라인 레벨에서 소스 변경 → 타겟 자동 갱신"하는 인프라 접근. (A) Hash-Based Cache Invalidation — hash(input) + hash(code)로 캐시 유효성 자동 판정. 변환 코드가 바뀌어도 영향받는 출력만 재계산. 우리 trend-harvester의 .seen.json SHA 해시 중복 제거와 동일 원리이나 범용 프레임워크로 격상 (B) Byte-Level Lineage — 모든 출력이 원본 소스 바이트까지 역추적 가능. "explainable by default" (C) Sub-Second Freshness — 배치 ETL 없이 에이전트 컨텍스트를 거의 실시간 갱신 (D) 8개 소스 → 6개 타겟 — Git, S3, DB, 큐, API, 파일, 이미지, 음성 → 관계형DB, 벡터DB(pgvector/LanceDB), 그래프DB(Neo4j/Kuzu), Kafka, Feature Store 등. Python 데코레이터(@coco.fn)로 변환 로직 정의~/.claude/rules/context-freshness.md에 Incremental Data Pipeline 패턴 추가. 핵심: (A) Target=F(Source) 선언적 모델 — 소스 변경 시 타겟 자동 갱신 (B) Delta-Only — 변경분만 재처리로 10x 비용 절감 (C) Hash-Based Invalidation — input+code 해시로 캐시 자동 판정 (D) Byte-Level Lineage — 출력→소스 역추적 가능city.toml로 에이전트 구성·런타임·상태 저장소를 선언적으로 정의하고, controller/supervisor 루프가 desired state → running state를 자동 reconciliation. 기존 deterministic-orchestrator-scheduling(bernstein — "No LLM calls in scheduling decisions")이 "스케줄링을 코드 함수로 구현"하라고 했다면, gascity는 "구성 자체를 TOML 선언으로 끌어올려 코드조차 불필요"한 다음 단계. 추가 핵심: (A) Multiple Runtime Providers — tmux·subprocess·exec·ACP·Kubernetes 5개 런타임을 동일 인터페이스로 추상화. 우리 multi-agent-fleet-management(agent-of-empires, tmux 세션 격리)가 tmux 한정이라면, gascity는 런타임 교체가 설정 1줄 변경 (B) Beads-Backed Work Tracking — 분산 그래프 이슈 트래커(beads)를 오케스트레이션 상태 저장소로 직접 사용. state-driven-orchestration(oh-my-codex, 파일 기반 상태)의 "파일 → Dolt DB" 격상 (C) Convergence Loops — bounded iterative refinement. 우리 convergence-loop-no-mid-question의 "수렴까지 무정지"를 SDK primitive로 내장 (D) Pack Composition + Rig-Scoped Orchestration — 여러 프로젝트(rig)에 걸친 멀티에이전트 조율. 핵심 발견 #2: iii-hq/iii(⭐15,492, Rust, Elastic License 2.0) — 서비스 조합 프레임워크. Workers·Triggers·Functions 3개 primitive로 분산 시스템의 통합 복잡도를 0으로 환원. 핵심: "Eliminates integration effort by reducing every new addition to zero" — 새 서비스를 추가할 때 기존 시스템을 수정할 필요가 없는 선언적 조합. 기존 declarative-agent-coordination(takt 913⭐, Persona/Permissions/Transition rules)가 "에이전트 간 조율을 YAML로 정의"한다면, iii는 "서비스 자체를 Worker로 등록하면 Trigger가 자동으로 Functions를 실행"하는 더 근본적인 추상화. AI 에이전트가 전체 시스템을 단일 컨텍스트 윈도우에서 이해 가능하게 설계됨. TypeScript·Python·Rust SDK + 내장 콘솔(traces, logs, real-time state). 추가 주목: warpdotdev/warp(⭐53,844, +27K/wk — 5.4만, 8주 연속 폭발 성장), forrestchang/andrej-karpathy-skills(⭐110,047, +818/wk — 11만 돌파), TauricResearch/TradingAgents(⭐65,971, +498/wk — 6.6만 안정), farion1231/cc-switch(⭐58,700, +213/wk — 5.9만), mattpocock/skills(⭐57,690, +502/wk — 5.8만), Z4nzu/hackingtool(⭐71,076), badlogic/pi-mono(⭐44,296, +3.7K/wk — 4.4만), rtk-ai/rtk(⭐40,892, +4.7K/wk — 4.1만 안정), ruvnet/ruflo(⭐39,772, +581/wk — 4만), abhigyanpatwari/GitNexus(⭐35,376), ZhuLinsen/daily_stock_analysis(⭐33,906), QuantumNous/new-api(⭐30,472), davila7/claude-code-templates(⭐26,682), soxoj/maigret(⭐24,193), gastownhall/beads(⭐23,080, v1.0.3 — Dolt 서버 모드·Unix domain socket·stealth mode 추가), cjpais/Handy(⭐21,059, Tauri+Rust — 오프라인 STT, Parakeet V3 CPU 최적화), Alishahryar1/free-claude-code(⭐20,887), Fincept-Corporation/FinceptTerminal(⭐19,606), openai/skills(⭐18,183), Wei-Shaw/sub2api(⭐17,511), vxcontrol/pentagi(⭐16,413), iii-hq/iii(⭐15,492 — Rust 서비스 조합 신규 주목), mksglu/context-mode(⭐12,416), rspack(⭐12,671), hugohe3/ppt-master(⭐11,068 — AI → 네이티브 PPTX 자동 생성), AIDC-AI/Pixelle-Video(⭐10,421), refactoringhq/tolaria(⭐9,330), chenhg5/cc-connect(⭐7,183), everywall/ladder(⭐7,424 — 셀프호스트 프록시), hatchet-dev/hatchet(⭐7,062), ai-dynamo/dynamo(⭐6,730 — Rust 분산 추론, KV-aware 라우팅·disaggregated serving), anthropics/claude-agent-sdk-python(⭐6,660), ComposioHQ/awesome-codex-skills(⭐6,294), lukilabs/craft-agents-oss(⭐5,727), Michael-A-Kuykendall/shimmy(⭐4,770), gh-aw(⭐4,403), 1jehuang/jcode(⭐3,605), tonhowtf/omniget(⭐3,487 — Svelte 온라인 강의/PDF 학습), CJackHwang/ds2api(⭐3,304), caamer20/Telegram-Drive(⭐2,182), njbrake/agent-of-empires(⭐1,928), xingkongliang/skills-manager(⭐1,061), razvandimescu/numa(⭐922), gastownhall/gascity(⭐574 — beads에서 분리된 오케스트레이션 SDK 신규). 구루 동향: anthropics — SDK·cookbooks·skills·plugins 생태계 안정 확장; gastownhall — beads(23K) v1.0.3 안정화 + gascity 오케스트레이션 SDK 분리 출시; karpathy — nanochat(52.9K) 유지; openai — skills(18K) 크로스 생태계 안정. 생태계 메타: 이번 주 전체 특징 — "오케스트레이션의 선언적 SDK화(gascity — city.toml → runtime abstraction → convergence) + 서비스 조합의 primitive화(iii — Workers/Triggers/Functions) + 하네스 생태계 3세대 안정기(warp 5.4만 8주 연속·karpathy-skills 11만 돌파·beads v1.0.3)". 에이전트 생태계가 "에이전트 경험의 벡터 메모리화"(94차)에서 "그 에이전트들을 선언적 SDK로 조율하는 인프라 계층 분리"(95차)로 진화."An orchestration-builder SDK for multi-agent systems. Declarative city configuration, multiple runtime providers (tmux, subprocess, exec, ACP, Kubernetes), convergence loops for bounded iterative refinement."
city.toml 한 파일로 에이전트 구성·런타임·상태 저장소·수렴 조건을 모두 선언하고, controller/supervisor 루프가 desired state와 running state를 자동 reconciliation. 기존 deterministic-orchestrator-scheduling(bernstein ⭐132, "No LLM calls in scheduling decisions")이 "스케줄링을 Python 함수로 구현"하는 수준이라면, gascity는 "구성 자체를 TOML 선언으로 끌어올려 코드조차 불필요"한 다음 단계. (A) Multiple Runtime Providers — tmux·subprocess·exec·ACP·Kubernetes 5개 런타임을 동일 인터페이스로 추상화. 우리 multi-agent-fleet-management(agent-of-empires ⭐1,928, tmux 세션 격리)가 tmux 한정이라면, gascity는 런타임 교체가 city.toml 한 줄 변경으로 가능. 로컬 개발(tmux) → CI(subprocess) → 프로덕션(Kubernetes) 동일 설정 파일로 전환. (B) Beads-Backed Work Tracking — Dolt DB 기반 분산 그래프 이슈 트래커를 오케스트레이션 상태 저장소로 직접 사용. state-driven-orchestration(oh-my-codex ⭐21K, .omx/ 파일 기반 상태)가 "JSON 파일 → 세션 간 상태 복구"라면, gascity는 "Dolt DB → 버전 관리된 상태 + 동시 접근 + SQL 쿼리 가능"으로 격상. (C) Convergence Loops — bounded iterative refinement를 SDK primitive로 내장. 우리 convergence-loop-no-mid-question의 "수렴까지 무정지 반복" 원칙이 SDK 레벨에서 구현됨 — 최대 반복 횟수, 수렴 조건, 타임아웃이 설정으로 선언 (D) Pack Composition + Rig-Scoped Orchestration — 여러 프로젝트(rig)에 걸친 멀티에이전트 조율. Orders 시스템으로 주기적 formula·exec dispatch~/.claude/rules/deterministic-orchestrator-scheduling.md에 Declarative Orchestration SDK 패턴 추가. 핵심: (A) city.toml 선언적 구성 — 스케줄링 함수를 넘어 오케스트레이션 전체를 설정 파일로 선언 (B) Runtime Provider Abstraction — tmux/subprocess/K8s를 동일 인터페이스로 추상화, 환경별 전환 1줄 (C) Controller/Supervisor Reconciliation — desired state → running state 자동 수렴 (D) Convergence Loop as SDK Primitive — 최대 반복·수렴 조건·타임아웃을 선언적으로 정의"Eliminates integration effort by reducing every new addition to zero. Engineers work with multiple services as if they were a single cohesive application. AI agents can understand entire systems within a single context window."
declarative-agent-coordination(takt ⭐913, Persona/Permissions/Transition rules)가 "에이전트 간 조율을 YAML로 정의"하는 에이전트 레이어 추상화라면, iii는 "서비스 인프라 자체를 에이전트 친화적으로 재구성"하는 인프라 레이어 추상화. 내장 콘솔로 workers·functions·triggers·queues·traces·logs·실시간 상태를 한 화면에서 관찰 가능 — 우리 action-log.sh + memory-bank의 분산된 관찰 도구를 통합 UI로 제공하는 패턴~/.claude/rules/declarative-agent-coordination.md에 Service Composition Primitives 패턴 추가. 핵심: (A) Workers/Triggers/Functions 3-primitive 모델 — 새 서비스 추가 시 기존 시스템 수정 0 (B) AI 에이전트가 전체 시스템을 단일 컨텍스트 윈도우에서 이해 가능한 추상화 수준 (C) 통합 관찰 콘솔 — traces·logs·real-time state를 단일 UI로 (D) 언어 무관 SDK — TypeScript·Python·Rust 동시 지원semantic-memory-compaction(완료 태스크 3줄 요약)과 shared-agent-memory(파일 기반 공유)가 "구조화된 텍스트 저장+검색"이라면, jcode는 "비구조화 대화를 벡터 공간에서 연속적 유사도로 연결"하는 다른 차원의 접근. 추가 핵심: (A) Ambient Mode Memory Consolidation — 사이드 에이전트가 주기적으로 메모리를 자동 정리·통합, 메인 에이전트 중단 없이 배경 최적화 (B) Multi-Agent Swarm + File-Change Notification — 에이전트가 읽은 파일이 다른 에이전트에 의해 수정되면 자동 알림, 충돌 해결 자동화 (C) Self-Dev Mode — 에이전트가 자신의 소스 코드를 수정·빌드·테스트·리로드. loopy-era의 "자가개선 루프"를 하네스 레벨에서 구현 (D) 30+ 프로바이더 지원 + OAuth 자동화 + headless 스크립팅. 핵심 발견 #2: mattpocock/skills(⭐57,188, +34,848/wk, Shell, 7주 연속 최고 성장) — Shared Domain Language (CONTEXT.md) 패턴. Matt Pocock의 Claude Code 실전 스킬 15+ 세트에서 가장 주목할 패턴은 기술 스킬이 아니라 CONTEXT.md — 프로젝트별 도메인 어휘 사전. 핵심: "1 word where 20 will do" — 프로젝트 고유 용어를 문서화하여 에이전트가 20단어 설명 대신 1단어로 소통. 토큰 절약 + 코드 일관성 동시 달성. 기존 token-brevity-pattern(caveman 6.6K⭐, 출력 65% 절감)이 "에이전트 출력 압축"이라면, CONTEXT.md는 "입력 컨텍스트 자체를 도메인 언어로 압축" — 직교하는 두 축의 토큰 최적화. 추가 핵심: (A) Alignment Before Building — `/grill-me` + `/grill-with-docs` 스킬로 구현 전 가정을 명시적으로 표면화, 재작업 방지. 우리 quantified-ambiguity-gate의 "시작 전 모호성 수치 측정"과 동일 원리이나 대화형(인터뷰) 접근 (B) Vertical Slice Decomposition — 수평(모든 모델→모든 API) 대신 수직(완전한 기능 단위)으로 작업 분해. 기존 context-freshness의 "Vertical slice parallelism"과 동일 패턴이 57K 실전으로 재검증 (C) ADR(Architecture Decision Records) — 설계 결정을 `docs/adr/`에 기록하여 에이전트가 "왜 이렇게 했는지" 추론 없이 참조. 우리 rules/ 파일의 "근거" 섹션과 동일 패턴. 추가 주목: warpdotdev/warp(⭐53,620, +27,189/wk — 5.4만, 이번 주 최대 폭발), TauricResearch/TradingAgents(⭐65,473, +11,252/wk — 6.5만, 멀티에이전트 트레이딩), forrestchang/andrej-karpathy-skills(⭐109,229, +18,662/wk — 10.9만), mattpocock/skills(⭐57,188, +34,848/wk — 5.7만 7주 연속 최고 성장), farion1231/cc-switch(⭐58,487, +6,634/wk — 5.8만, 멀티 AI 도구 통합 관리), badlogic/pi-mono(⭐44,209, +3,699/wk — 4.4만, 통합 LLM API 툴킷), rtk-ai/rtk(⭐40,735, +4,664/wk — 4.1만 안정), ruvnet/ruflo(⭐39,191, +4,321/wk — 3.9만, A* 실패 재탐색 + 신뢰 점수), abhigyanpatwari/GitNexus(⭐35,249, +5,423/wk), Z4nzu/hackingtool(⭐70,965), soxoj/maigret(⭐23,905, +3,729/wk), Alishahryar1/free-claude-code(⭐20,752, +8,276/wk), mksglu/context-mode(⭐12,341, +1,935/wk — 1.2만 14플랫폼), AIDC-AI/Pixelle-Video(⭐10,096, +2,659/wk — AI 자동 숏영상), refactoringhq/tolaria(⭐9,256, +3,337/wk — 9.3K vault 앱 성장), ComposioHQ/awesome-codex-skills(⭐6,195, +4,279/wk), lukilabs/craft-agents-oss(⭐5,724, +1,198/wk — 에이전트 네이티브 데스크탑), Michael-A-Kuykendall/shimmy(⭐4,764 — Rust 추론 서버), 1jehuang/jcode(⭐3,479, +3,000/wk — Rust 코딩 하네스 신규 폭발), CJackHwang/ds2api(⭐3,254 — Go 프로토콜 어댑터), caamer20/Telegram-Drive(⭐2,172, +1,305/wk — Tauri+Rust 텔레그램 스토리지), njbrake/agent-of-empires(⭐1,919), xingkongliang/skills-manager(⭐1,054 — AI 스킬 관리 데스크탑), razvandimescu/numa(⭐914 — Rust DNS 리졸버), openai/skills(⭐603/wk — Codex 스킬 카탈로그), davila7/claude-code-templates(⭐1,157/wk). 구루 동향: anthropics — SDK·skills·plugins 생태계 안정 확장 중; karpathy — nanochat(52.9K) 활발; openai — skills 크로스 생태계 유지; mattpocock — 57K로 개인 구루 최대 repo 등극. 생태계 메타: 이번 주 전체 특징 — "에이전트 메모리의 벡터화(jcode — 대화→벡터→자동 회상) + 도메인 언어 결정화(CONTEXT.md — 1word=20words) + 하네스 생태계 3세대 돌입(warp 5.4만 폭발 — 에이전트 네이티브 터미널)". 에이전트 생태계가 "하네스를 SDK로 프로그래밍하는 시대"(93차)에서 "에이전트가 경험을 벡터로 축적하고 프로젝트 언어를 공유하는 메모리·언어 효율화 시대"로 진화."A human-like memory system which allows the agent to automatically recall relevant information to the conversation without actively calling memory tools."
semantic-memory-compaction(beads 20K⭐, 완료 태스크 3줄 요약)은 "구조화된 텍스트의 크기 축소"이고, shared-agent-memory(metabot, 파일 기반 키워드 검색)는 "명시적 저장→검색 2단계"인 반면, jcode는 "비구조화 대화를 벡터 공간에서 연속 유사도로 자동 연결" — 저장·검색이 분리되지 않고 대화 자체가 메모리로 작동. 핵심 패턴: (A) Ambient Mode Memory Consolidation — 사이드 에이전트가 주기적으로 메모리를 백그라운드에서 자동 정리·통합. 메인 에이전트 중단 없이 메모리 품질 유지. 우리 self-improve의 "fix 커밋에서 scaffold rule 추출"과 원리 동일하나 실시간·자동·벡터 기반 (B) Multi-Agent Swarm + File-Change Notification — 에이전트 A가 읽은 파일을 에이전트 B가 수정하면 A에게 자동 알림. 기존 worktree-shared-state(CORAL, 파일 기반 조율)의 "상태 파일 폴링" 대신 이벤트 드리븐 알림으로 실시간성 확보. 에이전트 간 직접 메시징(DM/브로드캐스트/repo-specific) 지원 (C) Self-Dev Mode — 에이전트가 자신의 소스를 수정→빌드→테스트→리로드하는 자가 개발 모드. loopy-era의 recursive-self-improvement-loop(Competitor→Analyst→Coach→Curator)를 하네스 코드 레벨에서 실행. 세션 간 지속 (D) 30+ LLM 프로바이더 + OAuth 자동화 + headless 스크립팅 + 네이티브 Firefox 브라우저 자동화. 단일 하네스에서 프로바이더 교체가 설정 변경 없이 가능~/.claude/rules/semantic-memory-compaction.md에 Vector-Based Auto-Recall 패턴 추가. 핵심: (A) 대화 턴을 벡터로 임베딩 → cosine similarity 기반 자동 회상 — 명시적 memory 도구 호출 불필요 (B) Ambient Mode — 백그라운드 사이드 에이전트가 메모리 자동 정리·통합 (C) File-Change Notification — 파일 수정 시 관련 에이전트에 이벤트 드리븐 알림 (D) 성능 벤치마크: 14ms 부트, 27.8MB RAM, 10세션 260MB"No one knows exactly what they want. A project CONTEXT.md documents shared domain language, enabling agents to use 1 word where 20 will do."
token-brevity-pattern(caveman 6.6K⭐)이 "에이전트 출력 토큰 65% 절감"(symbol substitution, filler 제거)이라면, CONTEXT.md는 "입력 컨텍스트 자체를 도메인 어휘로 압축" — 출력 압축과 입력 압축이 직교하는 두 축. 둘 다 적용하면 전체 토큰 80%+ 절감 가능. 핵심 패턴: (A) Alignment Before Building — `/grill-me` 스킬로 구현 전 모든 가정을 인터뷰 형식으로 표면화. "Decision tree interview until full resolution." 기존 quantified-ambiguity-gate(ouroboros, 수치 기반 모호성 측정)가 "점수로 판단"한다면, grill-me는 "대화로 해소" — 상호보완적 접근 (B) Vertical Slice Decomposition — 복잡한 작업을 수평(모든 API→모든 UI)이 아닌 수직(완전한 기능 단위)으로 분해. 기존 context-freshness의 vertical slice parallelism과 동일 패턴이 57K 실전으로 재검증. 독립 검증 가능한 조각으로 분해하여 incremental verification 가능 (C) ADR(Architecture Decision Records) → docs/adr/ — 설계 결정의 "왜"를 기록하여 에이전트가 추론 없이 참조. 우리 rules/ 파일의 "근거" 섹션과 동일 원리이나 별도 디렉토리로 체계화 (D) Skills as Composable Units — 각 스킬이 모델 무관하게 조합 가능, 작고 hackable한 단위. "process ownership" 프레임워크 대신 실용적 마크다운 조각~/.claude/rules/token-brevity-pattern.md에 Shared Domain Language (CONTEXT.md) 패턴 추가. 핵심: (A) 프로젝트별 CONTEXT.md로 도메인 어휘 문서화 — "1 word where 20 will do" (B) 입력 컨텍스트 압축(CONTEXT.md)과 출력 토큰 압축(caveman)은 직교 — 둘 다 적용 시 80%+ 절감 (C) Alignment Before Building — 구현 전 가정 인터뷰로 재작업 방지 (D) ADR 디렉토리 패턴 — 설계 결정의 근거를 별도 문서로 체계화role-based-agent-permissions(역할별 도구 화이트리스트)와 per-turn-tool-adaptation(턴별 동적 도구 선택) 패턴이 SDK 레벨에서 공식 지원됨을 확인. 핵심 발견 #2: nyldn/claude-octopus(⭐3,213, Shell, 146 tests) — 8개 AI 모델 병렬 블라인드 스팟 탐지 플러그인. 핵심 패턴: Structured Disagreement — 동일 태스크를 Claude·Codex·Gemini·Copilot·Qwen·Ollama·Perplexity·OpenRouter 8개 모델이 독립 분석 → 불일치 지점을 75% 합의 임계값으로 자동 탐지 → 인간 검토 트리거. 4단계 워크플로우(Discover→Define→Develop→Deliver)에서 각 모델이 전문 역할 수행(Codex=엣지케이스, Gemini=대안 탐색, Perplexity=의존성 조사, Claude=오케스트레이션). 우리 cross-model-adversarial-review(Claude+GPT 이중 리뷰)가 2개 모델의 "서로 다른 관점"이라면, Octopus는 8개 모델의 "구조적 불일치"를 수치(합의율)로 측정하여 HARD 게이트 전환 가능. 기존 llm-council-pattern(Karpathy 제안, 익명 리뷰 + Chairman 합의)과 동일 원리이나 실전 구현 + 146 passing tests로 검증됨. 추가 주목: mksglu/context-mode(⭐12,265, +1,948/wk — 14개 플랫폼 지원으로 확장, PreCompact/SessionStart 세션 복구 메커니즘 추가, 315KB→5.4KB 세션 압축), warpdotdev/warp(⭐53,485, +26K/wk — 5.3만, 7주 연속 폭발 성장), mattpocock/skills(⭐56,840, +35K/wk — 5.7만, 6주 연속 최고 성장), forrestchang/andrej-karpathy-skills(⭐108,595, +20K/wk — 10.9만), obra/superpowers(⭐177,302, +9K/wk — 17.7만 1위 유지), Z4nzu/hackingtool(⭐70,842), TauricResearch/TradingAgents(⭐65,014, +8.5K/wk), farion1231/cc-switch(⭐58,416, +6.6K/wk), gsd-build/get-shit-done(⭐59,663), badlogic/pi-mono(⭐44,150, +3.9K/wk), anthropics/claude-cookbooks(⭐42,097), HKUDS/nanobot(⭐41,574), rtk-ai/rtk(⭐40,599, +5K/wk — 4만 안정), ruvnet/ruflo(⭐38,684), abhigyanpatwari/GitNexus(⭐35,162, +5.5K/wk), ZhuLinsen/daily_stock_analysis(⭐33,849), QuantumNous/new-api(⭐30,396), CLIProxyAPI(⭐30,448), anthropics/skills(⭐127,660), anthropics/claude-plugins-official(⭐18,471), anthropics/claude-agent-sdk-python(⭐6,659 — 공식 SDK 신규 주목), gastownhall/beads(⭐23,049), soxoj/maigret(⭐23,675), Alishahryar1/free-claude-code(⭐20,647, +9.4K/wk), Fincept-Corporation/FinceptTerminal(⭐19,486, +4.4K/wk), Panniantong/Agent-Reach(⭐18,686), jackwener/OpenCLI(⭐18,583), Wei-Shaw/sub2api(⭐17,393), vxcontrol/pentagi(⭐16,396), Leonxlnx/taste-skill(⭐14,908), Tencent/WeKnora(⭐14,193), mksglu/context-mode(⭐12,265 — 14 플랫폼 확장), anthropics/knowledge-work-plugins(⭐11,772), superset-sh/superset(⭐10,278), mcp-use/mcp-use(⭐9,879), refactoringhq/tolaria(⭐9,181), AIDC-AI/Pixelle-Video(⭐9,846), chenhg5/cc-connect(⭐7,146), hatchet-dev/hatchet(⭐7,059), anthropics/claude-code-action(⭐7,400), ComposioHQ/awesome-codex-skills(⭐6,120), lukilabs/craft-agents-oss(⭐5,717), max-sixty/worktrunk(⭐4,887), OpenCoworkAI/open-codesign(⭐4,356), Tracer-Cloud/opensre(⭐4,349), gh-aw(⭐4,403), aaddrick/claude-desktop-debian(⭐3,984), CJackHwang/ds2api(⭐3,245), nyldn/claude-octopus(⭐3,213 — 8-모델 합의 게이트 신규), stablyai/orca(⭐1,918), njbrake/agent-of-empires(⭐1,917). 구루 동향: anthropics — claude-agent-sdk-python(6.7K)·claude-cookbooks(42K)·skills(128K)·plugins-official(18K) 전방위 SDK/플러그인 생태계 확장 중; karpathy — nanochat(52.9K) 최근 push, autoresearch(78.7K) 안정; openai — skills(18K) 크로스 생태계 유지. 생태계 메타: 이번 주 전체 특징 — "에이전트 구성의 코드화(Agent SDK — 프롬프트→코드) + 품질 게이트의 다모델화(Octopus — 2모델→8모델 합의) + 하네스 생태계의 폭발적 확장(skills 5.7만·superpowers 17.7만·karpathy-skills 10.9만)". 에이전트 생태계가 "하네스를 분석하는 시대"(92차)에서 "하네스를 SDK로 프로그래밍하고 다중 모델로 검증하는 시대"로 진화."Every AI model has blind spots. Put up to 8 AI models on every coding task — structured disagreement surfaces vulnerabilities that single-model approaches miss."
cross-model-adversarial-review(Claude+GPT 2모델)와 llm-council-pattern(Karpathy 제안, 익명 리뷰+Chairman 합의)의 실전 확장판. 핵심 패턴: (A) 4단계 Design Methodology — Discover(병렬 리서치) → Define(합의 기반 요구사항) → Develop(품질 게이트 구현) → Deliver(적대적 리뷰+채점). 단계별로 모델 활용 방식이 다름(병렬→순차→적대적) (B) 역할 특화 — Codex=엣지케이스 사냥, Gemini=대안 탐색, Perplexity=의존성 조사, Claude=오케스트레이션+합성. 우리 per-turn-tool-adaptation의 "도구 역할 분리"를 "모델 역할 분리"로 확장 (C) Zero Vendor Lock-in — Claude만 필수, 나머지 모델은 감지 시 자동 활성화. 146 passing tests로 검증. 40+ 전문 커맨드, 32 역할별 페르소나 (D) 75% 합의 임계값 — 숫자 기반 HARD 게이트. 우리 quantified-ambiguity-gate의 "수치 임계값으로 LLM 판단 대체" 원칙과 정확히 일치~/.claude/rules/cross-model-adversarial-review.md에 Multi-Model Consensus Gate 패턴 추가. 핵심: (A) 2모델(Claude+GPT) 리뷰를 넘어 N-모델 합의율(%) 기반 HARD 게이트 개념 도입 (B) Structured Disagreement — 불일치 자체가 품질 신호, 합의 미달 시 자동 에스컬레이션 (C) 역할 특화 모델 할당 — 범용 리뷰 대신 모델별 전문 관점 할당 (D) 75% 합의 임계값 수치 게이트 — quantified-ambiguity-gate와 동일 원리"Build AI agents powered by Claude with in-process MCP servers — no subprocess overhead. Hooks intercept and control agent behavior deterministically at PreToolUse/PostToolUse."
role-based-agent-permissions(역할별 도구 제한)와 per-turn-tool-adaptation(턴별 도구 선택)이 SDK 레벨에서 공식 지원됨을 확인. HookMatcher로 특정 도구만 선택적 가로채기 (C) 명시적 도구 화이트리스트 — allowed_tools/disallowed_tools + permission_mode(acceptEdits 등)로 에이전트 권한을 코드로 명시. 92차 Dive-into-Claude-Code의 "Deny-First Security Model"을 외부 개발자가 직접 프로그래밍 가능 (D) 타입 안전 메시지 구조 — AssistantMessage/ToolUseBlock/ToolResultBlock 등 구조화된 타입으로 에이전트 출력 파싱. JSON 자유형식 대신 정적 타입 계약 (E) 비동기 스트리밍 — async for로 실시간 메시지 소비, ClaudeSDKClient로 상태 유지 대화. 에이전트 빌더에게 Claude Code CLI의 전체 도구셋(Read/Write/Edit/Bash) 접근 권한 부여~/.claude/rules/role-based-agent-permissions.md에 공식 SDK 검증 근거 추가. 핵심: (A) In-Process MCP — subprocess 오버헤드 0으로 도구 통합, 단일 프로세스 배포 (B) Hook 기반 결정론적 제어가 Anthropic 공식 API로 지원됨 확인 — 우리 PreToolUse/PostToolUse 훅 아키텍처가 SDK와 1:1 대응 (C) allowed_tools/disallowed_tools = 도구 화이트리스트의 공식 표준 구현harness-engineering-paradigm 규칙을 수치로 최초 증명한 사례. 5가지 핵심 가치(인간 결정 권한, 안전, 신뢰 실행, 능력 증폭, 맥락 적응)가 13가지 설계 원칙을 거쳐 구현으로 추적 가능. 핵심 패턴: (A) 5-Layer Graduated Context Compaction — Budget Reduction → Snip → Microcompact → Context Collapse → Auto-Compact. 200K~1M 토큰 윈도우를 점진적으로 관리하는 5단계 압축. 기존 context-compression-pipeline의 "다단계 파이프라인" 패턴을 Claude Code 내부 구현으로 검증 (B) 4 Graduated Extensibility at Different Context Costs — hooks(0 토큰, 27개 이벤트) → skills(요청 시 로딩) → plugins(네임스페이스 격리) → MCP(외부 프로세스). 확장 메커니즘마다 토큰 비용이 다르며, hook이 가장 효율적(제로 컨텍스트 비용). 우리 시스템의 hook-first 전략을 정당화 (C) Deny-First Security Model — 넓은 거부가 좁은 허용을 오버라이드. plan → default → auto → dontAsk → bypassPermissions의 점진적 신뢰 스펙트럼 (D) Sidechain Transcripts — 서브에이전트 요약이 컨텍스트 폭발을 방지. 전체 대화를 부모에 올리지 않고 요약만 전달하여 토큰 절약 (E) Defense in Depth with Shared Failure Modes — 7개 독립 안전 레이어가 존재하지만, 제약 공유 시 동시 실패 가능(50+ 서브커맨드 시 이벤트루프 기아). 핵심 발견 #2: refactoringhq/tolaria(⭐9,091, TypeScript+Rust, Tauri) — Files-First, Git-Native, AI-First 마크다운 지식 금고 데스크탑 앱. 핵심 패턴: (A) Every Vault = Git Repository — 모든 knowledge base가 git repo로 자동 버전 관리. 변경 이력 완전 추적, 브랜치 기반 실험 가능. 우리 portable-memory-layer의 "단일 파일 패키징" 보다 "전체 디렉토리 git-native" 접근이 더 실용적일 수 있음을 시사 (B) Types as Navigation Aids, Not Enforcement Schemas — 타입을 강제 검증이 아닌 탐색 보조로 활용. 필수 필드나 유효성 검사 없이 구조화. 에이전트가 vault를 소비할 때 스키마 위반으로 크래시하지 않는 설계 (C) AI-First but Tool-Agnostic — AGENTS.md 설정으로 Claude Code, Codex, Gemini CLI 등 어떤 에이전트든 vault 접근 가능. 특정 도구에 종속되지 않는 보편적 구조 (D) Zero Cloud Dependency — 완전 오프라인, 구독 없음, 데이터 소유권 100% 사용자. 우리 memory-bank의 "서버리스 로컬 검색" 원칙과 정확히 일치. 추가 주목: warpdotdev/warp(⭐53,302, +24K/wk — 5.3만 6주 연속 성장), mattpocock/skills(⭐56,307, +35K/wk — 5.6만 5주 연속 최고 성장 유지), forrestchang/andrej-karpathy-skills(⭐107,926, +20K/wk — 10.8만), TauricResearch/TradingAgents(⭐64,435, +8.5K/wk), rtk-ai/rtk(⭐40,441, +5K/wk — 4만 안정 성장), abhigyanpatwari/GitNexus(⭐35,068, +5.5K/wk), badlogic/pi-mono(⭐44,078), farion1231/cc-switch(⭐58,326), Z4nzu/hackingtool(⭐70,705), Alishahryar1/free-claude-code(⭐20,540, +9.4K/wk), soxoj/maigret(⭐23,421), refactoringhq/tolaria(⭐9,091 — 신규 진입), ComposioHQ/awesome-codex-skills(⭐6,048, +4.3K/wk — 신규 진입), lukilabs/craft-agents-oss(⭐5,715), Michael-A-Kuykendall/shimmy(⭐4,755 — Rust 추론 서버 신규), Tracer-Cloud/opensre(⭐4,318, +1.2K/wk), CJackHwang/ds2api(⭐3,229 — 프로토콜 변환 신규), 1jehuang/jcode(⭐3,220 — Rust 코딩 에이전트 하네스 신규). 구루 동향: anthropics — skills·plugins-official 활발 유지; openai — codex-plugin-cc·skills 크로스 생태계 진입 지속; karpathy — autoresearch 78K 안정. 생태계 메타: 이번 주 전체 특징 — "하네스 아키텍처의 학술적 결정화(98.4% 인프라 = the agent) + 마크다운 지식 금고의 데스크탑 앱 보급(tolaria 9K) + Codex 스킬 생태계 폭발적 성장(awesome-codex-skills +4.3K/wk)". 에이전트 생태계가 "Fleet이 작업하는 IDE 시대"(91차)에서 "하네스 자체가 왜 동작하는지 수치로 증명하는 시대 + 에이전트가 소비하는 지식을 표준화하는 시대"로 진화."98.4% of Claude Code's codebase is deterministic infrastructure — permission gates, context management, tool routing, recovery logic. Only 1.6% comprises AI decision logic."
harness-engineering-paradigm 규칙이 선언적 원칙이었다면, 이 분석은 수치적 증거를 제공. 핵심 패턴: (A) 5-Layer Graduated Context Compaction — Budget Reduction → Snip → Microcompact → Context Collapse → Auto-Compact. 기존 context-compression-pipeline의 "다단계 파이프라인" 개념을 Claude Code 내부에서 실제로 5단계로 구현하고 있음을 확인. 우리 시스템의 4-stage 파이프라인(StructuralCollapse → SemanticDedup → Ionizer → DiffCrunch)과 목적은 동일하나 적용 시점이 다름(외부 전처리 vs 내부 런타임) (B) 4 Graduated Extensibility — hooks(0 토큰, 27개 이벤트) → skills(요청 시) → plugins(네임스페이스) → MCP(외부 프로세스). hook이 가장 토큰 효율적이라는 것을 내부 구조로 증명. 우리 시스템의 hook-first 전략 정당화 (C) Sidechain Transcripts — 서브에이전트 전체 대화를 부모에 올리지 않고 요약만 전달. semantic-memory-compaction과 동일 원리의 내부 구현 (D) Deny-First Security — 넓은 거부가 좁은 허용을 오버라이드하는 점진적 신뢰 모델. 우리 rules/ 구조의 "금지 사항"이 항상 "허용 패턴"보다 우선하는 원칙과 일치 (E) 7 Safety Layers with Shared Failure Modes — 독립 레이어도 제약 공유 시 동시 실패 가능. 우리 시스템의 다중 hook이 동일 리소스(git, file system)에 의존할 때 cascading failure 가능성 경고~/.claude/rules/harness-engineering-paradigm.md에 수치적 증거 및 구체 패턴 추가. 핵심: (A) 98.4/1.6 Infrastructure Split — 에이전트 품질은 모델이 아닌 하네스가 결정 (B) 5-Layer Graduated Compaction 패턴 명시 (C) 4 Graduated Extensibility — hook(0 토큰) > skill > plugin > MCP 비용 계층 (D) Sidechain Transcripts — 서브에이전트 요약 전달로 컨텍스트 폭발 방지 (E) Deny-First Security — 금지가 허용보다 항상 우선"Your notes are plain markdown files. They're portable, work with any editor, and require no export step. Every vault is a git repository with full history. A vault of files works very well with AI agents."
portable-memory-layer(단일 파일 메모리) + memory-bank(SQLite FTS5) + rules/(plain markdown) 접근을 데스크탑 앱 제품으로 검증한 사례. 핵심 패턴: (A) Every Vault = Git Repo — 지식 베이스 전체가 git repo. 변경 이력 완전 추적, 브랜치 기반 실험, 충돌 해결 git-native. 우리 ~/.claude/ 구조가 이미 이 패턴을 따르고 있음을 확인 (B) Types as Navigation Aids — 타입을 강제 스키마가 아닌 탐색 보조로 활용. 필수 필드 없음, 유효성 검사 없음. 에이전트가 vault 소비 시 스키마 위반으로 실패하지 않음. 우리 rules/ 파일이 "엄격한 JSON Schema"가 아닌 "자유 형식 markdown"인 이유의 이론적 근거 제공 (C) AI-First but Tool-Agnostic — AGENTS.md로 Claude Code/Codex/Gemini CLI 등 어떤 에이전트든 접근 가능. 도구 종속 없는 보편적 구조. 우리 agent-manifest-pattern의 "manifest로 에이전트 설정" 접근과 일맥상통 (D) Zero Cloud, Zero Subscription — 완전 오프라인, 데이터 소유권 100%. 우리 portable-memory-layer의 "서버리스" 원칙과 동일~/.claude/rules/portable-memory-layer.md에 Git-Native AI Vault 패턴 크로스 검증 추가. 핵심: (A) "Every vault = git repo" — 지식 베이스 전체를 git으로 관리하는 것이 9K 스타 제품으로 검증됨 (B) "Types as navigation aids" — 에이전트 소비용 지식은 강제 스키마 대신 자유 구조가 적합 (C) AGENTS.md 표준 — 에이전트 접근 설정을 vault 내부에 선언적으로 포함multi-agent-fleet-management(agent-of-empires, TUI 대시보드)가 "에이전트를 모니터링"하는 도구라면, superset은 "에이전트가 실제 작업하는 통합 개발 환경". 핵심 패턴: (A) Worktree Isolation per Task — 각 에이전트 작업에 독립 git worktree + 브랜치 자동 생성, 동일 코드베이스에서 10+ 에이전트가 파일 충돌 없이 동시 구현. 기존 worktree-parallel-agents의 "수동 worktree 관리"를 "자동 생성·모니터링·정리"로 격상 (B) Integrated Diff View — 각 에이전트의 변경사항을 내장 diff 뷰어로 즉시 확인, 외부 에디터 없이 승인/거부/수정 가능. code-reviewer + user-proxy QA 워크플로우를 "diff 기반 즉시 판정"으로 가속 (C) One-Click Handoff — 에이전트 작업 결과를 VS Code·JetBrains 등 외부 에디터로 즉시 전환, 에이전트 작업과 사람 수정의 경계를 매끄럽게 연결 (D) Universal Agent Compatibility — CLI 기반이면 모든 에이전트 지원, 에이전트별 설정 파일(.superset/config.json)로 setup/teardown 자동화 (E) Centralized Monitoring — 전체 에이전트의 진행 상태·에러·대기 상태를 단일 화면에서 파악, "intervention needed" 알림으로 사용자 주의 최소화. 핵심 발견 #2: conorluddy/ios-simulator-skill(⭐913, Python) — Progressive Error Disclosure 패턴의 실전 증명. 22개 Python 스크립트로 Claude Code가 iOS 시뮬레이터를 직접 빌드·실행·인터랙션하되, 핵심은 도구 출력을 "단일 행 요약 + 결과 ID → 요청 시 상세"로 구조화하여 토큰 97.5% 절감. 기존 tool-output-sandboxing(context-mode, 도구 출력 격리 + intent-driven filtering)이 "raw 출력을 샌드박스에 가두고 관련 섹션만 반환"하는 패턴이라면, ios-simulator-skill은 "도구 자체가 요약 → 상세의 2단계 출력을 네이티브로 생산"하여 샌드박스 없이도 동일 효과 달성. 핵심 패턴: (A) Progressive Error Disclosure — xcodebuild 결과를 단일 행 요약(BUILD_FAILED|result_id:abc123)으로 반환, 에이전트가 필요 시 get_details(abc123)로 에러·경고·로그를 선택적 드릴다운. 200+ 행 → 3~5행으로 97.5% 토큰 절감 (B) Semantic Navigation via Accessibility APIs — 픽셀 좌표 대신 iOS 접근성 API로 요소를 의미적으로 탐색. UI 레이아웃 변경에도 안정적 동작 + 구조화 데이터 반환으로 토큰 효율 극대화 (C) Screenshot Optimization — 자동 리사이즈·압축으로 시각 분석 토큰 최소화, 전체 스크린샷 대신 관심 영역만 캡처 가능 (D) Device Lifecycle Management — 시뮬레이터 부트·셧다운·초기화·권한 관리를 에이전트가 직접 수행, 수동 Xcode 조작 제거 (E) 13개 서비스 권한 자동 관리 — 카메라·위치·알림 등 13종 권한을 코드로 설정, 테스트 시나리오별 권한 조합 자동화. 이 패턴은 iOS 한정이 아니라 모든 도구 출력의 토큰 효율화에 범용 적용 가능 — bug-fixer의 빌드 에러, qa-cycle의 테스트 결과, web-qa-tester의 DOM 스냅샷 모두 "요약 → 상세" 2단계로 전환 가능. 추가 주목: Panniantong/Agent-Reach(⭐18,657 — 에이전트에 인터넷 전체를 제로 비용으로 제공, 18+ 플랫폼 CLI 스크래핑, 쿠키 인증 기반 API 비용 0), getpaseo/paseo(⭐5,237 — WebSocket 데몬 + QR 코드로 모바일/데스크탑/CLI에서 원격 에이전트 오케스트레이션), decolua/9router(⭐3,608 — 40+ AI 프로바이더 + 100+ 모델 통합 라우터), shareAI-lab/learn-claude-code(⭐57,870 — nano claude code agent harness 교육용, 5.8만 대형 성장), gastownhall/gascity(⭐568 — Go 기반 멀티에이전트 오케스트레이션 SDK), vm0-ai/vm0(⭐1,072 — AI 팀메이트 에이전트). 주요 기존 repo 업데이트: obra/superpowers(⭐176,854, +9K/wk — 17.7만 1위 유지), NousResearch/hermes-agent(⭐130,266 — 13만 안정), forrestchang/andrej-karpathy-skills(⭐107,292, +20K/wk — 10.7만), shareAI-lab/learn-claude-code(⭐57,870 — 5.8만 신규 대형 진입), mattpocock/skills(⭐55,739, +35K/wk — 5.6만 4주 연속 최고 성장), Z4nzu/hackingtool(⭐70,585), TauricResearch/TradingAgents(⭐63,737, +8.5K/wk), farion1231/cc-switch(⭐58,109), warpdotdev/warp(⭐53,050, +24K/wk — 5.3만, 5주 연속 +2.4만), badlogic/pi-mono(⭐43,975), HKUDS/nanobot(⭐41,543), santifer/career-ops(⭐41,992), rtk-ai/rtk(⭐40,250, +5.2K/wk — 4만), ruvnet/ruflo(⭐37,285), abhigyanpatwari/GitNexus(⭐34,919, +5.5K/wk), PostHog/posthog(⭐34,255 — 올인원 개발자 분석 플랫폼 3.4만), ZhuLinsen/daily_stock_analysis(⭐33,760), QuantumNous/new-api(⭐30,334), linshenkx/prompt-optimizer(⭐27,886), addyosmani/agent-skills(⭐27,232, +4.2K/wk), davila7/claude-code-templates(⭐26,621), Gitlawb/openclaude(⭐25,572), googleworkspace/cli(⭐25,678), gastownhall/beads(⭐23,024), soxoj/maigret(⭐23,112), iOfficeAI/AionUi(⭐23,494), Alishahryar1/free-claude-code(⭐20,392, +9.4K/wk), Fincept-Corporation/FinceptTerminal(⭐19,310), VoltAgent/awesome-claude-code-subagents(⭐18,975), Panniantong/Agent-Reach(⭐18,657 — 1.9만 신규 진입), anthropics/claude-plugins-official(⭐18,419), jackwener/OpenCLI(⭐18,526), Wei-Shaw/sub2api(⭐17,314), vxcontrol/pentagi(⭐16,369), trycua/cua(⭐15,515), Leonxlnx/taste-skill(⭐14,697), Tencent/WeKnora(⭐14,185), mksglu/context-mode(⭐11,913), Zackriya-Solutions/meetily(⭐11,531), zilliztech/claude-context(⭐10,555), superset-sh/superset(⭐10,253 — 1만 신규 진입, 이번 주 핵심 적용), AIDC-AI/Pixelle-Video(⭐9,327), huggingface/ml-intern(⭐8,176), chenhg5/cc-connect(⭐7,072), hatchet-dev/hatchet(⭐7,055), ai-dynamo/dynamo(⭐6,728 — 대규모 분산 추론), lukilabs/craft-agents-oss(⭐5,710), getpaseo/paseo(⭐5,237 — 원격 에이전트 오케스트레이션 신규), Tracer-Cloud/opensre(⭐4,288), decolua/9router(⭐3,608 — 멀티프로바이더 라우터 신규), njbrake/agent-of-empires(⭐1,907). 구루 동향: anthropics — skills(127K)·claude-code-action(7.4K)·plugins-official(18K) 활발 유지; karpathy — autoresearch(78K) 안정; simonw — 데이터 스크레이퍼 지속 push; openai — codex-plugin-cc·skills·symphony 신규 push(Claude Code + Codex 크로스 생태계 진입). 생태계 메타: 이번 주 전체 특징 — "Agent IDE 등장(superset 10K — 에이전트 전용 코드 에디터) + Progressive Output(ios-simulator-skill — 97.5% 토큰 절감) + 인터넷 접근 민주화(Agent-Reach 19K — 제로 비용 18+ 플랫폼) + 원격 오케스트레이션(paseo 5K — 폰에서 에이전트 제어)". 에이전트 생태계가 "Fleet을 모니터링하는 대시보드 시대"(90차)에서 "Fleet이 작업하는 통합 IDE + 출력을 점진적으로 소비하는 효율 시대"로 진화."Code Editor for the AI Agents Era — Run an army of Claude Code, Codex, etc. on your machine. Each task gets its own branch and worktree, enabling 10+ agents to work simultaneously without interference."
multi-agent-fleet-management(agent-of-empires, TUI/Web 대시보드)가 "에이전트를 모니터링"하는 도구라면, superset은 "에이전트가 실제 작업하는 통합 개발 환경"으로 레벨 상승. 기존 worktree-parallel-agents가 "수동 worktree 관리"이고 worktree-shared-state가 "파일 기반 상태 공유"라면, superset은 "자동 생성·모니터링·diff·정리를 IDE로 통합". 핵심 차별점: (A) Worktree-per-Task Automation — 에이전트 작업마다 독립 git worktree + 브랜치를 자동 생성·관리·정리. /team Phase 3에서 specialist별 수동 worktree 관리를 자동화 (B) Integrated Diff View — 에이전트 변경사항을 IDE 내 diff 뷰어로 즉시 리뷰, 외부 도구 전환 없이 승인/거부/수정. code-reviewer 워크플로우 가속 (C) One-Click Handoff — 에이전트 결과를 VS Code/JetBrains로 즉시 전환, AI 작업과 사람 수정의 경계를 매끄럽게 연결 (D) Universal Agent Compatibility — CLI 기반이면 모든 에이전트 지원, .superset/config.json으로 에이전트별 setup/teardown 자동화 (E) Centralized Monitoring — 전체 에이전트 진행·에러·대기 상태를 단일 화면에서 파악, "intervention needed" 알림~/.claude/rules/multi-agent-fleet-management.md에 Agent IDE 패턴 추가. 핵심: (A) Worktree-per-Task 자동화 — 에이전트 작업마다 독립 worktree 자동 생성·정리 (B) Integrated Diff View — IDE 내 diff 기반 즉시 리뷰 (C) One-Click Handoff — 에이전트↔사람 작업 경계 매끄러운 전환 (D) .superset/config.json 패턴 — 프로젝트별 에이전트 설정 선언적 관리"An iOS Simulator Skill for Claude Code. 22 production-ready Python scripts with progressive error disclosure — single-line summaries with result IDs, drill into errors/warnings/logs on demand. 97.5% token reduction compared to raw tool output."
BUILD_FAILED|result_id:abc123) → 요청 시 상세(get_details(abc123))"의 2단계로 구조화하여 200+ 행을 3~5행으로 압축(97.5% 절감). 기존 tool-output-sandboxing(context-mode)이 "raw 출력을 샌드박스에 가두고 intent-driven filtering으로 관련 섹션만 반환"하는 패턴이라면, Progressive Disclosure는 "도구 자체가 요약→상세 2단계 출력을 네이티브로 생산"하여 외부 샌드박스 없이 동일 효과 달성. 핵심 차별점: (A) Progressive Error Disclosure — xcodebuild 결과를 단일 행 요약 + result_id로 반환, 에이전트가 필요 시 ID로 상세 드릴다운. 에이전트가 "전체 로그를 읽을지 말지" 판단 (B) Semantic Navigation via Accessibility APIs — 픽셀 좌표 기반 탭 대신 iOS 접근성 API로 요소를 의미적 탐색. UI 레이아웃 변경에도 안정 + 구조화 데이터로 토큰 효율 극대화 (C) Screenshot Optimization — 자동 리사이즈·압축으로 시각 분석 토큰 최소화 (D) 범용 적용 가능 — 이 패턴은 iOS 한정이 아니라 bug-fixer(빌드 에러 요약), qa-cycle(테스트 결과 요약), web-qa-tester(DOM 스냅샷 요약) 등 모든 도구 출력의 토큰 효율화에 범용 적용 가능 (E) cli-output-compression(rtk) + tool-output-sandboxing(context-mode)과 상호보완 — rtk=입력 필터링, context-mode=출력 격리, Progressive Disclosure=출력 생산 단계 최적화. 3층 토큰 절감 파이프라인 완성~/.claude/rules/tool-output-sandboxing.md에 Progressive Error Disclosure 패턴 추가. 핵심: (A) 도구 출력을 "요약 행 + result_id" → "요청 시 상세" 2단계로 구조화 (B) 97.5% 토큰 절감 실측 (200+ 행 → 3~5행) (C) 접근성 API 기반 시맨틱 네비게이션 — 픽셀 좌표 대신 의미적 요소 탐색 (D) rtk(입력) + context-mode(격리) + Progressive Disclosure(생산) 3층 절감 파이프라인browser-automation-mcp가 "Chrome 브라우저 내부 DOM만 제어"하고 agent-browser가 "브라우저 탭 내 인터랙션"이라면, CUA는 "macOS·Linux·Windows·Android 전체 데스크탑을 단일 Python API로 제어 + 백그라운드 자동화 + trajectory 기록 + 표준 벤치마크". 핵심 패턴: (A) Unified Sandbox SDK — 스크린샷 캡처·마우스/키보드 입력·셸 명령을 환경 독립적 단일 API로 추상화. 로컬 VM이든 클라우드 인스턴스든 동일 코드 동작 (B) Replayable Trajectories — 에이전트의 모든 상호작용을 trajectory로 기록하여 재현 가능 디버깅 + RL 훈련 데이터 변환 (C) Background Automation (macOS) — Cua Driver가 포커스/커서를 빼앗지 않고 백그라운드에서 자동화. 사용자가 다른 작업 중에도 에이전트가 별도 VM에서 병렬 실행 (D) CuaBench — OSWorld·ScreenSpot·Windows Arena 표준 벤치마크로 에이전트 데스크탑 능력을 수치 평가 (E) Lume — Apple Silicon 네이티브 가상화로 near-native 성능 VM. 우리 web-qa-tester가 "브라우저만 테스트"하는 한계를 넘어, OAuth 시스템 팝업·네이티브 앱 인터랙션·데스크탑 전체 테스트까지 확장하는 청사진. 핵심 발견 #2: njbrake/agent-of-empires(⭐1,895, +850/wk, Rust, MIT) — 멀티 에이전트 Fleet 관리 TUI/Web 대시보드. 10+ AI 코딩 에이전트(Claude Code·Codex·Gemini CLI·Cursor 등)를 tmux 세션 격리 + git worktree 병렬화로 동시 관리. 기존 worktree-parallel-agents가 "에이전트별 격리 worktree"이고 worktree-shared-state가 "파일 기반 상태 공유"라면, agent-of-empires는 "tmux 세션 영속 + 에이전트 상태 자동 감지 + TUI/Web/CLI 통합 대시보드 + Docker 샌드박싱 + 원격 접근(Tailscale/Cloudflare Tunnel)". 핵심 패턴: (A) tmux Session Isolation — 각 에이전트가 독립 tmux 세션에서 실행. TUI 종료·SSH 끊김·앱 재시작에도 세션 영속. 기존 Agent tool이 "세션 종료 시 컨텍스트 소실"하는 문제 해결 (B) Agent-Aware Status Detection — running·waiting·idle·error 4가지 상태를 자동 감지하여 대시보드에 실시간 표시. TaskList 수동 조회 대신 한눈에 Fleet 상태 파악 (C) Git Worktree Parallelism — 동일 코드베이스에서 에이전트별 독립 브랜치+worktree로 파일 충돌 없는 진정한 병렬 실행 (D) Multi-Interface — TUI(터미널)·Web Dashboard(브라우저)·CLI(프로그래밍)·Remote(Tailscale/CF Tunnel 경유 모바일) 4중 접근 (E) Docker Sandboxing — 에이전트별 Docker 컨테이너 격리 + 공유 인증 볼륨. 우리 /team Phase 3 병렬 구현에서 3+ specialist 동시 실행 시 "세션 영속 + 상태 대시보드 + 원격 모니터링"을 추가하는 구체적 구현 모델. 추가 주목: obra/superpowers(⭐176,606, +9,181/wk — 17만 6천 전체 1위 유지), NousResearch/hermes-agent(⭐129,890 — 13만 안정), forrestchang/andrej-karpathy-skills(⭐106,733, +21,896/wk — 10만 안정 유지), mattpocock/skills(⭐55,226, +35,324/wk — 3.5만 주간 최대 성장, CONTEXT.md 패턴 정착), Z4nzu/hackingtool(⭐70,469, +7,210/wk — 보안 도구 7만), TauricResearch/TradingAgents(⭐62,942, +8,489/wk — 멀티에이전트 금융 6.3만, +8.5K 폭발 성장), farion1231/cc-switch(⭐57,918, +6,556/wk — 멀티 AI 데스크탑 5.8만), warpdotdev/warp(⭐52,828, +24,591/wk — 에이전틱 개발환경 4주 연속 +2.4만), badlogic/pi-mono(⭐43,910, +3,905/wk — 통합 LLM 에이전트 툴킷 4.4만), HKUDS/nanobot(⭐41,534 — 초경량 개인 AI 에이전트 4.2만 신규 진입), santifer/career-ops(⭐41,901 — Claude Code 기반 AI 구직 4.2만 신규 진입), rtk-ai/rtk(⭐40,100, +5,251/wk — 토큰 압축 4만 돌파), ruvnet/ruflo(⭐36,920, +2,972/wk — Claude 멀티에이전트 3.7만), abhigyanpatwari/GitNexus(⭐34,749, +5,465/wk — Graph RAG 3.5만, +5.5K 가속), ZhuLinsen/daily_stock_analysis(⭐33,713, +2,289/wk — LLM 주식 분석), QuantumNous/new-api(⭐30,291, +1,416/wk — 통합 AI 허브 3만), linshenkx/prompt-optimizer(⭐27,853, +976/wk — AI 프롬프트 최적화), addyosmani/agent-skills(⭐27,190, +4,242/wk — Google 엔지니어링 스킬 +4.2K 급성장), davila7/claude-code-templates(⭐26,611, +1,445/wk), Gitlawb/openclaude(⭐25,537 — 범용 AI 에이전트 2.6만 신규), googleworkspace/cli(⭐25,673 — Google Workspace CLI + AI 에이전트 스킬 2.6만 신규), iOfficeAI/AionUi(⭐23,455 — 로컬 Cowork 앱 2.3만 신규), gastownhall/beads(⭐23,008, +1,702/wk — 에이전트 메모리 2.3만), soxoj/maigret(⭐22,830, +2,678/wk — OSINT 자동화 2.3만), Alishahryar1/free-claude-code(⭐20,279, +9,364/wk — 최대 성장 유지), Fincept-Corporation/FinceptTerminal(⭐19,198, +4,417/wk — 금융 AI 터미널), VoltAgent/awesome-claude-code-subagents(⭐18,961, +614/wk — 서브에이전트 100+), anthropics/claude-plugins-official(⭐18,419 — 공식 플러그인 디렉토리), jackwener/OpenCLI(⭐18,510 — 유니버설 CLI + AGENT.md), Wei-Shaw/sub2api(⭐17,269, +1,888/wk — 멀티프로바이더 게이트웨이), vxcontrol/pentagi(⭐16,350, +736/wk — 자율 AI 펜테스팅), trycua/cua(⭐15,515, +1,200/wk — Computer-Use Agent 인프라, 이번 주 핵심 적용), Leonxlnx/taste-skill(⭐14,596, +1,656/wk — anti-slop 디자인), Tencent/WeKnora(⭐14,180 — 텐센트 RAG+에이전트 1.4만 신규), mksglu/context-mode(⭐11,913 — 도구 출력 샌드박싱), Zackriya-Solutions/meetily(⭐11,531 — 프라이버시 우선 AI 회의 어시스턴트 1.2만 신규), zilliztech/claude-context(⭐10,555 — 시맨틱 코드 검색), AIDC-AI/Pixelle-Video(⭐9,215, +2,315/wk — AI 숏폼 영상), huggingface/ml-intern(⭐8,136, +2,091/wk — HF ML 엔지니어), chenhg5/cc-connect(⭐7,023, +940/wk — 에이전트-채팅 양방향 브릿지), hatchet-dev/hatchet(⭐7,052 — 내구성 워크플로우), lukilabs/craft-agents-oss(⭐5,702, +1,214/wk — 에이전트 네이티브 데스크탑), Tracer-Cloud/opensre(⭐4,267, +1,199/wk — AI SRE 툴킷), njbrake/agent-of-empires(⭐1,895, +850/wk — 멀티에이전트 Fleet TUI, 이번 주 핵심 적용). 구루 동향: anthropics — claude-plugins-official(18K)·claude-cookbooks(42K)·skills(127K) 활발 유지, buffa(Rust protobuf 687⭐) 신규 push; karpathy — autoresearch(78K) 안정; simonw — 데이터 스크레이퍼 다수(usgs, fema-shelters, pge-outages, florida-outages, roads-dot-ca) 지속 push, iNaturalist 생태 데이터 클러스터링 신규; mshumer — 활동 감소 (unslop 3월 마지막 push). 생태계 메타: 이번 주 전체 특징 — "Fleet Management(agent-of-empires TUI + cc-switch 58K + AionUi 23K) + Desktop Compute(cua 15K + CuaBench + Lume VM) + 신규 대형 진입(nanobot 42K, career-ops 42K, openclaude 26K, googleworkspace/cli 26K)". 에이전트 생태계가 "1개 에이전트를 잘 쓰는 시대"에서 "여러 에이전트 함대를 대시보드로 운용하는 시대"로 운영 패러다임 전환."Open-source infrastructure for Computer-Use Agents. Sandboxes, SDKs, and benchmarks to train and evaluate AI agents that can control full desktops. One API for any VM or container image — cloud or local."
browser-automation-mcp(Chrome DevTools)가 "브라우저 내부 DOM만"이고 agent-browser가 "브라우저 탭 인터랙션"이라면, CUA는 "OS 전체를 샌드박스 VM으로 격리 + 스크린 인식·마우스/키보드·셸 명령을 환경 독립 API로 추상화". 핵심 차별점: (A) Unified Sandbox SDK — 스크린샷 캡처·마우스/키보드·셸 명령을 로컬 VM이든 클라우드든 동일 코드로 실행. agent-browser의 "특정 브라우저 한정"을 "전체 데스크탑"으로 확장 (B) Replayable Trajectories — 에이전트의 모든 GUI 상호작용을 trajectory로 기록, 실패 시 정확한 재현 + RL 훈련 데이터 변환. 기존 QA의 "스크린샷 1장 비교"를 "전체 인터랙션 시퀀스 재생"으로 강화 (C) Background Automation (macOS Cua Driver) — 포커스/커서를 빼앗지 않고 백그라운드 자동화. 3+ 에이전트가 각자 독립 VM에서 병렬 GUI 작업 가능 (D) CuaBench — OSWorld·ScreenSpot·Windows Arena 표준 벤치마크로 에이전트 데스크탑 능력을 수치 평가, scored-agent-benchmarks 패턴의 데스크탑 확장 (E) Lume — Apple Silicon 네이티브 가상화(Virtualization.Framework)로 near-native VM 성능. 우리 web-qa-tester가 "브라우저만"인 한계를 넘어, OAuth 시스템 팝업·네이티브 앱·데스크탑 전체 테스트까지 확장하는 인프라 청사진.~/.claude/rules/computer-use-agent-sandboxing.md 신규 생성. 핵심: (A) 통합 Sandbox SDK — 환경 독립적 데스크탑 자동화 API (B) Replayable Trajectories — 재현 가능 디버깅 + 벤치마크 (C) Background Automation — 병렬 에이전트 GUI 간섭 없음 (D) CuaBench 점수 → HARD 게이트 (exit code 기반)"Manage multiple Claude Code and AI agents via TUI or web interface. Each agent operates in its own persistent tmux session, enabling them to continue running independently when the TUI closes. Sessions survive terminal disconnects, SSH drops, and application restarts."
worktree-parallel-agents가 "에이전트별 격리 worktree"이고 worktree-shared-state가 "파일 기반 상태 공유"라면, agent-of-empires는 "tmux 세션 영속 + 에이전트 상태 자동 감지(running·waiting·idle·error) + TUI/Web/CLI/Remote 4중 접근 + Docker 샌드박싱". 핵심 차별점: (A) tmux Session Isolation — 각 에이전트가 독립 tmux 세션에서 실행. TUI 종료·SSH 끊김·앱 재시작에도 세션 영속. 기존 Agent tool이 "세션 종료 시 컨텍스트 소실"하는 문제를 구조적으로 해결 (B) Agent-Aware Status Detection — running·waiting·idle·error 4가지 상태를 자동 감지하여 대시보드 실시간 표시. TaskList 수동 조회 대신 Fleet 전체를 한눈에 (C) Git Worktree Parallelism — 에이전트별 독립 브랜치+worktree로 파일 충돌 없는 병렬 실행. worktree-parallel-agents 규칙의 구체적 구현체 (D) Multi-Interface Access — TUI(터미널)·Web Dashboard(브라우저)·CLI(프로그래밍)·Remote(Tailscale Funnel/Cloudflare Tunnel 경유 모바일) 4중 접근. 외출 중에도 모바일로 Fleet 모니터링 가능 (E) Docker Sandboxing — 에이전트별 Docker 컨테이너 격리 + 공유 인증 볼륨으로 시스템 보호. 10개 에이전트 타입 자동 감지(Claude Code·Codex·Gemini CLI·Cursor 등). 우리 /team Phase 3 병렬 구현에서 "3+ specialist 동시 실행 시 세션 영속 + 상태 대시보드 + 원격 모니터링"을 추가하는 구체적 모델.~/.claude/rules/multi-agent-fleet-management.md 신규 생성. 핵심: (A) tmux 세션 격리로 에이전트 영속 실행 (B) 에이전트 상태 자동 감지 — running/waiting/idle/error (C) TUI/Web/CLI/Remote 4중 접근 통합 (D) tmux has-session exit code로 HARD 상태 체크/plugin install {name}@claude-plugins-official 한 줄로 설치. 기존 canonical-plugin-three-layer.md가 "Skills·Commands·Connectors 3계층 분리"를 정의하고 agent-manifest-pattern.md가 "선언적 매니페스트 파일 관리"를 제안했다면, Anthropic이 이를 공식 표준으로 확정 + 마켓플레이스 인프라로 구체화. 핵심 패턴: (A) Standardized Plugin Structure — .claude-plugin/plugin.json(메타데이터) + .mcp.json(MCP 서버) + commands/(슬래시 명령) + agents/(에이전트 정의) + skills/(도메인 지식) 5개 디렉토리 표준 (B) Official + External 이중 트랙 — 내부 플러그인(Anthropic 개발) + 외부 플러그인(커뮤니티 제출, 품질·보안 심사 필수) (C) /plugin install 원커맨드 — 설치·발견·업데이트를 CLI 단일 명령으로 (D) Quality Gate — 외부 플러그인은 제출 폼 → 심사 → 승인 프로세스 필수 (E) claude-plugins-community(⭐64) 미러로 커뮤니티 기여 분리. 우리 시스템의 plugin-forge 스킬 + canonical-plugin-three-layer rule의 "이론적 제안"이 Anthropic 공식 인프라로 검증된 것. 핵심 발견 #2: xingkongliang/skills-manager(⭐1,009, +125/wk, Rust, MIT) — 15+ 코딩 도구 간 AI 에이전트 스킬 통합 관리 데스크탑 앱. Claude Code·Codex·Cursor·Copilot·Gemini CLI 등의 스킬을 중앙 라이브러리에서 관리하고, 시나리오 기반 전환 + 프로젝트별 워크스페이스 + Git 백업. 기존 /cc-sync(user↔project scope 동기화)와 /cc-apply(프로젝트→user 적용)가 "파일 복사 기반 수동 동기화"라면, skills-manager는 "시나리오·마켓플레이스·양방향 동기화·버전 관리를 GUI로 통합". 핵심 패턴: (A) Scenarios — 글로벌 스킬 세트를 시나리오별로 그룹화, 사이드바에서 원클릭 전환 (예: "프론트엔드 작업" vs "백엔드 작업" vs "QA 모드") (B) Project Workspaces — <project>/.claude/skills/ 등 프로젝트 로컬 스킬을 중앙 라이브러리와 양방향 동기화 (C) Marketplace + AI Search — skills.sh 마켓플레이스 통합 + AI 기반 스킬 검색 (D) Git Backup — 스킬 라이브러리 전체를 Git으로 버전관리, 다중 머신 동기화 (E) Batch Operations — 다중 선택 일괄 활성화/비활성화/삭제 (F) Update Tracking — Git 기반 스킬의 upstream 업데이트 감지 + 비교 뷰. 우리 /cc-sync가 "셸 스크립트 기반 단방향 복사"라면, skills-manager는 "GUI + 시나리오 + 양방향 + 마켓 + 버전 관리"의 완전체. 추가 주목: mattpocock/skills(⭐54,823, +33,628/wk — 3주 연속 전체 최고 성장 유지, CONTEXT.md 도메인 주입 패턴 정착), obra/superpowers(⭐176,450, +9,089/wk — 17만 6천 1위 유지), forrestchang/andrej-karpathy-skills(⭐106,364, +21,896/wk — 10만 6천 안정), warpdotdev/warp(⭐52,642, +24,591/wk — 에이전틱 개발환경 3주 연속 +2.4만 폭발 성장), Z4nzu/hackingtool(⭐70,367, +7,925/wk — 보안 도구 급상승), TauricResearch/TradingAgents(⭐62,220, +6,152/wk — 멀티에이전트 금융 6.2만), farion1231/cc-switch(⭐57,823, +6,556/wk — 멀티 AI 에이전트 데스크탑 5.8만), badlogic/pi-mono(⭐43,850, +4,115/wk — 통합 LLM 에이전트 툴킷 4.4만), rtk-ai/rtk(⭐39,985, +5,251/wk — 토큰 압축 4만), ruvnet/ruflo(⭐36,613, +2,543/wk — Claude 전용 멀티에이전트 3.7만), abhigyanpatwari/GitNexus(⭐34,589, +5,376/wk — Graph RAG 3.5만), ZhuLinsen/daily_stock_analysis(⭐33,681, +2,364/wk — LLM 주식 분석 3.4만), QuantumNous/new-api(⭐30,271, +1,416/wk — 통합 AI 모델 허브 3만), addyosmani/agent-skills(⭐27,163, +4,361/wk — Google 엔지니어링 스킬), linshenkx/prompt-optimizer(⭐27,840, +954/wk), davila7/claude-code-templates(⭐26,600, +1,445/wk — Claude Code 설정 템플릿 2.7만), gastownhall/beads(⭐22,999, +1,817/wk — 코딩 에이전트 메모리 2.3만), Alishahryar1/free-claude-code(⭐20,175, +12,928/wk — 최대 성장폭 유지 2만), Fincept-Corporation/FinceptTerminal(⭐19,102, +4,444/wk — 금융 AI 터미널 1.9만 신규 진입, 37개 AI 에이전트 내장), VoltAgent/awesome-claude-code-subagents(⭐18,945, +670/wk — 100+ 서브에이전트 컬렉션), anthropics/claude-plugins-official(⭐18,415 — Anthropic 공식 플러그인 디렉토리, 이번 주 핵심 적용), Wei-Shaw/sub2api(⭐17,247, +1,947/wk — 멀티프로바이더 API 게이트웨이 1.7만), vxcontrol/pentagi(⭐16,339, +743/wk — 자율 AI 펜테스팅 1.6만), Leonxlnx/taste-skill(⭐14,539, +1,750/wk — anti-slop 디자인), mksglu/context-mode(⭐11,913, +1,938/wk — 도구 출력 샌드박싱), anthropics/knowledge-work-plugins(⭐11,741 — Claude Cowork 지식 작업 플러그인), zilliztech/claude-context(⭐10,555, +1,681/wk — 시맨틱 코드 검색 MCP), AIDC-AI/Pixelle-Video(⭐9,134, +2,023/wk — AI 자동 숏폼 영상), lsdefine/GenericAgent(⭐8,719, +1,875/wk — 자가진화 에이전트), huggingface/ml-intern(⭐8,119, +3,157/wk — HF ML 엔지니어), chenhg5/cc-connect(⭐7,023, +940/wk — 에이전트-채팅 양방향 브릿지), hatchet-dev/hatchet(⭐7,052 — 내구성 워크플로우 오케스트레이션), lukilabs/craft-agents-oss(⭐5,696, +1,193/wk — 에이전트 네이티브 데스크탑), Tracer-Cloud/opensre(⭐4,249, +1,328/wk — AI SRE 에이전트 툴킷), xingkongliang/skills-manager(⭐1,009, +125/wk — 크로스 도구 스킬 매니저, 이번 주 핵심 적용). 구루 동향: anthropics — claude-plugins-official(18K) + claude-plugins-community(64) 신규 출시, skills(127K)·claude-code-action(7.4K)·knowledge-work-plugins(11.7K) 활발 유지, 플러그인 생태계 공식화 본격 추진; karpathy — nanochat(52K) 최근 push, autoresearch(78K) 안정; simonw — 일상 데이터 스크레이퍼(florida-outages, fema-shelters 등) 지속 생산, datasette 생태계 확장. 생태계 메타: 이번 주 전체 특징 — "플러그인 공식화(Anthropic plugins-official 18K + knowledge-work-plugins 11.7K) + 스킬 관리 도구화(skills-manager 1K, cc-switch 57K) + 에이전트 품질 인프라 성숙(warp +24K, rtk 40K, agent-skills 27K)". 에이전트 생태계가 "스킬을 만드는 시대"에서 "스킬을 배포·관리·감사하는 시대"로 인프라 계층 상승."A curated directory of high-quality plugins for Claude Code. Plugins can be installed directly from this marketplace via Claude Code's plugin system. /plugin install {plugin-name}@claude-plugins-official"
canonical-plugin-three-layer.md가 "Skills·Commands·Connectors 3계층 분리 아키텍처"를 정의하고, agent-manifest-pattern.md가 "선언적 매니페스트 파일 기반 재현성"을 제안했다면, 이번 공식 디렉토리는 그 두 패턴을 Anthropic이 공식 표준으로 확정하고 마켓플레이스 인프라까지 구체화한 것. 핵심 차별점: (A) Standardized 5-Directory Structure — .claude-plugin/plugin.json(메타데이터 필수) + .mcp.json(MCP 서버 옵션) + commands/(슬래시 명령) + agents/(에이전트 정의) + skills/(도메인 지식). 우리 3계층(Skills·Commands·Connectors)이 5디렉토리로 확장 (B) Official + External 이중 트랙 — 내부는 Anthropic 팀이 직접 개발, 외부는 제출 폼 → 심사 → 승인 프로세스. manifest-audit.sh로 제안했던 content security gate가 공식 심사 프로세스로 구현 (C) /plugin install 원커맨드 — /plugin install {name}@claude-plugins-official 한 줄로 설치·발견·업데이트 통합 (D) claude-plugins-community(⭐64) 미러로 커뮤니티 기여 채널 분리 — 품질 tier를 구조적으로 분리. 우리 시스템의 plugin-forge 스킬이 만드는 플러그인이 이 디렉토리에 제출 가능한 표준을 따르는지 검증하는 기준 확보.~/.claude/rules/official-plugin-directory-standard.md 신규 생성. 핵심: (A) Anthropic 공식 5디렉토리 표준 구조 (plugin.json + .mcp.json + commands/ + agents/ + skills/) (B) 외부 플러그인 제출 시 품질·보안 심사 게이트 (C) /plugin install 원커맨드 설치 패턴 (D) Official vs External 트랙 구분 — 품질 tier 분리"One app to manage AI agent skills across all your coding tools. Scenarios are global skill sets — switch from the sidebar to change the active setup. Project Workspaces manage project-local skills with two-way sync to your central library."
~/.skills-manager/)에서 통합 관리. 기존 /cc-sync(user→project scope 파일 복사)와 /cc-apply(project→user 적용)가 "셸 스크립트 기반 단방향 복사"라면, skills-manager는 "GUI + 시나리오 + 양방향 + 마켓 + 버전 관리"의 완전체. 핵심 차별점: (A) Scenarios — 글로벌 스킬 세트를 시나리오별로 그룹화하여 사이드바에서 원클릭 전환. "프론트엔드 모드"에서는 frontend-design·pixel-perfect·shadcn만 활성화하고, "QA 모드"에서는 qa-cycle·web-qa-tester·expect만 활성화하는 식. 우리 시스템에서 매번 수동으로 스킬 조합을 바꾸는 마찰 제거 (B) Project Workspaces — <project>/.claude/skills/ 등 프로젝트 로컬 스킬을 중앙 라이브러리와 양방향 동기화. /cc-sync의 "user→project 단방향"을 "양방향"으로 확장 (C) Marketplace + AI Search — skills.sh 마켓플레이스 통합 + AI 기반 스킬 검색 (D) Git Backup — 스킬 라이브러리를 Git으로 버전관리, 멀티 머신 동기화 (E) Update Tracking — Git 기반 스킬의 upstream 업데이트 감지 + diff 비교 뷰 (F) Custom Tools — 에이전트/도구별 커스텀 스킬 디렉토리 설정. 핵심 인사이트: 스킬 관리의 "워크플로우 컨텍스트 스위칭" 문제를 시나리오로 해결.~/.claude/rules/scenario-based-skill-management.md 신규 생성. 핵심: (A) 시나리오 기반 스킬 그룹화 — 워크플로우별 스킬 세트 원클릭 전환 (B) 양방향 프로젝트-중앙 동기화 (C) Git 기반 스킬 라이브러리 버전관리 (D) 크로스 도구 호환성 — 단일 스킬 라이브러리를 여러 에이전트 도구에 배포telegram-notifier가 단방향 알림이라면, cc-connect는 양방향 세션 관리 + 라이프사이클 훅 + 멀티 에이전트 그룹챗 릴레이. 핵심 패턴: (A) Session Management via Chat — /new, /list, /switch, /dir 명령으로 에이전트 세션을 채팅에서 완전 관리 (B) Lifecycle Event Hooks — on_message·on_session·on_cron·on_permission·on_error 5종 이벤트에 셸/웹훅 자동 실행 (C) Multi-Agent Relay — 단일 그룹챗에서 Claude+Codex+Gemini 동시 대화, 에이전트 간 크로스체크 (D) Permission Escalation — /mode yolo(자동승인) ↔ /mode default(확인필요) 원격 전환 (E) No Public IP Required — WebSocket/Long-Polling으로 방화벽 뒤에서도 동작. 우리 시스템의 telegram-notifier(단방향) + rc 스킬(reply 기반)을 세션 관리·이벤트 훅·멀티에이전트 릴레이로 확장하는 청사진. 핵심 발견 #2: gastownhall/gascity(⭐561, +204/wk, Go, beads 팀) — Kubernetes 스타일 desired-state reconciliation을 에이전트 오케스트레이션에 적용. 선언적 city.toml로 목표 상태를 정의하면 controller/supervisor 루프가 actual vs desired 차이를 자동 수렴. 기존 state-driven-orchestration(oh-my-codex)이 "파일 기반 상태 영속화"이고 declarative-agent-coordination(takt)이 "YAML 선언적 명세"라면, gascity는 "선언과 실행 사이의 자동 수렴 루프 — 드리프트 감지 + 자동 복구". 핵심 패턴: (A) Controller/Supervisor Loop — desired vs actual 비교 → 차이 해소를 무한 반복, 수렴 시 종료 (B) Runtime Provider Abstraction — tmux·subprocess·exec·Kubernetes 중 동일 선언으로 런타임 전환 (C) Orchestration Primitives — Formulas(태스크 정의)·Molecules(복합 작업)·Waits(동기화)·Mail(비동기 통신) (D) Beads Integration — beads(23K⭐) 메모리 시스템 기반 작업 추적. 기존 3규칙(state-driven + declarative-coordination + canonical-fsm)에 "드리프트 자동 수렴"을 추가하여 선언·실행·복구 3단계 오케스트레이션 완성. 추가 주목: mattpocock/skills(⭐54,231, +33,628/wk — 이번 주도 전체 최고 성장 유지, CONTEXT.md 도메인 주입 패턴), obra/superpowers(⭐176,013 — 17만 1위 유지), forrestchang/andrej-karpathy-skills(⭐105,945, +21,896/wk — 10만 유지), warpdotdev/warp(⭐52,418, +24,591/wk — 에이전틱 개발환경 5.2만, 2.4만 폭발 지속), farion1231/cc-switch(⭐57,721, +6,556/wk — 멀티 AI 에이전트 데스크탑), TauricResearch/TradingAgents(⭐61,311, +6,152/wk — 멀티에이전트 금융 프레임워크 6만 돌파), badlogic/pi-mono(⭐43,776, +4,115/wk — 통합 LLM 에이전트 툴킷), rtk-ai/rtk(⭐39,851, +5,251/wk — 토큰 압축 4만 돌파), ruvnet/ruflo(⭐36,044, +2,543/wk — Claude 전용 멀티에이전트 오케스트레이션 3.6만), abhigyanpatwari/GitNexus(⭐34,381, +5,376/wk — Graph RAG 3.4만), ZhuLinsen/daily_stock_analysis(⭐33,648, +2,364/wk — LLM 주식 분석), davila7/claude-code-templates(⭐26,586, +1,445/wk — Claude Code 설정 100+ 템플릿), QuantumNous/new-api(⭐30,242, +1,416/wk — 통합 AI 모델 허브 3만), gastownhall/beads(⭐22,991, +1,817/wk — 코딩 에이전트 메모리 2.3만), Alishahryar1/free-claude-code(⭐20,026, +12,928/wk — 최대 성장폭 유지), Wei-Shaw/sub2api(⭐17,214, +1,947/wk — 멀티프로바이더 API 게이트웨이 1.7만 신규 진입), vxcontrol/pentagi(⭐16,326, +743/wk — 자율 AI 펜테스팅 1.6만), Leonxlnx/taste-skill(⭐14,428, +1,750/wk — anti-slop 디자인), mksglu/context-mode(⭐11,913, +1,938/wk — 도구 출력 샌드박싱 안정 성장), zilliztech/claude-context(⭐10,555, +1,681/wk — 시맨틱 코드 검색 MCP), AIDC-AI/Pixelle-Video(⭐9,014, +2,023/wk — AI 자동 숏폼 영상 엔진 신규), lsdefine/GenericAgent(⭐8,719, +1,875/wk — 자가진화 에이전트), huggingface/ml-intern(⭐8,082, +3,157/wk — HF ML 엔지니어), chenhg5/cc-connect(⭐7,005, +940/wk — 에이전트-채팅 양방향 브릿지, 이번 주 핵심 적용), everywall/ladder(⭐7,397, +966/wk — 셀프호스트 CORS 프록시), lukilabs/craft-agents-oss(⭐5,690, +1,193/wk — 에이전트 네이티브 데스크탑), Tracer-Cloud/opensre(⭐4,233, +1,328/wk — AI SRE 에이전트 툴킷), gastownhall/gascity(⭐561, +204/wk — desired-state 에이전트 오케스트레이션 SDK, 이번 주 핵심 적용). 구루 동향: karpathy — autoresearch(⭐78K) 안정 유지; anthropics — skills(127K)·claude-code(120K) 활발 유지; beads 팀(gastownhall) — beads(23K) + gascity(561) 이중 진화, 메모리→오케스트레이션으로 확장 중. 생태계 메타: 이번 주 전체 특징 — "터미널 탈출(cc-connect 11플랫폼 브릿지, warp +24K 데스크탑, cc-switch 57K) + 선언적 수렴(gascity K8s 패턴) + 멀티에이전트 성숙(ruflo 36K, TradingAgents 61K)". 에이전트 생태계가 "터미널에서 시작된 에이전트"에서 "어디서든 접근 가능한 에이전트"로 인터페이스 다변화."Control and interact with agents like Claude Code from any chat application, eliminating the requirement for public IP on most platforms. WebSocket and Long-Polling — no public IP needed."
telegram-notifier가 "단방향 알림(에이전트→사용자)"이라면, cc-connect는 "양방향 세션 관리 + 라이프사이클 이벤트 훅 + 멀티에이전트 그룹챗 릴레이". 핵심 차별점: (A) Session Management via Chat — /new·/list·/switch·/dir 명령으로 에이전트 세션을 채팅에서 완전 관리, 디렉토리 히스토리까지 지원 (B) Lifecycle Event Hooks — on_message·on_session·on_cron·on_permission·on_error 5종 이벤트에 셸 명령 또는 웹훅 자동 실행, 외부 자동화 체인 연결 가능 (C) Multi-Agent Relay — 단일 그룹챗에서 Claude+Codex+Gemini 동시 대화, 에이전트 간 크로스체크를 사용자가 실시간 관찰 (D) Permission Escalation — /mode yolo(자동승인)↔/mode default(확인필요) 원격 전환으로 위험도에 따른 동적 권한 관리 (E) User Isolation — 프로젝트별 독립 OS 사용자로 파일시스템 샌드박싱. 우리 시스템의 telegram-notifier(단방향) + rc 스킬(reply 기반)을 세션 관리·이벤트 훅·멀티에이전트 릴레이로 확장하는 구체적 청사진.~/.claude/rules/bidirectional-agent-messaging.md 신규 생성. 핵심: (A) 에이전트-채팅 양방향 브릿지 아키텍처 — 세션 관리, 이벤트 훅, 멀티에이전트 릴레이 (B) 기존 telegram-notifier를 양방향 원격 제어로 확장하는 경로 (C) 라이프사이클 훅의 HARD 전환 가능성 (셸 exit code 기반)"Orchestration-builder SDK for multi-agent systems. Declarative city.toml files define desired state that a controller/supervisor loop reconciles with running state. Convergence loops — bounded iterative refinement loops that iteratively reconcile desired versus actual system state."
state-driven-orchestration(oh-my-codex)이 "파일 기반 상태 영속화"이고 declarative-agent-coordination(takt)이 "YAML 선언적 명세"라면, gascity는 "선언과 실행 사이의 자동 수렴 루프" — 드리프트(desired≠actual) 감지 + 자동 복구. 핵심 차별점: (A) Controller/Supervisor Loop — desired vs actual 비교 → 차이 해소를 무한 반복, 수렴(drift=0) 시 종료. bug-fixer 4회 로테이션보다 체계적 (B) Runtime Provider Abstraction — tmux·subprocess·exec·Kubernetes 중 동일 선언으로 런타임 전환, 배포 환경 독립 (C) Orchestration Primitives — Formulas(재사용 태스크 정의)·Molecules(복합 작업 단위)·Waits(동기화)·Mail(비동기 통신) — Task API보다 풍부한 프리미티브 어휘 (D) Beads Integration — beads 메모리 시스템 기반 영속적 작업 추적. /team Phase 3 병렬 구현에서 "모든 specialist 완료"를 desired로 선언하면 실패 시 자동 재시도하는 패턴.~/.claude/rules/desired-state-agent-reconciliation.md 신규 생성. 핵심: (A) desired-state 선언 + controller 수렴 루프 (B) 런타임 추상화로 실행 환경 독립 (C) 드리프트 감지를 JSON diff → jq로 HARD 전환 가능completion-verification.md가 "완료 후 자가 검증"이었다면, agent-skills는 "매 단계 진행 전 검증 + 변명 패턴 사전 차단" — 사후 검증에서 사전 검증으로의 패러다임 전환. 핵심 패턴: (A) Anti-Rationalization Tables — "나중에 테스트 추가" → "Red-Green-Refactor 위반, 커밋 불가", "빌드 통과했으니 OK" → "빌드 ≠ 기능 정상, 브라우저 테스트 필수" 등 흔한 우회 변명에 대한 문서화된 반박 (B) Non-Negotiable Evidence — 각 Phase gate에서 증거 기반 검증 필수 (C) 7 Slash Commands(/spec, /plan, /build, /test, /review, /code-simplify, /ship) (D) 3 Specialist Personas(코드 리뷰어, 테스트 엔지니어, 보안 감사) — Hyrum's Law, Beyonce Rule, Chesterton's Fence 등 Google 엔지니어링 문화 직수입. 핵심 발견 #2: njbrake/agent-of-empires(⭐1,868, +184/wk, Rust, MIT) — tmux 기반 영속 에이전트 세션 관리. 터미널 종료·네트워크 끊김에도 에이전트 실행이 중단되지 않는 세션 오케스트레이터. 기존 worktree-parallel-agents(공간적 격리) + worktree-shared-state(파일 기반 조율)가 "격리와 공유"를 다룬다면, agent-of-empires는 "시간적 영속성" — 세션이 터미널 수명에 묶이지 않음. 핵심 패턴: (A) tmux-Backed Persistence — 각 에이전트가 독립 tmux 세션에서 실행, 앱 재시작 후에도 상태 보존 (B) 4-State Detection(running/waiting/idle/error) — 세션 상태를 bash로 결정론적 조회 (C) Profile-Based Isolation — 프로젝트별 독립 세션 프로필 + Docker 샌드박싱 (D) TUI + Web Dashboard — 실시간 터미널 렌더링으로 에이전트 모니터링. Claude Code, OpenCode, Codex CLI 등 10+ 에이전트 동시 관리 검증. 추가 주목: mattpocock/skills(⭐53,491, +33,628/wk — 이번 주 전체 최고 성장, 5만→53K, CONTEXT.md 도메인 용어 주입 패턴), obra/superpowers(⭐176,013, +9,089/wk — 17만 유지 1위), forrestchang/andrej-karpathy-skills(⭐105,375, +21,896/wk — 10만 유지), warpdotdev/warp(⭐52,014, +24,591/wk — 에이전틱 개발환경 이번 주 2.4만 폭발 성장 지속), farion1231/cc-switch(⭐57,485, +6,556/wk — 멀티 AI 에이전트 데스크탑), badlogic/pi-mono(⭐43,703, +4,115/wk — 통합 LLM 에이전트 툴킷), rtk-ai/rtk(⭐39,705, +5,251/wk — 토큰 압축 4만 돌파), abhigyanpatwari/GitNexus(⭐34,228, +5,376/wk — Graph RAG 3.4만), addyosmani/agent-skills(⭐27,053, +4,361/wk — Google 엔지니어링 스킬 2.7만, 이번 주 핵심 적용), linshenkx/prompt-optimizer(⭐27,811, +954/wk), RooCodeInc/Roo-Code(⭐23,823 — AI 에이전트 팀 IDE), gastownhall/beads(⭐22,939 — 코딩 에이전트 메모리), Alishahryar1/free-claude-code(⭐19,857, +12,928/wk — 최대 성장폭), VoltAgent/awesome-claude-code-subagents(⭐18,925, +670/wk — 100+ 서브에이전트 컬렉션), Leonxlnx/taste-skill(⭐14,428, +1,750/wk — anti-slop 디자인), mksglu/context-mode(⭐11,859, +1,938/wk — 도구 출력 샌드박싱 안정 성장), zilliztech/claude-context(⭐10,555, +1,681/wk — 시맨틱 코드 검색 MCP 1만 유지), lsdefine/GenericAgent(⭐8,719, +1,875/wk — 자가진화 에이전트), huggingface/ml-intern(⭐8,020, +3,157/wk — HF ML 엔지니어 에이전트), lukilabs/craft-agents-oss(⭐5,678, +1,193/wk — 에이전트 네이티브 데스크탑, 이벤트 기반 자동화), Tracer-Cloud/opensre(⭐4,208, +1,328/wk — AI SRE 에이전트 툴킷), njbrake/agent-of-empires(⭐1,868 — tmux 영속 세션 오케스트레이터, 이번 주 핵심 적용), zilliztech/memsearch(⭐1,563 — 에이전트 통합 메모리 레이어, L1→L2→L3 점진적 리콜). 구루 동향: karpathy — autoresearch(⭐78,394) 안정 유지, 신규 push 없음; anthropics — 전 라인업(skills 127K, claude-code 120K, cookbooks 42K) 활발 푸시 지속. 생태계 메타: 이번 주 전체 GitHub 특징 — "규율적 스킬(agent-skills 27K: 변명 차단 게이트, mattpocock 53K: 도메인 컨텍스트 주입) + 영속 실행(agent-of-empires: tmux, craft-agents: 이벤트 자동화) + 인프라 안정화(warp +24K, rtk 40K, cc-switch 57K)". 에이전트 생태계가 "더 똑똑한 에이전트"에서 "더 규율적이고 중단 없는 에이전트"로 가치 축 이동."Non-negotiable evidence requirements at every phase gate. 'Seems right' is insufficient. Anti-rationalization tables document common excuses and their rebuttals — 'I'll add tests later' is rebutted with 'Red-Green-Refactor violation, commit blocked.'"
completion-verification.md가 "완료 후 자가 검증"이고 two-stage-review-gate(superpowers)가 "스펙 준수 vs 코드 품질 분리"라면, agent-skills는 "매 단계 진행 전에 흔한 우회 변명을 미리 차단"하는 사전 방어 패턴. 핵심 차별점: (A) Anti-Rationalization Tables — 각 단계별 "나중에 테스트 추가" → "Red-Green-Refactor 위반, 커밋 불가", "빌드 통과했으니 OK" → "빌드 ≠ 기능 정상, 브라우저 테스트 필수", "이건 너무 단순해서 테스트 불필요" → "단순한 코드가 가장 테스트하기 쉽다" 등 문서화된 반박 (B) Non-Negotiable Evidence — "seems right"이 아닌 파일/exit code/스크린샷 증거 필수 (C) Progressive Disclosure — 참조 자료를 필요 시에만 로드하여 토큰 절약 (D) Chesterton's Fence — 코드 삭제 시 "왜 추가했는지" 이해 후에만 제거 허용. 우리 시스템의 qa-browser-test-required("빌드만 PASS하고 떠넘기기 금지"), completion-verification("완료 선언 전 필수 자가 검증")과 함께 사전(anti-rationalization) + 사후(completion-verification) 이중 방어 체계 완성.~/.claude/rules/anti-rationalization-verification-gates.md 신규 생성. 핵심: (A) Build/Verify/Review 단계별 anti-rationalization 테이블 — 흔한 변명에 대한 미리 작성된 반박 (B) 각 Phase gate에서 증거 기반 검증 필수 — "seems right" 구조적 차단 (C) Progressive disclosure로 참조 자료 토큰 절약 (D) 기존 completion-verification(사후)과 함께 사전+사후 이중 방어"Sessions persist in background tmux processes, surviving terminal disconnects and application restarts. Run multiple AI agents in parallel across different branches of your codebase, each in its own isolated session with optional Docker sandboxing."
worktree-parallel-agents(worktrunk)가 "공간적 격리(브랜치별 worktree)"이고 worktree-shared-state(CORAL)가 "파일 기반 상태 조율"이라면, agent-of-empires는 "시간적 영속성 — 세션이 터미널 수명에 묶이지 않음". 우리 시스템의 /loop, /auto-issue, trend-harvester 같은 장시간 워크플로우가 터미널 종료 시 중단되는 문제를 구조적으로 해결. 핵심 차별점: (A) tmux-Backed Persistence — 각 에이전트가 독립 tmux 세션에서 실행, 네트워크 끊김·앱 재시작에도 지속 (B) 4-State Detection(running/waiting/idle/error) — tmux has-session + 프로세스 상태로 결정론적 조회, bash exit code로 HARD 판정 가능 (C) Profile-Based Isolation — 프로젝트별 독립 세션 + git worktree + Docker 샌드박싱 조합 (D) TUI + Web Dashboard — 에이전트 세션을 실시간 모니터링하는 터미널/브라우저 인터페이스. 기존 3규칙(worktree-parallel + shared-state + canonical-workflow-fsm)에 "시간축 영속성"을 추가하여 공간·상태·시간 3차원 에이전트 격리 체계 완성.~/.claude/rules/persistent-agent-sessions.md 신규 생성. 핵심: (A) 장시간 에이전트 워크플로우를 tmux 세션으로 래핑 — 터미널 독립 실행 (B) 4-State Detection으로 세션 상태 결정론적 조회 (C) 프로젝트별 프로필 격리 + Docker 샌드박싱 (D) 기존 worktree-parallel(공간)+shared-state(상태)와 함께 공간·상태·시간 3차원 격리deterministic-orchestrator-scheduling(bernstein)이 "스케줄링을 결정론적 코드로"였다면, Symphony는 "태스크 보드 자체가 오케스트레이션의 단일 진실 원천(SSOT)" — 에이전트 관리의 무게중심을 코드에서 프로젝트 관리 도구로 이동. 핵심 발견 #2: SWE-Pruner(⭐274, Python, ACL 2026 accepted) — 코딩 에이전트의 파일 읽기 결과를 현재 태스크 목표를 인식하는 0.6B 경량 뉴럴 스키머가 라인 단위로 선별 유지하는 미들웨어. "인간 프로그래머가 디버깅 중 소스코드를 선택적으로 훑어보는 행동"을 CRF 기반 시퀀스 라벨링으로 구조화. SWE-Bench Verified에서 23-54% 토큰 절감 + 성공률 유지/향상, LongCodeQA에서 14.84x 압축. Claude Code 비용 40% 절감 실증. 기존 context-compression-pipeline(claw)이 "콘텐츠 타입별 다단계 압축"이고 tool-output-sandboxing(context-mode)이 "도구 출력 격리"라면, SWE-Pruner는 "현재 태스크 목표를 힌트로 사용하여 관련 코드만 유지" — 태스크 인식 지능형 압축의 첫 학술 검증. 추가 주목: openai/symphony(⭐20,400, +15,000/wk — OpenAI 공식 에이전트 오케스트레이션 스펙, Elixir 레퍼런스 구현), mattpocock/skills(⭐52,782, +33,628/wk — 이번 주 전체 최고 성장률, 5만 지속), forrestchang/andrej-karpathy-skills(⭐104,866, +21,896/wk — 10만 유지), warpdotdev/warp(⭐51,627, +24,591/wk — 에이전틱 개발환경 이번 주 2.4만 폭발 성장), openai/codex(⭐79,420, Rust — 터미널 경량 코딩 에이전트 8만 돌파), farion1231/cc-switch(⭐57,229, +6,556/wk — 멀티 AI 코딩 에이전트 데스크탑 앱), TauricResearch/TradingAgents(⭐60,048, +6,152/wk — 멀티에이전트 금융 트레이딩 6만 돌파), badlogic/pi-mono(⭐43,633, +4,115/wk — 통합 LLM 에이전트 툴킷), rtk-ai/rtk(⭐39,550, +5,251/wk — 토큰 압축 표준), abhigyanpatwari/GitNexus(⭐34,108, +5,376/wk — Graph RAG), openai/openai-agents-python(⭐25,714 — 멀티에이전트 워크플로우 프레임워크), linshenkx/prompt-optimizer(⭐27,774, +954/wk), gastownhall/beads(⭐22,939 — 코딩 에이전트 메모리), Alishahryar1/free-claude-code(⭐19,741, +12,928/wk — 최대 성장폭 지속), mksglu/context-mode(⭐11,781, +1,938/wk — 도구 출력 샌드박싱 안정 성장), zilliztech/claude-context(⭐10,537, +1,681/wk — 시맨틱 코드 검색 MCP), lsdefine/GenericAgent(⭐8,657, +1,875/wk — 자가진화 에이전트, L0-L4 메모리), AIDC-AI/Pixelle-Video(⭐8,709, +2,023/wk — AI 자동 숏 비디오 엔진), huggingface/ml-intern(⭐7,928, +3,157/wk — HuggingFace ML 엔지니어 에이전트), Tracer-Cloud/opensre(⭐4,187, +1,328/wk — AI SRE 에이전트 툴킷). 구루 동향: anthropics — skills(⭐126,969)+claude-code(⭐119,749)+claude-cookbooks(⭐41,979)+claude-plugins-official(⭐18,373)+knowledge-work-plugins(⭐11,725) 전 라인업 활발; openai — symphony(⭐20,400) 공식 오픈소스 발표 + codex(⭐79,420) + openai-agents-python(⭐25,714) 에이전트 생태계 확장; karpathy — nanochat 안정 유지; simonw — 데이터 스크래핑 자동화 지속. 생태계 메타: 이번 주 전체 GitHub 특징 — "플릿 오케스트레이션의 표준화(Symphony 20K⭐, OpenAI 공식) + 컨텍스트 효율의 학술 검증(SWE-Pruner ACL 2026) + 에이전틱 환경의 폭발 성장(warp +24K/wk)". 에이전트 생태계가 "단일 에이전트 도구"에서 "에이전트 플릿 운영 플랫폼"으로 전환하며, 오케스트레이션과 컨텍스트 공급이 양대 축으로 분화."Symphony turns project work into isolated, autonomous implementation runs, allowing teams to manage work instead of supervising coding agents. 500% increase in landed pull requests — when engineers stopped supervising individual Codex sessions, the perceived cost of each code change dropped dramatically."
deterministic-orchestrator-scheduling(bernstein)이 "스케줄링 결정을 결정론적 코드로"라는 원칙이었고, state-driven-orchestration(oh-my-codex)이 "상태를 파일로 영속화"였다면, Symphony는 "태스크 보드 자체가 SSOT(단일 진실 원천)"이라는 운영 모델. (A) Continuous Polling State Machine — Linear 보드를 연속 폴링하여 열린 이슈마다 에이전트 워크스페이스를 자동 프로비저닝. 에이전트 크래시 시 자동 재시작, 새 작업 즉시 픽업. (B) Proof-of-Work Artifacts — PR 제출 시 CI 상태, 리뷰 피드백 대응, 복잡도 분석, 워크스루 비디오를 증거 패키지로 동반 — "generation scales effortlessly, validation does not"에 대한 OpenAI의 해답. (C) 500% PR 증가 — 개별 에이전트 세션 감독을 중단하고 작업 관리에만 집중하자 PR 착지율 5배 증가. (D) Multi-Language — 레퍼런스는 Elixir(동시성), TypeScript·Python·Rust로도 구현 검증. 우리 시스템에서 /auto-issue 스킬이 이미 유사한 패턴(GitHub Issues → 에이전트 위임)이지만, Symphony의 "연속 폴링 + 자동 재시작 + 증거 패키지" 3요소를 rule로 추출.~/.claude/rules/continuous-fleet-orchestration.md 신규 생성. 핵심: (A) 이슈 트래커가 에이전트 플릿의 유일한 SSOT (B) 연속 폴링 상태 머신으로 에이전트 자동 할당/재시작 (C) PR에 Proof-of-Work 증거 패키지 동반 (D) 인간 역할을 "감독"에서 "작업 관리"로 전환"Human programmers selectively skim source code during development — SWE-Pruner trains a 0.6B model to replicate this task-aware selective retention. 23-54% token reduction on SWE-Bench Verified while even improving success rates. Generic compression ignores task context — irrelevant code is noise, not context."
context-compression-pipeline(claw, 콘텐츠 타입별 다단계), tool-output-sandboxing(context-mode, 출력 격리), cli-output-compression(rtk, CLI 필터링) — 은 모두 콘텐츠 자체의 구조/크기만 보고 압축. SWE-Pruner는 "지금 에이전트가 무엇을 하고 있는가"(태스크 목표)를 힌트로 사용하여 관련 없는 코드를 제거. (A) Goal Formulation — 에이전트 현재 태스크에서 명시적 목표 추출("에러 핸들링 코드에 집중"). (B) Semantic Highlight — 0.6B CRF 기반 시퀀스 라벨링으로 라인별 keep/prune 결정. 논리 구조(함수 경계, 제어 흐름) 보존. (C) Middleware — 에이전트 코드 수정 없이 grep/cat/Read 명령을 투명하게 인터셉트. (D) 성능 — SWE-Bench Verified 23-54% 토큰 절감 + 성공률 유지/향상(잡음 제거 효과), LongCodeQA 14.84x 압축. 기존 3종 압축(입력/출력/CLI)에 "태스크 인식 축"을 추가하여 4차원 토큰 절감 체계 완성.~/.claude/rules/task-aware-context-pruning.md 신규 생성. 핵심: (A) 대규모 코드 탐색 시 현재 태스크 목표로 프루닝 가이드 (B) 0.6B 경량 뉴럴 스키머로 라인 단위 선별 유지 (C) 미들웨어 아키텍처로 에이전트 코드 수정 불필요 (D) 기존 claw/context-mode/rtk와 함께 입력·출력·CLI·태스크인식 4축 토큰 절감 체계tool-output-sandboxing.md rule로 핵심 패턴 추출 적용 — "에이전트가 데이터 처리자가 아닌 코드 생성자로 동작"하여 98% 토큰 절감. 핵심 발견 #2: zilliztech/claude-context(⭐10,528, +2,330/wk, TypeScript) — 82차에서 8/10으로 분석했으나, 이번 주 1만 돌파 + 안정 성장으로 MCP 생태계 de facto 표준으로 안착 중. Merkle-tree 증분 인덱싱 + BM25/Vector 하이브리드 검색이 핵심. 우리 시스템에 semantic-code-search-mcp.md rule로 독립 적용 — graph-rag-codebase-indexing(GitNexus)의 "지식 그래프 blast radius"와 상호보완. 추가 주목: mattpocock/skills(⭐52,266, +30,945/wk — 5만 돌파 후에도 최고 성장률 지속), forrestchang/andrej-karpathy-skills(⭐104,545, +23,062/wk — 10만 유지), obra/superpowers(⭐175,521, +9,158/wk — 17만 돌파, 에이전틱 스킬 프레임워크 절대 1위), warpdotdev/warp(⭐51,298, +21,863/wk — 에이전틱 개발환경 5만 유지), farion1231/cc-switch(⭐57,146, +6,719/wk — 멀티 AI 코딩 에이전트 데스크탑 앱 안정 성장), badlogic/pi-mono(⭐43,566, +4,111/wk — 통합 LLM API+Agent Runtime+Coding Agent CLI), rtk-ai/rtk(⭐39,431, +5,712/wk — 토큰 압축 표준 지속), abhigyanpatwari/GitNexus(⭐34,035, +5,209/wk — Graph RAG), linshenkx/prompt-optimizer(⭐27,763, +930/wk — MCP 프롬프트 최적화), gastownhall/beads(⭐22,939, +1,747/wk — 코딩 에이전트 메모리), Alishahryar1/free-claude-code(⭐19,654, +14,666/wk — 최대 성장폭 지속), Wei-Shaw/sub2api(⭐17,073, +2,206/wk — AI 구독 게이트웨이), vxcontrol/pentagi(⭐16,287, +756/wk — 자율 AI 침투 테스트), Tencent/WeKnora(⭐14,139 — LLM 지식 플랫폼), lobehub/lobehub(⭐75,921 — 멀티에이전트 워크스페이스), chenhg5/cc-connect(⭐6,952, +976/wk — AI 에이전트↔메시징 브릿지), hatchet-dev/hatchet(⭐7,045 — AI 에이전트 오케스트레이션 엔진), Tracer-Cloud/opensre(⭐4,172, +1,458/wk — AI SRE 에이전트 툴킷 급성장). 구루 동향: anthropics — claude-code(⭐119,659)+claude-plugins-official+knowledge-work-plugins 전 라인업 활발 푸시 지속; karpathy — nanochat(⭐52,763) 안정 유지; simonw — 인프라 데이터 스크래핑 일일 자동화 지속. 생태계 메타: 이번 주 전체 GitHub 특징 — "컨텍스트 효율(context-mode 12K, claude-context 11K) + 에이전트 인프라(cc-switch 57K, pi-mono 44K) + 스킬 마켓플레이스(superpowers 176K, skills 52K, karpathy-skills 105K)" 세 축의 안정적 심화. 에이전트 개발이 "운영 인프라"에서 "효율 최적화"로 무게중심 재이동."Raw data never leaves the sandbox. The agent writes code that produces only the needed result via stdout. 56KB Playwright snapshot becomes 299B. Session extends from 30 min to 3 hours. Code-Generation-over-Data-Loading paradigm."
console.log()로 결과만 반환. 에이전트가 "데이터 처리자"가 아닌 "코드 생성자"로 동작. 압축률 실측: Playwright snapshot 56.2KB→299B(99%), GitHub Issues 20건 58.9KB→1.1KB(98%), 전체 세션 315KB→5.4KB(98%). 세션 지속 30분→3시간(6배). 기존 cli-output-compression(rtk)이 "CLI 출력 후처리 필터링"이고, context-compression-pipeline(claw)이 "파일 입력 다단계 압축"이라면, tool-output-sandboxing은 "실행 자체를 격리하여 raw data가 컨텍스트에 진입하는 것을 원천 차단" — 세 패턴이 입력/출력/실행 3계층에서 상호보완. 5KB 초과 출력 시 Intent-Driven Filtering — SQLite FTS5에 인덱싱 후 BM25 검색으로 관련 섹션만 반환.~/.claude/rules/tool-output-sandboxing.md 신규 생성. 핵심: (A) 대용량 도구 출력(Playwright, API 응답, 로그)은 샌드박스 서브프로세스에서 실행 — raw output 컨텍스트 진입 차단 (B) 에이전트는 데이터를 직접 읽는 대신 결과를 생산하는 코드를 작성 (C) 5KB 초과 출력은 FTS5 인덱싱 후 의도 기반 검색으로 관련 부분만 주입 (D) 기존 rtk(CLI 출력)+claw(파일 입력)과 함께 입력/출력/실행 3계층 토큰 절감 체계 완성"Hybrid code search combining BM25 and dense vector embeddings. AST-aware chunking via Tree-sitter. Incremental indexing with Merkle trees. Natural language queries replace multi-round grep chains. 40% token reduction under equivalent retrieval quality."
verifyToken, checkSession, authMiddleware 등 함수명이 달라도 시맨틱으로 발견. (B) AST-Based Chunking — Tree-sitter로 함수/클래스 경계를 인식하여 시맨틱 단위로 분할. 라인 기반 split이 함수 중간을 자르는 문제 해결. (C) Merkle-Tree Incremental Indexing — 변경 파일만 재인덱싱. 10만+ 파일 코드베이스에서도 초 단위 갱신. (D) 40% 토큰 절감 — 전체 파일 Read 대신 관련 스니펫만 주입. codebase-search-before-create 규칙의 실행 효율을 근본적으로 향상.~/.claude/rules/semantic-code-search-mcp.md 신규 생성. 핵심: (A) 대규모 코드베이스 탐색은 grep/glob 체인 대신 시맨틱 MCP 검색 우선 (B) 코드 분할은 라인이 아닌 AST 경계 기반 (C) 인덱스는 Merkle-tree 증분 갱신 (D) graph-rag(GitNexus)의 blast radius와 상호보완 — 검색은 semantic, 영향 분석은 graphworktree-parallel-agents(worktrunk), worktree-shared-state(CORAL)이 "격리+조율 패턴"이었다면, AoE는 이를 운영 가능한 제품으로 통합 — 상태 감지+영속성+격리+원격 접근을 단일 TUI에서. 핵심 발견 #2: microsoft/agent-framework(⭐10,015, Python/C#, Microsoft 공식) — 그래프 기반 멀티 에이전트 워크플로우 오케스트레이션 프레임워크. 핵심: Graph-Based Orchestration — 에이전트와 결정론적 함수를 그래프 노드로 연결, 데이터 플로우 기반 실행. Checkpointing + Time-Travel — 워크플로우 실행 상태를 체크포인트로 저장, 임의 시점으로 되돌려 재실행(디버깅/감사). Human-in-the-Loop Gates — 워크플로우 중 인간 승인이 필요한 지점을 선언적으로 정의. Streaming — 에이전트 실행 결과를 비동기 스트리밍. OpenTelemetry — 분산 추적으로 멀티에이전트 실행 가시성 확보. 기존 deterministic-orchestrator-scheduling(bernstein)이 "스케줄링을 결정론적 코드로"였다면, agent-framework는 "전체 워크플로우를 그래프+체크포인트로 재현 가능하게". 추가 주목: mattpocock/skills(⭐51,535, +30,945/wk — 이번 주도 전체 최고 성장률 지속, 5만 돌파), forrestchang/andrej-karpathy-skills(⭐104,221, +23,062/wk — 10만 유지), TauricResearch/TradingAgents(⭐58,973, +5,995/wk — 멀티에이전트 금융 트레이딩), badlogic/pi-mono(⭐43,456, +4,111/wk — 통합 LLM 에이전트 툴킷), farion1231/cc-switch(⭐57,029 — AI 코딩 에이전트 올인원 데스크탑 앱 지속 성장), linshenkx/prompt-optimizer(⭐27,739, +930/wk — MCP 기반 프롬프트 최적화), Alishahryar1/free-claude-code(⭐19,544, +14,666/wk — 이번 주 전체 최대 성장폭 지속), huggingface/ml-intern(⭐7,821, +5,665/wk — HuggingFace ML 엔지니어 에이전트), lukilabs/craft-agents-oss(⭐5,653, +1,020/wk — 문서 중심 에이전트 프레임워크), zilliztech/memsearch(⭐1,557 — AI 에이전트 영구 메모리). 구루 동향: anthropics — claude-plugins-official(⭐18,347)+knowledge-work-plugins(⭐11,710)+claude-code(⭐119,659) 전 라인업 활발 푸시(5/1), PHP SDK(⭐141) 추가로 7개 언어 SDK 완성; karpathy — nanochat(⭐52,763) 지속 업데이트; simonw — 인프라 데이터 스크래핑(FEMA, USGS, 캘리포니아 도로) 일일 자동화 지속. 생태계 메타: 이번 주 전체 GitHub 특징 — "에이전트 실행 인프라(AoE 세션 관리, Docker 샌드박�) + 워크플로우 재현성(그래프 체크포인팅, time-travel) + 에이전트 설정 마켓플레이스(skills 51K, karpathy-skills 104K)" 세 축의 동시 성숙. 에이전트 개발이 "모델 능력"에서 "운영 인프라 엔지니어링"으로 무게중심 가속 이동."Agent-aware status detection (running/waiting/idle) turns multi-agent orchestration from blind dispatching to operational visibility. tmux persistence survives SSH disconnects and terminal crashes. Git worktree per agent eliminates file conflicts in parallel work."
worktree-shared-state(CORAL)이 파일 기반 status 필드(completed/in_progress)를 수동 기록하는 방식이었다면, AoE는 에이전트 프로세스의 실제 행동을 분석하여 의미적 상태(running/waiting-for-input/idle)를 자동 감지. tmux 세션 출력을 파싱하여 프롬프트 대기 상태, 실행 중 상태, 유휴 상태를 구분. 이는 auto-block-stuck-tasks(flow-next)의 "N회 실패 감지"보다 정밀한 실시간 행동 기반 상태 추적. (B) tmux Persistence Layer — 에이전트 세션이 관리 프로세스(AoE TUI)와 완전 분리되어 tmux에서 독립 실행. SSH 끊김, 터미널 크래시, AoE 종료 후에도 에이전트 계속 작업. 기존 fresh-context-iteration(ralph)이 "세션 분리로 fresh context"를 추구했다면, AoE는 "세션 영속으로 작업 연속성"을 추구 — 상호보완적 패턴. (C) Git Worktree + Docker Sandboxing — 기존 worktree-parallel-agents(worktrunk)의 브랜치 기반 격리에 Docker 컨테이너 격리를 선택적으로 추가. shared auth volume으로 자격증명은 공유하면서 파일 시스템은 격리. 기존 sandboxed-agent-code-execution(monty)의 "코드를 샌드박스에서 실행"과 결합하면 에이전트 자체를 샌드박스에서 운영 가능. (D) Web Dashboard + Remote Access — TUI 외에 브라우저 대시보드에서 에이전트 터미널을 실시간 렌더링. HTTPS + QR코드 + 패스프레이즈 인증으로 모바일에서도 에이전트 모니터링. 10종 에이전트 지원(Claude Code, Codex, Gemini CLI, OpenCode, Mistral Vibe, Copilot CLI, Pi.dev, Factory Droid, Hermes, Cursor CLI). 우리 시스템 적용: team-orchestrator의 Phase 3 병렬 구현에서 specialist별 tmux 세션 관리 + 상태 감지 패턴 적용 가능. 현재 Agent tool의 isolation: worktree와 직접 결합하면 에이전트 실행의 가시성과 영속성을 동시 확보.~/.claude/rules/multi-agent-session-infrastructure.md 신규 생성 후보. 핵심: (A) 병렬 에이전트 실행 시 tmux 기반 세션 영속성 — 관리 프로세스 종료와 무관하게 에이전트 작업 지속 (B) Agent-aware status detection — 프로세스 alive가 아닌 의미적 상태(running/waiting/idle) 자동 감지로 모니터링 정밀도 향상 (C) Git worktree + Docker sandboxing 이중 격리 — 파일 충돌 차단 + 실행 환경 격리 선택적 결합 (D) 원격 모니터링 — Web 대시보드로 에이전트 상태 실시간 확인"Graph-based orchestration with checkpointing and time-travel makes agent workflow debugging reproducible. Replay any step from saved state. Human-in-the-loop gates declare approval points. OpenTelemetry for distributed tracing across multi-agent execution."
deterministic-orchestrator-scheduling(bernstein)이 "스케줄링 로직을 결정론적 코드로"였다면, agent-framework는 "전체 워크플로우 토폴로지를 그래프로 선언". (B) Checkpointing + Time-Travel — 워크플로우의 임의 시점 상태를 체크포인트로 저장하고, 해당 시점으로 되돌려 재실행. 기존 checkpoint-before-mutation(moltis)이 "변경 전 스냅샷"이었다면, agent-framework는 "실행 중 모든 단계를 체크포인트 가능 — 실패 시 해당 step으로 time-travel". pause-on-failure-pattern(agent-ci)의 "실패 지점 보존 + 재실행"을 그래프 수준으로 일반화. (C) Human-in-the-Loop Gates — 워크플로우 그래프에 인간 승인 노드를 선언적으로 삽입. 기존 텔레그램 에스컬레이션과 달리 워크플로우 토폴로지에 내장. (D) OpenTelemetry 통합 — 멀티에이전트 실행의 분산 추적, 지연 분석, 병목 식별을 표준 관측 도구로. 기존 token-efficiency-tracking이 "토큰 사용량 추적"이었다면, agent-framework는 "에이전트 실행 전체를 관측 가능한 텔레메트리로".~/.claude/rules/graph-workflow-checkpointing.md 신규 생성 후보. 핵심: (A) 복잡한 멀티에이전트 워크플로우는 그래프 토폴로지로 선언 — 노드(에이전트/함수) + 엣지(데이터 플로우) (B) 실행 중 체크포인트 저장 → 실패 시 해당 step으로 time-travel 재실행 (C) 인간 승인 게이트를 워크플로우 토폴로지에 선언적으로 삽입 (D) OpenTelemetry 기반 분산 추적으로 병목 식별"Treat the LLM as a code generator, not a data processor. Sandbox tool output — 56KB Playwright snapshot becomes 299B. Session continuity via PreCompact hooks with priority-tiered state capture. FTS5 knowledge base with BM25 + trigram + proximity reranking. 98% context reduction. 14 platforms."
cli-output-compression(rtk)이 "CLI 출력 후 축약"이라면, context-mode는 "실행 자체를 격리하여 진입 차단". (B) Session Continuity (세션 연속성) — 컨텍스트 압축(compaction) 이벤트를 투명하게 넘기는 구조화된 상태 영속화. PreCompact hook이 압축 직전에 우선순위 4티어 스냅샷(≤2KB)을 생성: P1 Critical(파일, 태스크, 계획, 규칙, 프롬프트), P2 High(Git, 에러, 블로커), P3 Normal(환경, MCP, 서브에이전트), P4 Low(역할, 의도). SessionStart hook이 압축 후 스냅샷에서 작업 상태를 자동 복원 — "모델이 마지막 프롬프트부터 반복 요청 없이 이어서 작업". 기존 semantic-memory-compaction(beads)이 "완료 태스크 3줄 요약"이라면, context-mode는 "전체 작업 상태의 구조화된 우선순위별 보존". (C) FTS5 Knowledge Base — 수집된 출력을 SQLite FTS5에 제목/코드블록 단위로 청킹 후 인덱싱. 검색은 BM25 + Porter stemming(변형 매칭) + Trigram(부분 문자열) + Reciprocal Rank Fusion(전략 병합) + Proximity 재순위(근접 용어 부스트). URL은 24시간 TTL 캐시. 에이전트가 필요할 때 검색으로 관련 스니펫만 컨텍스트에 주입. 기존 graph-rag-codebase-indexing(GitNexus)이 "코드베이스 지식 그래프"라면, context-mode는 "도구 출력의 실시간 인덱싱 + 온디맨드 검색".~/.claude/rules/context-sandboxing-session-continuity.md 신규 생성. 핵심: (A) 도구 출력 5KB 초과 시 샌드박스 실행 — raw output 컨텍스트 진입 차단, 결과만 반환 (B) 장기 세션에서 PreCompact hook으로 P1~P4 우선순위 상태 스냅샷 ≤2KB 생성 → SessionStart에서 자동 복원 (C) 대용량 출력은 FTS5에 인덱싱 후 의도 기반 검색으로 관련 부분만 주입 (D) 기존 rtk 출력 압축과 상호보완 — rtk는 CLI 축약, context-mode는 샌드박스 격리role-based-agent-permissions(forgecode)가 "역할별 도구 화이트리스트"였다면, Agent SDK는 이를 공식 API로 제품화. (2) Semantic Code Intelligence 축: zilliztech/claude-context(⭐10,452, +2,330/wk, TypeScript)가 코드베이스 전체를 시맨틱 검색 가능한 벡터 인덱스로 변환하는 MCP 서버 제공. 핵심: Hybrid Search — BM25(키워드) + Dense Vector(임베딩) 결합으로 정확도 극대화. AST-Aware Chunking — Tree-sitter 기반으로 함수/클래스/모듈 단위 지능적 분할(naive text split 대비 정합성 향상). Incremental Indexing — Merkle tree로 변경된 파일만 재인덱싱(전체 재빌드 불필요). 40% 토큰 절감 — 전체 파일 읽기 대신 관련 코드 스니펫만 주입. 14개 플랫폼 지원. 기존 graph-rag-codebase-indexing(GitNexus)가 "지식 그래프 + 의존성 분석"이었다면, claude-context는 "벡터 검색 + AST 청킹"으로 실시간 코드 질의에 특화. 추가 주목: warpdotdev/warp(⭐49,441, +21,863/wk — 이번 주 전체 최대 성장폭, 에이전틱 개발환경), mattpocock/skills(⭐49,729, +30,945/wk — 이번 주 전체 최고 성장률 지속), forrestchang/andrej-karpathy-skills(⭐102,933, +23,062/wk — 10만 유지), Wei-Shaw/sub2api(⭐16,987, +2,206/wk — AI 구독 공유 게이트웨이, Go, 법적 리스크 주의), gastownhall/gascity(⭐548, +240/wk — beads 팀의 멀티에이전트 오케스트레이션 SDK, city.toml 선언적 설정 + 수렴 루프 + Beads 메모리 통합), alexzhang13/rlm(⭐4,116, +553/wk — Recursive Language Models, LLM이 자신을 재귀 호출하여 복잡한 문제 분해, 샌드박스 REPL에서 실행), rtk-ai/rtk(⭐39,027, +5,712/wk — 토큰 압축 de facto 표준 지속), QuantumNous/new-api(⭐30,007, +1,496/wk — 통합 AI 게이트웨이 3만 돌파), abhigyanpatwari/GitNexus(⭐33,798, +5,209/wk — Graph RAG 성장 지속), lsdefine/GenericAgent(⭐8,502, +2,350/wk — 자가 진화 에이전트), anthropics/claude-code(⭐119,532 — 12만 근접). 구루 동향: anthropics — claude-agent-sdk-python(⭐6,635) + claude-agent-sdk-typescript(⭐1,359) 공식 Agent SDK 듀얼 출시, claude-code-action(⭐7,363) CI 통합 지속 강화, claude-plugins-community 커뮤니티 마켓플레이스 운영; openai — codex(⭐79,192) + openai-agents-python(⭐25,620) 멀티에이전트 SDK 성장 + openai-agents-js(⭐2,894); simonw — 인프라 데이터 스크래핑(FEMA shelters, PG&E outages, USGS, California wildlife) 일일 자동화 지속; karpathy — autoresearch(⭐78,156) 안정 유지. 생태계 특징: Managed Agents API 공개 베타 + Advisor Tool(executor+advisor 이중 모델) + ant CLI(Claude API 전용 CLI) + MCP가 Linux Foundation 기부로 업계 표준 확립. Claude Code SWE-bench 93.9% 달성. 이번 주 전체 GitHub 특징: 에이전트 생태계가 "공식 SDK 성숙(Agent SDK) + 코드 지능(semantic search MCP) + 게이트웨이 확장(sub2api 17K)" 세 축에서 동시 진화."Define tools as Python decorators — no subprocess management, no IPC overhead, same-process debugging. Hook into PreToolUse to deny dangerous commands. Permission modes for fine-grained access control. The official way to build with Claude Code agents."
@tool 데코레이터로 Python 함수를 MCP 도구로 등록. 외부 프로세스 관리 없이 같은 프로세스에서 도구 실행. IPC 오버헤드 제거, 타입 안전성 보장, 디버거로 직접 추적 가능. create_sdk_mcp_server()로 인스턴스화 후 agent options에 주입. 기존 per-turn-tool-adaptation(도구 동적 선택)과 role-based-agent-permissions(역할별 도구 제한)의 공식 API 구현. (B) Agent Hooks — Deterministic Control — PreToolUse 훅 매처로 특정 도구 호출을 조건부 deny/allow. 예: Bash에서 특정 패턴 차단, Write에서 특정 경로 보호. 기존 우리 시스템의 qa-gate-before-push.sh, no-env-commit.sh 등 hook 패턴과 정확히 동일한 아키텍처가 공식 SDK에 편입된 것. HookMatcher(matcher="Bash", hooks=[check_fn]) 형태로 도구별 매칭. (C) Working Directory Isolation — ClaudeAgentOptions(cwd="/path")로 에이전트의 파일 시스템 접근 범위를 디렉토리 단위로 격리. 기존 worktree-parallel-agents의 격리 패턴이 SDK 레벨로 내장. TypeScript SDK(⭐1,359)도 동시 출시 — 동일 API surface. 기존 sandboxed-agent-code-execution(pydantic/monty)가 "에이전트 코드를 샌드박스에서 실행"이었다면, Agent SDK는 "에이전트 자체를 SDK로 제어 — 도구 등록, 결정 개입, 범위 격리를 프로그래밍 인터페이스로".~/.claude/rules/agent-sdk-in-process-tools.md 신규 생성. 핵심: (A) 커스텀 도구는 외부 MCP 서버 subprocess 대신 in-process SDK 방식 우선 — IPC 제거, 디버깅 용이, 배포 단순화 (B) 에이전트 결정 제어는 자연어 프롬프트가 아닌 PreToolUse hook으로 HARD 제어 (C) 에이전트 격리는 working directory 옵션으로 파일 접근 범위 제한 (D) Agent SDK의 permission_mode로 도구별 자동 승인/차단 관리"Hybrid code search combining BM25 and dense vector embeddings. AST-aware chunking via Tree-sitter across 15+ languages. Incremental indexing with Merkle trees — only modified files re-indexed. 40% token reduction while maintaining retrieval quality."
handleAuth, verifyToken, loginMiddleware를 함수명이 달라도 시맨틱으로 발견. 기존 codebase-search-before-create 규칙이 "Grep/Glob으로 탐색"이었다면, claude-context는 "의미 기반 검색으로 기존 구현 발견율 극대화". (B) AST-Aware Chunking — Tree-sitter 파서로 TypeScript/Python/Java/C++/Go/Rust 등 15+ 언어의 함수·클래스·모듈 경계를 인식하여 청킹. naive text splitting(줄 수 기반)이 함수 중간을 자르는 문제를 구조적으로 해결. 기존 graph-rag-codebase-indexing(GitNexus)의 Tree-sitter AST 파싱과 동일 기반이나, GitNexus는 "지식 그래프 + blast radius"에, claude-context는 "실시간 검색 + 컨텍스트 주입"에 특화. (C) Incremental Indexing — Merkle tree로 파일별 해시 추적. 변경된 파일만 재인덱싱하여 대규모 코드베이스(100K+ 파일)에서도 초 단위 업데이트. (D) 40% 토큰 절감 — 전체 파일 Read 대신 관련 코드 스니펫만 에이전트 컨텍스트에 주입. Milvus/Zilliz Cloud 벡터 DB 백엔드. OpenAI/VoyageAI/Ollama/Gemini 임베딩 지원. 14개 플랫폼(Claude Code, Cursor, Gemini CLI, VS Code Copilot 등) 호환.~/.claude/rules/semantic-code-search-mcp.md 신규 생성. 핵심: (A) 대규모 코드베이스 탐색은 grep/glob 체인 대신 시맨틱 검색 MCP 우선 — 의미 기반 발견으로 기존 구현 재사용율 향상 (B) 코드 청킹은 줄 수 기반이 아닌 AST 경계 기반 — 함수/클래스 단위 정합성 보장 (C) 인덱스 갱신은 Merkle tree 기반 증분 방식 — 전체 재빌드 회피 (D) 에이전트 컨텍스트 주입은 전체 파일이 아닌 관련 스니펫만 — 40% 토큰 절감context-compression-pipeline(claw-compactor ⭐2.1K)가 "파일 단위 정적 압축"이었다면, context-mode는 "런타임 tool output 동적 sandboxing + 세션 상태 영속화"로 차원이 다름 — Microsoft, Google, Meta, NVIDIA 팀에서 사용 중. (2) Computer-Use Infrastructure 축: trycua/cua(⭐15,385, +1,615/wk, Python/Swift)가 에이전트가 실제 데스크탑 GUI를 자율 제어하는 오픈소스 인프라 제공. 핵심 4컴포넌트: Cua Driver — macOS 백그라운드 자동화(사용자 커서 간섭 없이 native app 제어, Chromium non-accessibility surface 포함), Cua Sandbox — "Same API regardless of OS or runtime"(Linux 컨테이너/VM, macOS, Windows, Android 통합), CuaBot — H.265 비디오 + 클립보드 공유 + 멀티 에이전트 프레임워크 빌트인, Cua-Bench — OSWorld/ScreenSpot 기반 에이전트 성능 평가. Apple Silicon Virtualization.Framework 기반 Lume 가상화. 기존 browser-automation-mcp(ChromeDevTools ⭐34K)가 "브라우저 한정"이었다면, CUA는 운영체제 전체를 에이전트 조작 대상으로 확장. Claude의 Computer Use 기능과 직접 연동 가능. 추가 주목: badlogic/pi-mono(⭐43,167, +4,055/wk — AI 에이전트 모노리포 툴킷, 6개 통합 패키지), HKUDS/RAG-Anything(⭐19,451, +2,011/wk — 멀티모달 올인원 RAG), abhigyanpatwari/GitNexus(⭐33,739, +4,847/wk — 74차 대비 Graph RAG 성장 지속), gastownhall/beads(⭐22,855, +1,601/wk — semantic-memory-compaction 출처 지속 성장), forrestchang/andrej-karpathy-skills(⭐102,387, +24,129/wk — 10만 돌파, GitHub 역대급), mattpocock/skills(⭐49,040, +24,702/wk — 이번 주 전체 최고 성장률), rtk-ai/rtk(⭐38,938, +6,068/wk — 6차 수확 대비 94% 성장), warpdotdev/warp(⭐48,876, +15,137/wk — 터미널→에이전틱 개발환경 전환). 구루 동향: anthropics — knowledge-work-plugins(⭐11,698) 지속 업데이트 + claude-plugins-community 커뮤니티 플러그인 마켓플레이스 론칭 + 전체 SDK(Python/TS/Go/C#/Ruby) 일제 업데이트; karpathy — nanochat(⭐52,734) "$100으로 살 수 있는 최고의 ChatGPT" 지속 개발; simonw — 인프라 데이터 스크래핑(FEMA shelters, PG&E outages, USGS) 일일 활동. 생태계 특징: Opus 4.7 + xhigh effort level 출시, Managed Agents API 베타, MCP Apps(에이전트 렌더링 인터랙티브 UI) 표준 편입, antigravity-awesome-skills(1,400+ 에이전틱 스킬 라이브러리) 등장. 이번 주 전체 GitHub 특징: 에이전트 생태계가 "토큰 효율(context-mode) + 행동 범위(CUA) + 스킬 마켓(1,400+)" 세 축에서 동시 확장."Raw data never leaves the sandbox. A 56 KB Playwright snapshot becomes 299 bytes. Session continuity across compaction via SQLite FTS5 with BM25 search. 47 tool calls replaced by 1 code-driven analysis. Session duration: 30 min → 3 hours."
force:true로 강제 갱신. 14개 플랫폼 지원(Claude Code, Gemini CLI, Codex CLI 등). Hook 지원 플랫폼은 ~98%, 수동 라우팅 플랫폼은 ~60% 절감. 1,049 커밋, 129 릴리즈. Elastic License 2.0. 기존 context-compression-pipeline(claw-compactor)가 "파일 → LLM 입력 시 정적 압축"이었다면, context-mode는 "tool output → 컨텍스트 진입 시 동적 sandboxing + 세션 상태 DB"로 레이어 자체가 다름.~/.claude/rules/sandboxed-tool-output.md 신규 생성. 핵심: (A) 에이전트 tool output은 raw 형태로 컨텍스트에 직접 주입하지 말고, sandbox에서 처리 후 요약만 전달 (B) 세션 상태는 SQLite/파일 기반으로 영속화하여 compaction 후에도 BM25 검색으로 복원 (C) 대규모 파일 분석은 read N회 대신 code-driven 1회 실행 (D) 반복 외부 fetch는 TTL 캐시로 토큰 절약"Same API regardless of OS or runtime. Background automation on macOS without interrupting user focus. OSWorld & ScreenSpot evaluation benchmarks. Desktop-native sandbox with H.265 video streaming."
browser-automation-mcp가 "브라우저 DOM 한정"이었다면, CUA Driver는 운영체제 전체를 자동화 대상으로 격상. (B) Cua Sandbox — 단일 API로 Linux 컨테이너, VM, macOS, Windows, Android 환경을 통합. Apple Silicon Virtualization.Framework 기반 Lume 가상화. 에이전트 코드 변경 없이 OS 전환. (C) CuaBot — H.265 비디오 스트리밍 + 클립보드 공유 + 다중 에이전트 프레임워크 빌트인. 데스크탑 네이티브 샌드박스 인터페이스. (D) Cua-Bench — OSWorld(범용 데스크탑 벤치마크), ScreenSpot(GUI 요소 위치 인식) 기반 에이전트 성능 정량 평가. 기존 scored-agent-benchmarks(opensre)가 "SRE 진단 평가"였다면, CuaBench는 "데스크탑 GUI 조작 평가"로 영역 확장. Claude의 Computer Use(2026 Q1 출시)와 직접 연동 — 스크린샷 → 추론 → 마우스/키보드 액션 루프. 3,199 커밋. MIT 라이선스(일부 Apache/CC-BY-4.0).~/.claude/rules/computer-use-agent-infra.md 신규 생성. 핵심: (A) 에이전트 자동화 범위를 브라우저 DOM에서 전체 OS GUI로 확장 시 크로스 OS 통합 API 사용 (B) 백그라운드 자동화는 사용자 포커스를 간섭하지 않는 구조 (C) Computer-Use 에이전트는 벤치마크(OSWorld/ScreenSpot)로 성능 정량 평가 (D) 데스크탑 샌드박스로 격리 실행하여 호스트 환경 보호unified-model-gateway(QuantumNous/new-api ⭐29,960)가 "API 게이트웨이"였다면, cc-switch는 최종 사용자 데스크탑 계층으로 격상 — 개발자가 실제로 "쓰는" 관리 인터페이스. Claude Code는 유일하게 핫스위칭(터미널 재시작 불필요) 지원. (2) Document-Native Agent 축: lukilabs/craft-agents-oss(⭐5,496, +1,011/wk, TypeScript/Electron)가 코드 에디터 없이 에이전트와 상호작용하는 새 패러다임 제시 — "built Craft Agents with Craft Agents only — no code editors." 자연어로 통합 관리: "add Linear as a source" → 에이전트가 API 디스커버리·인증·설정 자동 처리. Permission Modes(Explore/Ask to Edit/Auto) 3단계 권한 제어. Dynamic Automations — 레이블 변경·스케줄·도구 실행·세션 상태에 의한 이벤트 기반 워크플로우. Desktop + Headless Server — 동일 시스템이 Electron 앱 또는 원격 WebSocket 서버로 동작, thin client로 접속. 기존 role-based-agent-permissions(Implementer/Researcher/Planner)의 UI 체현. 추가 주목: rtk-ai/rtk(⭐38,811, +6,068/wk — 6차 수확 대비 108% 성장, AI 코딩 에이전트 토큰 절감 de facto 표준), mattpocock/skills(⭐48,052, +24,702/wk — 이번 주 전체 GitHub 최고 성장), Alishahryar1/free-claude-code(⭐18,949, +16,154/wk), huggingface/ml-intern(⭐7,626, +6,388/wk — 74차 수확 doom-loop-detection 출처, 오픈소스 ML 엔지니어), lsdefine/GenericAgent(⭐8,436, +2,365/wk — 자가 진화 에이전트), chenhg5/cc-connect(⭐6,858, +964/wk — 에이전트↔메시징 브릿지), Tracer-Cloud/opensre(⭐4,029, +1,630/wk — AI SRE 에이전트), zilliztech/memsearch(⭐1,535 — 에이전트 통합 메모리). 구루 동향: anthropics — financial-services-plugins(⭐7,841) 금융 도메인 플러그인 + knowledge-work-plugins(⭐11,697) 지속 업데이트, 3계층(Skills·Commands·Connectors) 구조 확립; openai — codex(⭐79,094) + openai-agents-js(⭐2,890) JS 에이전트 SDK 성장 + parameter-golf(⭐4,984) 16MB 초소형 LLM 대회; simonw — 인프라 데이터 스크래핑(FEMA, USGS, PG&E) 지속 활동. 이번 주 전체 GitHub 특징: 에이전트 생태계의 "사용자 경험 계층"(데스크탑 관리·문서 네이티브 UI·메시징 브릿지·사용량 대시보드)이 인프라 계층만큼 빠르게 성장."A single desktop app to manage all five CLI tools. 50+ built-in provider presets. Hot-switching for Claude Code. MCP unified panel syncing across four applications. Local proxy with format conversion, auto-failover, circuit breaking." 에이전트 관리의 최종 사용자 계층.
~/.cc-switch/cc-switch.db(SQLite) 원자적 쓰기. 언인스톨해도 설정 유지되는 최소 침입(minimal intrusion) 원칙. (B) MCP 통합 패널 — 4개 앱의 MCP 서버를 하나의 패널에서 동기화. 기존 mcp-project-manager 스킬이 "프로젝트별 MCP 관리"였다면, cc-switch는 "앱 간 MCP 동기화"로 격상. (C) 로컬 프록시 모드 — 포맷 크로스 변환(OpenAI↔Claude↔Gemini), 자동 페일오버, 서킷 브레이킹, 헬스 모니터링. 기존 unified-model-gateway(QuantumNous/new-api)의 로컬 데스크탑 구현. (D) 사용량 추적 — 토큰 소비량, 비용, 모델별 커스텀 단가를 대시보드로. 클라우드 싱크(Dropbox/iCloud/WebDAV)로 머신 간 설정 동기화. 계층적 아키텍처(Commands→Services→DAO) + 양방향 동기화(SQLite↔라이브 설정 파일). 우리 시스템에서의 위치: 현재 Claude Code 단독 사용이지만, Codex/OpenCode 병행 시 cc-switch 스타일의 통합 관리 계층이 필수.~/.claude/rules/agent-desktop-convergence.md 신규 생성. 핵심: (A) 멀티에이전트 CLI 환경에서 프로바이더 설정은 에이전트별 개별 파일이 아닌 통합 DB로 관리 (B) MCP 서버 동기화는 앱 간 일관성을 위해 중앙 관리 (C) 프로바이더 전환 시 포맷 자동 변환 + 페일오버 원칙 (D) 사용량/비용 추적을 메트릭으로"Built Craft Agents with Craft Agents only — no code editors. Sources and skills are mentioned with @ notation mid-conversation. Permission modes toggle via keyboard shortcut." 에이전트 상호작용을 코드→문서 패러다임으로 전환.
cli-automation-first(수동 안내 전 자동화 탐색)의 UI 체현 — 사용자가 설정 방법을 알 필요 없음. (B) Permission Modes 3단계 — Explore(읽기 전용)/Ask to Edit(승인 요청)/Auto(무제한 실행). 기존 role-based-agent-permissions(Implementer/Researcher/Planner)의 사용자 대면 UI 구현. 키보드 단축키로 실시간 전환. (C) Desktop + Headless Server — 동일 코드베이스가 Electron 앱 또는 원격 WebSocket 서버로 동작. thin client로 어디서든 접속. 기존 fresh-context-iteration(fresh session 패턴)과 결합 시 원격 서버에서 장기 에이전트 실행 + 로컬에서 관찰 가능. Dynamic Automations(레이블·스케줄·도구 실행 이벤트 기반 워크플로우)은 기존 feedback-routing 패턴의 UI 구현. AES-256-GCM 인증 정보 암호화. @멘션 기반 Sources/Skills 참조로 컨텍스트 주입.~/.claude/rules/document-native-agent-ui.md 신규 생성. 핵심: (A) 에이전트 설정/통합은 자연어 인터페이스로 — 설정 파일 수동 편집 최소화 (B) 3단계 권한 모드를 에이전트 상호작용에 적용 (C) Desktop+Server 이중 모드로 세션 영속성 확보farion1231/cc-switch(⭐56.2K), badlogic/pi-mono(⭐42.9K), Leonxlnx/taste-skill(⭐14.1K), chenhg5/cc-connect(⭐6.8K), huggingface/ml-intern(⭐7.6K), looplj/axonhub(⭐3.5K), mattpocock/skills(⭐46.8K), obra/superpowers(⭐173.8K), rtk-ai/rtk(⭐38.7K)."Every MCP tool call dumps raw data into your context window. Context Mode sandboxes tool output — 56KB snapshot → 299 bytes. 98% reduction across 21 scenarios. Session continuity via SQLite FTS5 + PreCompact hooks." — 도구 출력의 컨텍스트 진입 자체를 차단.
context-compression-pipeline.md(로드 후 압축)를 상류 게이트로 격상. subprocess 샌드박스 → raw 데이터 컨텍스트 미진입. 5KB 초과 시 SQLite FTS5 + BM25 의도 기반 필터링. Session Continuity — PreCompact hook이 이벤트를 XML(≤2KB)로 압축, FTS5 검색으로 복원. 14개 AI 코딩 플랫폼 지원.sandboxed-context-isolation.md — 도구 출력 샌드박스 격리, FTS5 인덱싱 기반 의도 필터링, session continuity 패턴"The nervous system for agent context. Tree-sitter AST → dependency resolution → clustering → process tracing → hybrid search. Impact Analysis로 변경 blast radius 사전 계산. 16 MCP tools." — 코드를 매번 탐색하지 말고, 영속 이해하라.
codebase-search-before-create.md를 영속 지식 그래프로 격상. 6단계 파이프라인(구조→AST→의존성→클러스터→실행흐름→검색). Impact Analysis로 변경 영향 즉시 파악. WASM 브라우저 동작. 14+ 언어, 16 MCP 도구.knowledge-graph-code-indexing.md — AST 기반 영속 인덱싱, impact analysis 변경 범위 사전 계산"Anti-Rationalization Tables: common excuses with documented rebuttals. Non-negotiable evidence standards. 20 production-grade skills across 6 phases (Define→Ship)." — 변명을 사전에 차단하라.
completion-verification.md(사후 검증)를 사전 차단으로 보강. Anti-Rationalization Tables — "빌드 성공=완료" → "빌드는 구문만 검증". Non-negotiable evidence(테스트 출력, 프로파일링 데이터 필수). 3 specialist persona(Reviewer, Tester, Auditor). Google Addy Osmani 경험 기반.anti-rationalization-gates.md — 합리화 패턴 사전 차단, evidence standards, 증거 없는 완료 선언 차단"Controller loop reconciles declared config against actual runtime. Runtime providers: tmux, subprocess, exec, ACP, Kubernetes. Formulas + orders for work tracking." — 선언과 현실의 갭을 자동 수정하라.
declarative-agent-coordination.md에 reconciliation 루프 추가. Controller Loop: desired(city.toml) vs actual 주기적 비교, 불일치 자동 조정. 다중 런타임(tmux→subprocess→K8s). team-orchestrator specialist 실패 시 자동 재할당에 활용.controller-reconciliation-loop.md — desired vs actual 자동 비교, 불일치 수정, 다중 런타임 추상화"The harness surrounding the model matters as much as the model itself." — OpenAI 2026. 3~7명 엔지니어가 Codex + 하네스로 5개월간 100만 줄 프로덕션 코드 생산. 엔터프라이즈 에이전틱 AI의 벤치마크 vs 실세계 37% 갭을 메우는 것이 하네스 엔지니어링.
/self-improve + autoresearch 루프와 정확히 동일한 원리. loopy-era 시스템 전체(rules/ + hooks/ + memory-bank + orchestrator + self-improve)가 "harness engineering"의 실체임을 메타적으로 검증. 모델이 Opus 4.5 → 4.6 → 4.7로 바뀌어도 하네스는 불변 — 이것이 투자 가치.~/.claude/rules/harness-engineering-paradigm.md 신규 생성. 핵심: (A) 하네스 구성 요소 ↔ 우리 시스템 매핑 표 (Hook=qa-gate, Scaffold=rules/, Memory=memory-bank, Evaluation=harness-report) (B) 모델 교체 시 하네스 유지 원칙 (C) 37% 갭 측정 방법론"Stops the AI from generating boring, generic, 'slop'." — taste-skill. "Agentic development environment, born out of the terminal." — warp (+15,137/wk, 이번 주 Rust 최고 성장). 에이전트가 만드는 것(UI)과 에이전트가 작업하는 곳(터미널) 모두에 의도적 디자인이 필요.
frontend-patterns.md의 "디자인 품질" 섹션과 impeccable:bolder 스킬이 이미 부분적으로 다루지만, "slop"이라는 안티패턴을 구조적 체크리스트로 명시한 것이 새로움. 동시에 warp(⭐46,563, +15,137/wk)가 터미널을 에이전트 네이티브 환경으로 완전 재설계 — Rust 고성능 + AI 에이전트 워크플로우 네이티브 지원. 두 프로젝트의 공통 메시지: "AI가 만드는 결과물에도, AI가 사용하는 도구에도 '취향(taste)'이 필요하다".~/.claude/rules/anti-slop-design-taste.md 신규 생성. 핵심: (A) Slop 패턴 금지 목록 (B) Anti-Slop 6항목 체크리스트 (색상 의도성, 타이포 계층, 공간 리듬, 인터랙션 피드백, 시각 디테일, 레이아웃 다양성) (C) 기존 스킬(frontend-design, impeccable:bolder, pixel-perfect)과의 역할 분리canonical-plugin-three-layer.md 생성 — 기존 agent-skills-format.md(HF)와 agent-manifest-pattern.md(MS apm)와의 차이점을 명확히: (A) 3계층 분리(Skills=자동활성 지식 / Commands=명시적 슬래시 / Connectors=독립 .mcp.json) (B) Skill ≠ Code 원칙 — 빌드·인프라 불필요 (C) 도메인 집중 + 조합 — 역할별 특화 플러그인을 동시 활성화. (2) Computer-Use Agent Infrastructure 축: trycua/cua(⭐15,265, +1,615/wk)가 Computer-Use Agent 전용 인프라를 통합 제공 — Cua Driver(macOS 백그라운드 자동화, 커서/포커스 비침습), Cua Sandbox SDK(Linux/macOS/Windows/Android 단일 API), CuaBot(멀티에이전트 CLI + H.265 렌더링), Cua-Bench(OSWorld/ScreenSpot 표준 벤치마크). 기존 sandboxed-agent-code-execution.md와 scored-agent-benchmarks.md의 상위 호환. 추가 확인: forrestchang/andrej-karpathy-skills(⭐100,298, 10만 스타 돌파), farion1231/cc-switch(⭐55,744, +6,494/wk, 5개 AI CLI 통합 관리), warpdotdev/warp(⭐44,759, +15,137/wk, 에이전틱 터미널), mattpocock/skills(⭐45,246, +24,702/wk), obra/superpowers(⭐173,308, +9,018/wk)."Open source repository of plugins primarily intended for knowledge workers to use in Claude Cowork. 11 domain plugins (Productivity, Sales, Customer Support, Product Management, Marketing, Legal, Finance, Data, Enterprise Search, Bio-Research, Plugin Management). Each plugin = skills/ (auto-activated markdown knowledge) + commands/ (explicit slash commands) + .mcp.json (MCP server connectors) + plugin.json (manifest). No code, no infrastructure, no build steps." — Anthropic 공식.
agent-skills-format.md(HF, 단일 SKILL.md)와 agent-manifest-pattern.md(MS apm, 매니페스트 + 의존성)와의 핵심 차이를 구체화: (A) 3계층 분리 — Skills(자동 활성 지식) ≠ Commands(명시적 워크플로우) ≠ Connectors(MCP 도구 설정). 우리 스킬은 현재 3가지가 혼합됨. (B) Skill = Knowledge, not Code — 마크다운 파일만으로 도메인 전문성 인코딩. 빌드/인프라 제로. (C) 도메인 집중 + 조합 — 각 플러그인이 역할(Sales, Legal, Data 등)에 특화되되, 여러 플러그인 동시 활성화로 크로스 기능 역량. (D) 컨텍스트 주입 — 회사 프로세스/용어를 skill 파일에 삽입 → 모든 상호작용에 자동 반영.~/.claude/rules/canonical-plugin-three-layer.md 신규 생성. 핵심: 새 skill/plugin 작성 시 3계층 분리 준수, 혼합 스킬 리팩토링, claude plugin install 호환 구조 표준화"Open-source infrastructure for Computer-Use Agents. Cua Driver: background automation on macOS without disrupting cursor/focus/workspace. Sandbox SDK: one API for Linux/macOS/Windows/Android VMs and containers. CuaBot: multi-agent CLI with H.265 native window rendering. Cua-Bench: evaluation on OSWorld, ScreenSpot, Windows Arena with trajectory export for RL training." — Computer-Use 전용 인프라.
sandboxed-agent-code-execution.md(코드 샌드박스)와 scored-agent-benchmarks.md(에이전트 벤치마크)를 Computer-Use(GUI 제어) 에이전트 전용으로 통합. (A) Background Driver — 사용자 커서·포커스를 방해하지 않고 백그라운드 자동화. web-qa-tester의 agent-browser 워크플로우를 비침습적으로 실행 가능. (B) Unified Sandbox SDK — 4개 OS를 단일 API로 추상화, 플랫폼별 분기 코드 제거. (C) Cua-Bench — OSWorld·ScreenSpot 등 표준 벤치마크로 GUI 조작 능력 정량 평가.llm.completion()을 rlm.completion()으로 교체하는 드롭인 인터페이스. (3) Agentic Environment 축: warpdotdev/warp(⭐44,758, +15,137/wk, Rust)가 터미널에서 태어난 에이전틱 개발 환경으로 진화 — BYO(Bring-Your-Own) 에이전트 지원(Claude Code, Codex, Gemini CLI 통합), 에이전트 관리 대시보드(build.warp.dev)에서 실시간 작업 모니터링, 이슈 트리아지→스펙 작성→구현→PR 리뷰 자율 워크플로우. 이번 주 GitHub 전체에서 Rust 카테고리 최다 스타 증가. (4) Knowledge Work Plugin Standard 축: anthropics/knowledge-work-plugins(⭐11,677)이 Claude Cowork 공식 플러그인 아키텍처를 공개 — skills/(도메인 전문성, 자동 활성화) + commands/(슬래시 커맨드, 명시적 호출) + .mcp.json(외부 도구 연결) 구조. 11개 직무별 플러그인(Sales, Data, Legal, Bio-Research 등) 포함. 마크다운 기반, 코드 불필요 — 우리 agent-manifest-pattern.md와 동일 철학의 Anthropic 공식 표준. 추가 트렌딩: Alishahryar1/free-claude-code(⭐18.6K, +16,154/wk), gastownhall/beads(⭐22.7K, +1,601/wk), Wei-Shaw/sub2api(⭐16.8K, +2,309/wk), open-metadata/OpenMetadata(⭐13.7K, +1,755/wk), HKUDS/RAG-Anything(⭐19.4K, +2,011/wk), Tracer-Cloud/opensre(⭐3.9K, +1,630/wk), thunderbird/thunderbolt(⭐4.4K, +691/wk), google/osv-scanner(⭐10K, +1,211/wk), QuantumNous/new-api(⭐29.8K, +1,518/wk), sniffnet(⭐36.9K, +1,503/wk)."A persistent, unified memory layer for all your AI agents. Markdown as source of truth, Milvus as rebuildable shadow index, file watcher for live sync. Progressive Retrieval: semantic search → section expansion → full transcript recovery. Hybrid search with dense + BM25 + RRF reranking." — 에이전트 기억의 3계층 영속화.
portable-memory-layer.md(단일 파일 메모리)를 3계층 아키텍처로 격상. (A) Markdown 원본 = human-readable + git 관리 + 이식성. (B) Milvus 섀도 인덱스 = 시맨틱 검색 + 재구축 가능(Markdown에서 언제든 복원). (C) 파일 와처 = 변경 즉시 자동 인덱싱, SHA-256 해싱으로 중복 임베딩 차단. Progressive Retrieval이 핵심 — 필요한 만큼만 컨텍스트를 확장하여 토큰 낭비 방지. memory-bank의 검색 정밀도와 context-compression-pipeline.md의 토큰 절감을 동시에 달성.~/.claude/rules/progressive-memory-retrieval.md — memory-bank 검색에 3단계 progressive retrieval 도입, Markdown 원본 유지 원칙 강화, 섀도 인덱스 재구축 가능성 보장"A task-agnostic inference paradigm for language models to handle near-infinite length contexts by enabling the LM to programmatically examine, decompose, and recursively call itself over its input. Context lives as variables in a REPL environment." — 단일 패스에서 재귀적 자기분해로.
sandboxed-agent-code-execution.md(샌드박스 코드 실행)를 재귀적 추론 패러다임으로 확장. (A) 컨텍스트를 REPL 변수로 관리 → 토큰 윈도우 제약 해제. (B) 모델이 하위 문제를 자동 분해하고 자기 자신을 재귀 호출 → 복잡도 무관하게 처리. (C) 6종 샌드박스(local/Docker/Modal/E2B 등) 지원으로 안전한 실행. (D) Trajectory visualization으로 재귀 체인 디버깅. bug-fixer의 4회 로테이션을 재귀적 자기분해로 구조화할 수 있는 패턴.~/.claude/rules/recursive-decomposition-inference.md — 복잡한 태스크를 REPL 기반 재귀 분해로 처리, 컨텍스트를 변수로 명시적 관리, 단일 패스 한계 극복"An agentic development environment, born out of the terminal. Built-in coding agent + bring-your-own-agent support (Claude Code, Codex, Gemini CLI). Agent management dashboard at build.warp.dev. Issue triage → spec → implement → PR review autonomous workflow." — 개별 CLI 도구에서 통합 에이전틱 환경으로.
worktree-parallel-agents.md(격리 병렬 실행)와 feedback-routing.md(피드백 라우팅)를 단일 환경에서 다중 에이전트 통합 관리로 격상. (A) BYO 에이전트 — 특정 에이전트에 종속되지 않고 Claude Code/Codex/Gemini 중 선택·전환. (B) 에이전트 관리 대시보드 — 이슈→스펙→구현→리뷰 전체 파이프라인을 실시간 모니터링. (C) Rust 기반 고성능 터미널 — UI 렌더링과 에이전트 실행을 동시 처리. 이번 주 Rust 카테고리 최다 스타 증가(+15K).~/.claude/rules/agentic-environment-pattern.md — 에이전트 환경 통합 패턴, BYO 에이전트 인터페이스, 에이전트 세션 실시간 모니터링 원칙"Open source repository of plugins primarily intended for knowledge workers to use in Claude Cowork. Plugin = skills/ (auto-activate) + commands/ (slash commands) + .mcp.json (tool connectors) + plugin.json (manifest). Markdown and JSON — no code, no infrastructure, no build steps." — Anthropic 공식 플러그인 표준.
agent-manifest-pattern.md(선언적 매니페스트)와 agent-skills-format.md(HF Skills 표준)를 Anthropic 공식 표준으로 검증. (A) skills/ = 도메인 전문성, 컨텍스트 매칭 시 자동 활성화 — 우리 스킬 시스템과 동일 패턴. (B) commands/ = 슬래시 커맨드, 명시적 호출 — 우리 스킬과 동일. (C) .mcp.json = 외부 도구 연결 — 우리 MCP 설정과 동일. 11개 직무별 플러그인(Sales, Data, Legal, Bio-Research 등)이 실전 검증. 우리 plugin-forge 스킬의 출력물이 이 표준과 호환되는지 확인 필요.~/.claude/rules/knowledge-work-plugin-standard.md — Anthropic 공식 plugin.json 스키마 참조, skills/+commands/+.mcp.json 3요소 구조 표준화, 직무별 커스터마이징 패턴sem impact로 변경의 blast radius를 자동 분석. MCP 서버 6도구로 에이전트에 직접 연결. (2) Deterministic Config Scoring 축: caliber-ai-org/ai-setup(⭐874, TypeScript)이 LLM 호출 없이 에이전트 설정 파일의 품질을 100점 만점으로 측정 — Files & Setup, Quality, Grounding, Accuracy, Freshness 5차원 교차 검증. git pre-commit hook으로 지속적 동기화. (3) Agent Operations 축: boshu2/agentops(⭐318, TypeScript)이 /council·/pre-mortem·/dream·/vibe 운영 프리미티브를 제공하여 세션 간 학습 자동 전달. (4) Code Search MCP 축: zilliztech/claude-context(⭐10,258, TypeScript)이 전체 코드베이스를 semantic MCP 검색으로 변환. (5) Agent Sandboxes 축: superradcompany/microsandbox(⭐5,888, Rust)가 microVM 기반 <100ms 부팅 샌드박스를 에이전트에 제공. 추가 트렌딩: NousResearch/hermes-agent(⭐124.8K), forrestchang/andrej-karpathy-skills(⭐99.4K), farion1231/cc-switch(⭐55.6K), CherryHQ/cherry-studio(⭐44.8K), mattpocock/skills(⭐43.6K), badlogic/pi-mono(⭐42.7K), rtk-ai/rtk(⭐38.4K), abhigyanpatwari/GitNexus(⭐33.3K), googleworkspace/cli(⭐25.6K), RooCodeInc/Roo-Code(⭐23.8K)."Entity-level diffs, blame, and impact analysis on top of git. 26 languages via tree-sitter. Three-phase matching: exact ID → structural hash → fuzzy similarity. sem impact reveals what breaks if an entity changes. MCP server with 6 tools for coding agents." — 라인 diff에서 엔티티 diff로의 전환.
git diff 라인 출력을 파싱하던 것을 함수·클래스 단위 "무엇이 변했는가"로 대체. (A) 3단계 rename 감지(exact ID·structural hash·fuzzy)로 false positive 제거. (B) sem impact가 변경의 의존성 그래프를 자동 파악. (C) 라인 diff 수백 줄 → 엔티티 요약 수십 줄로 토큰 대폭 절약.~/.claude/rules/semantic-diff-pattern.md — code-reviewer에 sem diff 제공, sem impact로 PR blast radius 파악, DiffCrunch 대체"No LLM, no API calls — local deterministic scoring cross-referencing config files against actual filesystem. Five dimensions: Files, Quality, Grounding, Accuracy, Freshness. Git pre-commit hooks for continuous sync. Supports Claude Code, Cursor, Codex, OpenCode, Copilot." — 결정론적 설정 품질 측정.
~/.claude/rules/deterministic-config-scoring.md — harness-report 내용 정합성 강화, CLAUDE.md vs package.json 교차 검증"Code search MCP for Claude Code. Make entire codebase the context for any coding agent. Semantic search replaces brute-force exploration. Pre-indexed code structure enables precise retrieval." — Glob/Grep를 semantic code search로 대체.
codebase-search-before-create.md를 MCP 도구 기반 semantic 검색으로 강화. Pre-indexed 구조로 전체 스캔 불필요. 의미 기반 검색으로 정확도 향상. 불필요한 파일 로딩 제거로 토큰 효율 극대화.~/.claude/rules/semantic-code-search-mcp.md — Explore agent 효율 개선, codebase-search-before-create에 semantic 옵션 추가"Operational layer for coding agents. Memory, validation, feedback loops that compound. /council: independent judges. /dream: offline bookkeeping deduplicates learnings. /pre-mortem: pressure-test decisions. Session 15 agent finds past lessons in seconds." — composable 에이전트 운영.
recursive-self-improvement-loop.md의 Curator 단계를 /dream(오프라인 정제)로, blind-validation-layer를 /council(다중 판관)으로, 사전 실패 분석을 /pre-mortem으로 체계화. composable flow 기반.~/.claude/rules/agent-operations-primitives.md — /dream을 Curator로, /council을 adversarial-review에, /pre-mortem을 Phase 0에 통합"Hardware-level isolation, boot <100ms. Embeddable SDK (Rust/Python/TypeScript). OCI container compatibility. Unexploitable secret keys never enter VM. Built on libkrun + smoltcp. Y Combinator." — AI 에이전트 전용 microVM 샌드박스.
sandboxed-agent-code-execution.md의 "샌드박스 실행"을 microVM 하드웨어 격리 + 100ms 미만 부팅으로 구체화. OCI 호환(Docker 이미지 재사용), 시크릿 보호(VM 내부 진입 불가), MCP 서버로 에이전트가 샌드박스 관리.auto-block-stuck-tasks.md의 "4회 실패 후 blocked 전환(사후 차단)"을 "반복 패턴 실시간 감지(사전 탈출)"로 보강. (2) Graph RAG Code Intelligence 축: abhigyanpatwari/GitNexus(⭐33,270, +4,200/wk, TypeScript)가 Tree-sitter AST 파싱 → Leiden 커뮤니티 클러스터링 → BM25+시맨틱 하이브리드 검색의 6단계 인덱싱 파이프라인으로 코드베이스를 지식 그래프화. 핵심 혁신: Blast Radius Analysis — 함수/파일 변경 시 영향받는 모든 의존자를 그래프에서 N-hop 탐색으로 즉시 추출. 360-Degree Symbol Context — incoming(호출자)+outgoing(피호출) 관계를 동시 표시. Process-Grouped Search — 실행 흐름 기반 랭킹. 기존 codebase-search-before-create.md(생성 전 검색)를 "구조화된 그래프 쿼리"로 격상. 추가 트렌딩: mksglu/context-mode(⭐11.2K, +2,333/wk, 샌드박스 도구 출력 격리 + FTS5 세션 영속성, 이미 적용됨), badlogic/pi-mono(⭐42.7K, +3,900/wk, 통합 에이전트 CLI + 멀티 인터페이스 레이어), looplj/axonhub(⭐3,469, AI 게이트웨이 + <100ms 자동 failover + 토큰별 비용 추적), chenhg5/cc-connect(⭐6,745, 퍼블릭 IP 없이 로컬 에이전트를 Telegram/Slack/Discord 11개 채팅 플랫폼에 브릿지), gastownhall/gascity(⭐532, 선언적 TOML 기반 멀티에이전트 조율 SDK), Leonxlnx/taste-skill(⭐14K, +2,645/wk, anti-slop 프론트엔드 디자인 + image-first 파이프라인), superradcompany/microsandbox(⭐5,888, sub-100ms 부팅 microVM 에이전트 샌드박스), obra/superpowers(⭐173K, +8,796/wk, 역대급 에이전틱 스킬 프레임워크), forrestchang/andrej-karpathy-skills(⭐99.4K, +25,836/wk, 역대급 성장 지속), mattpocock/skills(⭐43.6K, +18,218/wk, 실용 Claude 스킬 모음)."An open-source ML engineer that reads papers, trains models, and ships ML models. Built-in Doom Loop Detection: detects repeated tool patterns and injects corrective prompts to escape failure cycles. Auto-compaction at 170K tokens. Approval gateways for sensitive operations." — HuggingFace, Python.
auto-block-stuck-tasks.md가 "4회 실패 후 blocked 전환(사후 차단)"을, convergence-loop-no-mid-question.md가 "루프 중 사용자에게 묻지 않기"를, quantified-ambiguity-gate.md가 "period-2 oscillation 감지"를 다뤘다면, 이 패턴은 도구 호출 fingerprint를 sliding window로 추적하여 반복 패턴을 실시간 감지하고 교정 프롬프트를 자동 주입. (A) Tool Call Fingerprinting — 연속 호출의 (tool_name, key_args_hash) 쌍을 6-call window로 추적. (B) Period-2 Oscillation 감지 — Edit→Bash→Edit→Bash 같은 교차 반복을 2주기 만에 감지. (C) 동일 호출 3회 연속 — 같은 (tool, args) 반복 시 즉시 전략 전환. bug-fixer 로테이션 시점을 "4회 실패 대기" 대신 "반복 패턴 감지 즉시"로 앞당김.~/.claude/rules/doom-loop-detection.md 신규 생성. 핵심: (A) bug-fixer 재시도 루프에서 period-2 oscillation 감지 시 자동 전략 전환 (B) 동일 에러 3회 반복 시 codex:rescue 즉시 호출 (C) tool call 시퀀스 JSONL 기록으로 HARD 전환 가능"Client-side knowledge graph creator with Graph RAG Agent for code exploration. 6-stage indexing: structure mapping → Tree-sitter AST parsing → import resolution → Leiden community clustering → process tracing → BM25+semantic hybrid search. Blast radius analysis maps change impact across dependencies. 360-degree symbol context shows incoming+outgoing relationships." — GitNexus, TypeScript.
codebase-search-before-create.md가 "생성 전 검색 의무화"를, codebase-packing-pattern.md가 "repomix 스타일 패킹"을 다뤘다면, 이 패턴은 검색 자체를 6단계 구조화된 그래프 쿼리로 격상. (A) Blast Radius Analysis — 파일/함수 변경 시 영향받는 모든 의존자를 N-hop 그래프 탐색으로 즉시 추출. 직접 호출자(1-hop) + 간접 영향(2-hop+) + 신뢰도 점수. (B) 360-Degree Symbol Context — 심볼의 incoming(누가 나를 호출) + outgoing(내가 누구를 호출) 관계를 동시 표시. 함수 시그니처 변경 시 모든 호출자 파악 가능. (C) Process-Grouped Search — 단순 키워드 매칭 대신 실행 흐름 기반 랭킹. 같은 실행 경로 결과 우선. "사전 구조화된 그래프 쿼리 1회가 다단계 grep/glob 체인 N회를 대체."~/.claude/rules/graph-rag-codebase-indexing.md 신규 생성. 핵심: (A) bug-fixer가 파일 수정 전 blast radius 조회 의무화 (B) code-reviewer가 변경 영향 범위 자동 분석 (C) Tree-sitter CLI + jq로 AST 파싱 → 의존성 그래프 구축 HARD 전환 가능completion-verification.md(최종 완료 시 검증)를 매 단계 검증으로 확장. (2) Markdown-First Agent Memory 축: zilliztech/memsearch(⭐신규, Python/TypeScript)가 Markdown을 source of truth + Milvus를 shadow index로 사용하여 Claude Code · Codex · OpenCode 간 크로스 에이전트 영속 메모리 구축. 3계층 검색(L1 BM25+Dense Vector RRF, L2 chunk expansion, L3 raw transcript) + SHA-256 content hashing 중복 방지. 기존 shared-agent-memory.md(metabot)와 상호보완. 추가 트렌딩: forrestchang/andrej-karpathy-skills(⭐98.8K, +25.8K/wk, 역대급 성장 지속), badlogic/pi-mono(⭐42.6K, +3.9K/wk, 통합 에이전트 CLI + 세션 공유 패턴), abhigyanpatwari/GitNexus(⭐33.1K, +4.2K/wk, Graph RAG 코드 지식 그래프), Leonxlnx/taste-skill(⭐13.8K, +2.6K/wk, anti-slop 프론트엔드 스킬), CherryHQ/cherry-studio(⭐44.7K, +736/wk, AI 프로덕티비티 스튜디오), warpdotdev/warp(⭐+12K/wk, ADE 에이전틱 터미널), Tracer-Cloud/opensre(⭐+1.7K/wk, AI SRE), HKUDS/RAG-Anything(⭐+2.6K/wk, 올인원 RAG), alexzhang13/rlm(⭐+522/wk, 재귀적 언어 모델 추론 라이브러리)."Production-grade engineering skills for AI coding agents. 20 skills across 6 phases (Define→Plan→Build→Verify→Review→Ship). Anti-rationalization tables combat shortcuts. Three specialist personas. Verification gates with evidence requirements at every step. Encodes Hyrum's Law, Beyonce Rule, Chesterton's Fence as executable workflows." — Addy Osmani / Google, Shell.
completion-verification.md가 "최종 완료 시 자가 검증"을, test-first-agent-tasks.md가 "테스트 선행"을 다뤘다면, 이 패턴은 스킬의 매 단계에 검증 게이트 + 변명 방지 테이블을 내장. (A) 6-Section Anatomy(Overview→When to Use→Process→Rationalizations→Red Flags→Verification) — 모든 스킬이 동일 구조. (B) Anti-Rationalization Table — "빌드 통과했으니 충분하다" → "빌드 통과 ≠ 기능 정상", "나중에 테스트 추가" → "나중은 영원히 오지 않는다" 등 지름길 변명에 대한 구조적 반박. 에이전트가 검증을 건너뛰는 본능을 근본 차단. (C) Red Flags 섹션 — "테스트 없이 커밋", "타입 에러 무시" 같은 경고 신호를 명시하여 스킬 실행 중 자동 감지. (D) Google 엔지니어링 원칙(Hyrum's Law, Beyonce Rule, Chesterton's Fence)을 에이전트 스킬로 실체화.~/.claude/rules/verification-gate-skills.md 신규 생성. 핵심: (A) 새 스킬 작성 시 6-section anatomy 준수 의무화 (B) Anti-rationalization table로 QA 스킵 변명 자동 감지 (C) 기존 스킬에 Verification 섹션 추가로 단계별 증거 요구"A persistent, unified memory layer for all your AI agents. Markdown as source of truth — human-readable, editable, version-controllable. Milvus as shadow index — derived, rebuildable cache. 3-layer retrieval: L1 hybrid search (BM25+dense vector via RRF), L2 chunk expansion, L3 raw transcript. SHA-256 content hashing for dedup. Cross-agent sharing across Claude Code, Codex, OpenCode." — Zilliz, Python/TypeScript.
shared-agent-memory.md(metabot)가 "에이전트 간 메모리 공유 구조"를, portable-memory-layer.md(memvid)가 "단일 파일 메모리 패키징"을 다뤘다면, memsearch는 Markdown을 source of truth로, 벡터 DB를 derived cache로 분리하는 아키텍처. 핵심 차별점: (A) Markdown-First — 메모리가 사람이 읽고 편집하고 버전 관리할 수 있는 .md 파일. 벡터 DB 장애 시에도 메모리 손실 없음. (B) 3계층 검색 — L1(BM25+Dense Vector RRF), L2(관련 청크 확장), L3(원본 대화 접근). 검색 정밀도와 재현율의 트레이드오프를 계층으로 해결. (C) Live File Watcher + SHA-256 dedup — 파일 변경 즉시 감지, 해시 비교로 불필요 재인덱싱 방지. 기존 shared-agent-memory와 의미 중복이 있으나 "Markdown-First + 벡터 DB shadow index" 아키텍처가 차별적이어서 reference로 기록.convergence-loop-no-mid-question.md가 "사용자 개입 없는 반복"을, auto-block-stuck-tasks.md가 "N회 실패 시 blocked 전환"을 다뤘다면, ml-intern의 doom-loop detector는 "반복 패턴 자체를 실시간 감지하여 교정"하는 더 정교한 접근. (2) Agentic Development Environment 축: warpdotdev/warp(⭐40,723, +12,008/wk, Rust)가 오픈소스 전환과 함께 Warp 2.0 ADE(Agentic Development Environment)를 출시. SWE-bench 71%, Terminal-Bench 1위. 핵심: Code + Agents + Terminal + Drive 4기능 통합, 다중 에이전트 병렬 실행(Claude Code·Codex·Gemini CLI 등), 클라우드 에이전트를 cron 스케줄링으로 자동 실행, 75M 라인 코드 생성 · 95% 수락률. "에이전트 주도 개발에는 에이전트 네이티브 환경이 필요 — 프롬프팅·멀티스레딩·에이전트 관리·휴먼-에이전트 협업을 위한 제품." (3) Managed Agent Harness 축: Anthropic이 Claude Managed Agents(public beta)를 출시 — 완전 관리형 에이전트 하네스로 보안 샌드박싱·내장 도구·SSE 스트리밍을 API로 제공. /ultrareview(research preview)는 클라우드에서 버그 헌팅 에이전트 fleet 실행 → CLI/Desktop에 결과 자동 전달. Claude Opus 4.7에 xhigh effort level 추가. Monitor tool로 백그라운드 이벤트 실시간 스트리밍. SDK 프롬프트 캐시 수정으로 입력 토큰 비용 12x 절감. 추가 트렌딩: forrestchang/andrej-karpathy-skills(⭐98.8K, +25.8K/wk, 역대급 지속), farion1231/cc-switch(⭐55.4K, +5.9K/wk), mattpocock/skills(⭐42.1K, +18.2K/wk), badlogic/pi-mono(⭐42.6K, +3.9K/wk), rtk-ai/rtk(⭐38.2K, +6.2K/wk), abhigyanpatwari/GitNexus(⭐33.1K, +4.2K/wk), QuantumNous/new-api(⭐29.8K, +1.5K/wk), langfuse/langfuse(⭐26.3K, +995/wk), gastownhall/beads(⭐22.6K, +1.5K/wk), HKUDS/RAG-Anything(⭐19.4K, +2.6K/wk), Alishahryar1/free-claude-code(⭐18.3K, +15.1K/wk), Wei-Shaw/sub2api(⭐16.7K, +2.3K/wk), trycua/cua(⭐15.2K, +1.3K/wk, Computer-Use Agents 인프라), mksglu/context-mode(⭐11.1K, +2.3K/wk), zilliztech/claude-context(⭐10.2K, +3.8K/wk), google/osv-scanner(⭐9.9K, +1.2K/wk), lsdefine/GenericAgent(⭐8.2K, +2.6K/wk, 자기진화 에이전트 지속 성장)."An open-source ML engineer that reads papers, trains models, and ships ML models. Doom-loop detector watches for repeated tool patterns and injects corrective prompts. 300-iteration hard cap. Context manager with auto compaction. Tool router for HF docs, datasets, jobs, papers, GitHub code search, and sandboxed execution. Sensitive operations pause for explicit user approval." — Qwen3-1.7B GPQA 10%→32% in 10h on single H100, HF Hub 네이티브 통합.
convergence-loop-no-mid-question.md가 "수렴 또는 EXHAUSTED까지 무정지 반복"을, auto-block-stuck-tasks.md가 "N회 실패 시 blocked 전환"을, quantified-ambiguity-gate.md가 "stagnation 4가지 패턴(period-2 oscillation, 70%+ 질문 중복, 3세대 동일 출력, 30-gen hard cap)"을 다뤘다면, ml-intern의 doom-loop detector는 도구 호출 패턴 자체를 실시간 분석하여 반복 감지 시 교정 프롬프트를 자동 주입하는 더 정교한 접근. 핵심 차별점: (A) Pattern-Based Doom-Loop Detection — 도구 호출 시퀀스에서 반복 패턴(A→B→A→B, 동일 도구 N회 연속 등)을 감지. 기존 stagnation detection이 "출력 유사도"를 보는 반면, 이것은 "행동 시퀀스"를 분석. bug-fixer 4회 로테이션에서 같은 전략을 반복하는 경우를 조기 감지 가능. (B) Corrective Prompt Injection — 반복 감지 시 "다른 접근을 시도하세요"가 아니라 구체적 교정 프롬프트를 시스템 메시지로 주입. 기존 에스컬레이션(사용자에게 물어봄)이 아닌 자동 교정. (C) Hard Iteration Cap — 300-iteration 하드 캡. 기존 30-gen hard cap(quantified-ambiguity-gate)과 같은 원리이지만 연구 에이전트 스케일에 맞춘 상한. (D) Sensitive Operation Pause — GPU 작업 시작, 유료 API 호출 등 비용 발생 작업에서만 사용자 승인 요구. CLAUDE.md의 "에스컬레이션 기준(비용 발생 결정)"과 정확히 일치하는 패턴을 ML 연구 도메인에서 독립 구현.~/.claude/rules/doom-loop-detection-pattern.md 신규 생성. 핵심: (A) bug-fixer 4회 로테이션에서 도구 호출 시퀀스의 반복 패턴을 감지하여 전략 전환을 조기 트리거 (B) autoresearch 실험 루프에서 동일 접근 반복 시 corrective prompt 자동 주입 (C) convergence-loop의 period-2 oscillation 감지를 "도구 시퀀스 레벨"로 강화 (D) 300-iteration hard cap 개념을 장기 태스크에 적용하여 무한 루프 구조적 차단"Claude Managed Agents: a fully managed agent harness for running Claude as an autonomous agent with secure sandboxing, built-in tools, and server-sent event streaming. /ultrareview: a fleet of bug-hunting agents runs in the cloud and findings land back in your CLI or Desktop automatically. Monitor tool streams background events into the conversation so Claude can tail logs and react live. Prompt cache fix reduces input token costs up to 12x." — managed-agents-2026-04-01 beta header, Opus 4.7 xhigh effort.
ci-self-healing-loop.md가 "CI 테스트 실패 → 에이전트 자동 수정 루프"를, agentic-workflows-cicd.md가 "에이전트를 CI/CD 파이프라인으로 격상"을 다뤘다면, Managed Agents는 에이전트 하네스 자체를 클라우드 매니지드 서비스로 제공하여 로컬 인프라 의존성을 제거. 핵심 차별점: (A) Managed Harness — 샌드박싱·도구 관리·에러 복구를 Anthropic 인프라에서 처리. 로컬 permission gate, context management, tool routing을 클라우드로 이전. (B) /ultrareview Fleet — 여러 버그 헌팅 에이전트가 클라우드에서 병렬 실행 → CLI/Desktop에 결과 자동 전달. 기존 codex:adversarial-review(단일 모델 리뷰)를 에이전트 fleet 기반 병렬 리뷰로 확장하는 공식 구현. (C) Monitor Tool — 백그라운드 프로세스의 이벤트를 실시간 스트리밍. 기존 "로그를 수동으로 확인"에서 "에이전트가 로그를 실시간 감시하고 반응"으로 전환. (D) Prompt Cache 12x 절감 — SDK query() 호출의 캐시 무효화 버그 수정으로 입력 토큰 비용 대폭 감소. 토큰 효율성의 인프라 레벨 개선.~/.claude/rules/managed-agent-harness-pattern.md 신규 생성. 핵심: (A) /ultrareview 패턴을 codex:adversarial-review 워크플로우에 통합 — 클라우드 에이전트 fleet으로 병렬 버그 헌팅 (B) Monitor tool 패턴을 QA 프로세스에 적용 — 빌드/테스트 로그를 에이전트가 실시간 감시 (C) Managed Agents API(SSE)를 auto-issue + CI self-healing에 활용 검토 (D) prompt cache 최적화를 SDK 사용 프로젝트에 즉시 적용"Warp is an agentic development environment, born out of the terminal. SWE-bench Verified 71%, Terminal-Bench #1. Code + Agents + Terminal + Drive in a single app. Run multiple agents in parallel — Claude Code, Codex, Gemini CLI. Schedule cloud agents like cron jobs. 75M lines of code generated, 95% acceptance rate. Open-sourced under AGPLv3, OpenAI founding sponsor." — Rust 기반, WARP.md 지원, 700K+ 개발자.
worktree-parallel-agents.md가 "격리 worktree로 병렬 작업"을, fresh-context-iteration.md가 "fresh 세션으로 컨텍스트 최적화"를, state-driven-orchestration.md가 "파일 기반 상태 관리"를 다뤘다면, Warp 2.0은 에이전트 개발 환경(ADE)이라는 새로운 카테고리를 정의. 핵심 인사이트: (A) 에이전트 네이티브 환경 — 프롬프팅, 멀티스레딩, 에이전트 관리, 휴먼-에이전트 협업을 위한 전용 제품. 기존 터미널에 에이전트를 끼워넣는 것이 아니라 에이전트를 중심으로 환경을 설계. (B) 클라우드 에이전트 cron 스케줄링 — 에이전트를 cron job처럼 예약 실행하고 결과를 받아봄. 기존 /loop 커맨드의 프로덕션 버전. (C) 멀티 에이전트 병렬 — Claude Code, Codex, Gemini CLI를 동시에 돌려 비교. LLM Council 패턴의 실용적 구현. (D) SWE-bench 71% + 95% 수락률 — 정량 벤치마크 기반 품질 검증.scored-agent-benchmarks.md(에이전트 성능 수치화)와 cross-model-adversarial-review.md(이중 모델 리뷰)가 "무엇을 측정할 것인가"를 다뤘다면, langfuse는 "어떻게 측정 인프라를 구축할 것인가"에 초점 — tracing(인과 그래프), evals(자동 품질 판정), prompt versioning(회귀 감지), dataset(지속 벤치마크). (2) Agent Infrastructure Ratio 축: VILA-Lab/Dive-into-Claude-Code(⭐864, arXiv:2604.14228)가 Claude Code v2.1.88(~1,900 TS 파일, ~512K 라인)을 소스 레벨에서 체계적 해부. 핵심 발견: 98.4%가 결정론적 인프라(permission gates · context management · tool routing · recovery), AI 추론 로직은 1.6%에 불과. "The agent loop is a simple while-loop; the real engineering complexity lives in the systems around it." 5단계 Context Compaction(Budget Reduction → Snip → Microcompact → Context Collapse → Auto-Compact) — 기존 context-compression-pipeline.md의 이론을 실제 프로덕션 구현으로 검증. Reversibility-Weighted Risk(가역 작업은 가벼운 감독, 비가역은 엄격한 게이트). Subagent Summary-Only Returns(전체 대화 대신 요약만 반환, 7x context 폭발 방지). 27 Hook Events × 4 Extension Mechanisms(Hooks · Skills · Plugins · MCP 4계층, graduated lazy-degradation). Pre-Trust Execution Window 취약점(4 CVE — 확장이 trust dialog 전에 실행). 추가 트렌딩: forrestchang/andrej-karpathy-skills(⭐97.9K, +25.8K/wk, 역대급 성장 지속), farion1231/cc-switch(⭐55K, +5.9K/wk), badlogic/pi-mono(⭐42.4K, +3.9K/wk, 통합 에이전트 CLI · coding agent · vLLM 배포 도구), mattpocock/skills(⭐40.3K, +18.2K/wk), rtk-ai/rtk(⭐38K, +6.2K/wk), abhigyanpatwari/GitNexus(⭐32.9K, +4.2K/wk, 클라이언트 사이드 Graph RAG), addyosmani/agent-skills(⭐25.7K, +6.2K/wk), davila7/claude-code-templates(⭐26.3K, +1.2K/wk, Claude Code 설정 CLI), microsoft/markitdown(⭐118.5K, +4.5K/wk), multica-ai/multica(⭐22.7K, +4.1K/wk), Alishahryar1/free-claude-code(⭐17.9K, +15.1K/wk), zilliztech/claude-context(⭐10.2K, +3.8K/wk), Wei-Shaw/sub2api(⭐16.6K, +2.3K/wk, 멀티 LLM 구독 통합 릴레이), anthropics/claude-agent-sdk-python(⭐6,610, 공식 Agent SDK), pydantic/monty(⭐7,042, Rust 보안 Python 인터프리터), gastownhall/beads(⭐22.6K, +1.5K/wk), HKUDS/RAG-Anything(⭐19.3K, 올인원 RAG 프레임워크)."Open source LLM engineering platform: LLM Observability, metrics, evals, prompt management, playground, datasets. Instrument applications to capture every LLM call, retrieval, embedding, and agent action. Evaluate with LLM-as-judge, user feedback, custom pipelines. Version-control prompts with strong caching. Create test sets for pre-deployment validation." — LangChain · LlamaIndex · Vercel AI 통합, OpenAI drop-in 호환, 26.3K 스타.
scored-agent-benchmarks.md가 "에이전트 성능을 3축 점수로 정량 평가"를, cross-model-adversarial-review.md가 "다중 모델 리뷰"를, token-efficiency-tracking.md가 "토큰 사용량 추적"을 다뤘다면, 이 패턴은 관측성 인프라 자체를 구축하여 세 가지를 하나의 플랫폼으로 통합. 핵심 차별점: (A) Tracing-First Architecture — 모든 LLM 호출에 latency · cost · token usage를 자동 추적. action-log.sh가 이벤트 기록만 하는 반면, tracing은 인과관계 그래프(A 호출 → B 도구 → C 응답)까지 추적하여 병목 식별. (B) Prompt Quality Gate — 프롬프트 변경을 버전 관리하고 이전 버전 대비 eval 점수를 자동 비교 → 회귀 시 rollback. specialist .md 파일 변경 시 "잘 되던 게 망가지는지" 확인할 방법이 없었음 — 대표 태스크 10개 + eval 파이프라인으로 regression gate 구축 가능. (C) Dataset Benchmarking — 프로덕션 데이터에서 테스트셋 추출, 지속 개선 루프. autoresearch의 keep/discard 판정을 "느낌"이 아닌 "eval 점수"로 HARD 강화.~/.claude/rules/llm-observability-infrastructure.md 신규 생성. 핵심: (A) bug-fixer 4회 로테이션의 각 전략별 성공률을 action-log에 트레이스 구조로 기록 (B) specialist .md 프롬프트 변경 시 대표 태스크로 regression 자동 검증 프로토콜 도입 (C) qa-cycle 각 단계별 소요 시간 · 토큰 비용 추적으로 병목 자동 식별"The agent loop is a simple while-loop; the real engineering complexity lives in the systems around it. 98.4% deterministic infrastructure — permission gates, context management, tool routing, recovery. Only 1.6% AI decision logic. 5 compaction layers before every model call. Reversibility-weighted risk. Subagent summary-only returns prevent 7x context explosion. 27 hook events, 4 extension mechanisms." — CC BY-NC-SA 4.0, arXiv:2604.14228, 5 values → 13 principles → implementation.
context-compression-pipeline.md가 "다단계 압축 파이프라인 이론"을, role-based-agent-permissions.md가 "역할별 도구 권한 제한"을 다뤘다면, 이 논문은 Claude Code 실제 소스에서 이 원칙들이 어떻게 구현되는지를 학술적으로 검증. 핵심 발견: (A) 5단계 Compaction(Budget Reduction → Snip → Microcompact → Context Collapse → Auto-Compact) — context-compression-pipeline 이론의 프로덕션 검증. (B) Reversibility-Weighted Risk — 파일 편집(가역)은 auto-allow, API 호출/삭제(비가역)는 엄격한 게이트. permission 설계의 이론적 근거. (C) Subagent Summary-Only — team-orchestrator에서 specialist 결과를 전체 전달하면 7x 비용 → 요약만 반환으로 부모 context 보호. (D) 4 Extension Mechanisms(Hooks·Skills·Plugins·MCP) 각 계층의 컨텍스트 비용이 다름 → graduated lazy-degradation. (E) Pre-Trust Execution Window(4 CVE) — 확장이 trust dialog 전에 실행되는 구조적 취약점. 보안 설계 시 참조.~/.claude/rules/agent-infrastructure-ratio.md 신규 생성. 핵심: (A) 에이전트 시스템 설계 시 AI 로직보다 인프라(permission · context · routing)에 투자하는 원칙 명시 (B) 5단계 compaction 구조를 context management 설계 레퍼런스로 채택 (C) reversibility-weighted risk를 permission 설계 가이드라인으로 공식화codebase-search-before-create(Grep/Glob 정확 매칭)가 "탐색 의무"를 부과한다면, 이 도구는 "탐색 품질"을 시맨틱 수준으로 격상. (2) Signal-Driven Model Routing 축: vllm-project/semantic-router(⭐3,950, +175/wk, Go/Python/TypeScript/Rust)가 3축 신호(Token Economics · LLM Safety · Fullmesh Intelligence)로 멀티모델 워크로드를 지능적으로 라우팅. 핵심: Workload-Router-Pool Architecture — 작업 복잡도 → Haiku/Sonnet/Opus 자동 선택, PII/프롬프트 인젝션 감지 → 안전 모델로 자동 전환, 프라이버시 요구 → 로컬 모델로 라우팅. Semantic Caching(유사 쿼리 캐시 재사용, 토큰 0) + Hallucination Detection(응답 사실 검증 후 재라우팅) 포함. 기존 unified-model-gateway(포맷 변환)와 quantified-ambiguity-gate(비용-tier 라우팅)를 안전성 축까지 확장. "모델 선택을 직감이 아닌 작업 신호로 결정하면 비용 70% 절감 + 안전성 향상 동시 달성." (3) Orchestration SDK 축: gastownhall/gascity(⭐522, +224/wk, Go)가 beads(22K⭐) 팀이 만든 오케스트레이션 빌더 SDK로, 선언적 city.toml + controller/supervisor 수렴 루프 + 다중 런타임(tmux/subprocess/K8s) 지원. "desired state → running state 자동 수렴" 패턴으로 Kubernetes reconciliation을 에이전트 오케스트레이션에 적용. 추가 트렌딩: forrestchang/andrej-karpathy-skills(⭐97,962, +25,836/wk, 이번 주 전체 최고 주간 증가율), Alishahryar1/free-claude-code(⭐17,945, +15,110/wk), farion1231/cc-switch(⭐55,066, +5,900/wk), rtk-ai/rtk(⭐38,037, +6,164/wk), abhigyanpatwari/GitNexus(⭐32,937, +4,210/wk, Graph RAG for code), obra/superpowers(⭐172,214, +8,796/wk), mattpocock/skills(⭐40,323, +18,218/wk), addyosmani/agent-skills(⭐25,671, +6,179/wk), microsoft/markitdown(⭐118,507, +4,496/wk), davila7/claude-code-templates(⭐26,336, +1,221/wk, Claude Code 설정 CLI), Wei-Shaw/sub2api(⭐16,585, +2,275/wk, 멀티 LLM 통합 API 게이트웨이), google/osv-scanner(⭐9,948, +1,206/wk, Go 취약점 스캐너), gastownhall/beads(⭐22,564, +1,483/wk, 에이전트 메모리 지속 성장)."Signal-driven intelligent routing — Workload-Router-Pool Architecture for LLM Inference Optimization. Token economics reduces wasted tokens; LLM Safety detects jailbreaks, sensitive data leakage, and hallucinations; Fullmesh Intelligence enables coordination between local, private, and frontier models." — Go/Python/TypeScript/Rust 멀티랭귀지, K8s 네이티브, LoRA fine-tuning 지원.
unified-model-gateway.md가 "단일 API로 멀티 프로바이더 포맷 변환"을, quantified-ambiguity-gate.md가 "비용-tier 라우팅(Frugal→Standard→Frontier)"을 다뤘다면, 이 패턴은 라우팅 신호를 3축으로 확장. (A) Token Economics 축 — 작업 복잡도를 분석하여 Haiku(단순)→Sonnet(중간)→Opus(복잡) 자동 선택. 기존 cost-tier routing의 구체적 구현. (B) LLM Safety 축 — 프롬프트 인젝션, PII 유출, jailbreak 시도를 실시간 감지하여 위험 트래픽을 안전 모델로 자동 전환. 기존 시스템에 없는 완전히 새로운 축. (C) Fullmesh Intelligence 축 — 로컬/프라이빗/프론티어 모델 간 가용성 기반 자동 분배. 프라이버시 요구 시 로컬 모델, 성능 요구 시 클라우드로 라우팅. (D) Semantic Caching — 벡터 유사도 기반 캐시 히트로 반복 쿼리의 토큰 소비를 0으로. (E) Hallucination Detection — 응답 생성 후 사실 검증 레이어로, 감지 시 다른 모델로 재라우팅. 모든 라우팅 규칙이 결정론적(signal → model 매핑)이므로 HARD 전환 가능.~/.claude/rules/signal-driven-model-routing.md 신규 생성. 핵심: (A) bug-fixer 4회 로테이션에 작업 복잡도 기반 모델 자동 선택 통합 (B) specialist agent 호출 시 작업 유형별 모델 매핑을 결정론적 함수로 전환 (C) safety 신호 기반 프롬프트 검증 레이어 도입 검토 (D) semantic caching으로 반복 패턴 탐색 토큰 절감"Code search MCP for Claude Code. Make entire codebase the context for any coding agent. Stores your codebase in a vector database and only uses related code in context — 40% token reduction. Hybrid search combining BM25 and dense vector methods. AST-based code chunking for 13+ languages. Merkle tree incremental re-indexing." — 15+ 플랫폼 지원(Claude Code·Cursor·VS Code·Gemini CLI), OpenAI/VoyageAI/Ollama/Gemini 임베딩.
codebase-search-before-create.md가 "새 파일 생성 전 Grep/Glob으로 기존 구현 탐색 의무화"를 강제한다면, 이 도구는 탐색 방식 자체를 시맨틱 수준으로 업그레이드. (A) Hybrid Search(BM25 + Dense Vector) — BM25는 정확한 함수명/변수명 매칭(기존 Grep 역할), Dense Vector는 자연어 쿼리("이 프로젝트에서 인증 처리하는 코드")로 의미적 유사 코드 검색(Grep으로 불가능). RRF(Reciprocal Rank Fusion)로 양쪽 결과를 합산하여 정확도 극대화. (B) AST-Aware Code Chunking — 파일 단위가 아닌 함수/클래스/모듈 단위로 인덱싱. 13+ 언어(TypeScript, Python, Java, Rust, Go 등)의 AST를 분석하여 의미 있는 코드 블록으로 분할. 불필요한 import/boilerplate는 인덱스에서 제외. (C) Merkle Tree Incremental Re-indexing — git 커밋 시 변경된 파일만 해시 비교로 감지하여 재인덱싱. 대규모 코드베이스(수만 파일)에서도 수초 내 갱신. (D) MCP 네이티브 — Claude Code, Cursor, VS Code 등 15+ 플랫폼에서 동일하게 동작. 기존 context-compression-pipeline(입력 파일 압축)과 상호보완: 압축은 "이미 선택된 파일을 줄이는 것", 시맨틱 검색은 "선택 자체를 정확하게 하는 것".~/.claude/rules/semantic-codebase-search-mcp.md 신규 생성. 핵심: (A) codebase-search-before-create 강화 — Grep 전에 시맨틱 검색으로 후보 축소 (B) team-orchestrator specialist에게 전체 코드베이스 대신 관련 코드 청크만 전달 (C) code-reviewer에게 변경 관련 코드 컨텍스트 자동 주입"An orchestration-builder SDK for multi-agent systems. Controller/supervisor loop that reconciles desired state to running state. Declarative city configuration via city.toml. Beads-backed work tracking, formulas, molecules, waits, and mail. Multiple runtime providers: tmux, subprocess, exec, ACP, and Kubernetes." — beads(22K⭐) 팀의 orchestration 레이어.
declarative-agent-coordination(takt)과 동일 철학이지만 Go 구현 + beads 통합. (B) Controller/Supervisor Reconciliation — Kubernetes의 desired state → actual state 수렴 루프를 에이전트 오케스트레이션에 적용. 에이전트가 실패하면 supervisor가 자동 재시작. (C) Convergence Module — 반복 정제 루프를 SDK 레벨에서 지원. 기존 convergence-loop-no-mid-question 원칙의 인프라 구현체. (D) Multi-Runtime — tmux(로컬 개발), subprocess(CI), K8s(프로덕션)를 동일 설정으로 실행. 기존 worktree-parallel-agents와 상호보완.cli-output-compression(rtk, 출력 사후 필터링)과 context-compression-pipeline(파일 사전 압축)이 "출력/입력을 압축"하는 접근이라면, 이 패턴은 "실행 자체를 격리하여 raw 출력이 컨텍스트에 진입하지 않는" 근본적 접근. (2) Persistent Agent Identity 축: multica-ai/multica(⭐22,515, +4,125/wk, TypeScript/Go)가 코딩 에이전트를 팀원(teammate)으로 전환하는 매니지드 플랫폼. 핵심: Persistent Identity — 에이전트가 프로필을 유지하고, 프로젝트 보드에 표시되며, 코멘트를 작성하고, 이슈를 생성하고, 블로커를 능동적으로 보고. Autonomous Task Lifecycle(enqueue→claim→start→complete/fail)으로 에이전트가 독립적으로 태스크 진행. Skill Compounding — 해결책이 자동으로 재사용 가능한 스킬로 변환되어 팀 전체에 공유. 10개 에이전트 프로바이더(Claude Code·Codex·OpenClaw·Hermes·Gemini·Cursor 등) 자동 감지. "에이전트를 일회성 도구가 아닌 영속적 팀원으로 대우하면, 스킬이 복리로 축적된다." 기존 canonical-workflow-fsm(7-state FSM)이 태스크 상태를 관리한다면, multica는 에이전트 자체에 정체성을 부여하여 자율성을 극대화. 추가 트렌딩: farion1231/cc-switch(⭐54.6K, +5,900/wk, Rust, 5개 코딩 에이전트 통합 데스크탑 클라이언트), Leonxlnx/taste-skill(⭐13.8K, +2,645/wk, anti-slop 프론트엔드 스킬 — Design Variance·Motion Intensity·Visual Density 3축 조절 가능), mattpocock/skills(⭐38.2K, +18,218/wk, 이번 주 Shell 최고 주간 증가율), obra/superpowers(⭐171.7K, +8,796/wk, 지속 성장), KeygraphHQ/shannon(⭐40.7K, +1,750/wk), rtk-ai/rtk(⭐37.8K, +6,164/wk), badlogic/pi-mono(⭐42.2K, +3,851/wk), addyosmani/agent-skills(⭐25.4K, +6,179/wk), forrestchang/andrej-karpathy-skills(⭐97.2K), zarazhangrui/frontend-slides(⭐16K, +840/wk, Claude 프론트엔드 스킬로 슬라이드 생성), mnfst/manifest(⭐5.8K, 스마트 모델 라우팅)."A 56 KB Playwright snapshot becomes 299 bytes — 99% reduction. Over a complete session, 315 KB of raw output compresses to 5.4 KB, extending session duration from ~30 minutes to ~3 hours. The tool executes code in isolated subprocesses. Instead of dumping raw data into context, only stdout enters the conversation." — 14개 플랫폼, 4-Part Architecture, 11개 언어 런타임, 20+ 이벤트 카테고리 추적.
cli-output-compression.md가 "CLI 출력 사후 필터링(rtk, 60-90%)"을, context-compression-pipeline.md가 "파일→LLM 입력 사전 압축(15-82%)"을 다뤘다면, 이 패턴은 도구 실행 자체를 서브프로세스로 격리하여 raw 출력이 컨텍스트에 진입하지 않도록 근본 차단. 핵심 차별점: (A) Sandboxed Output — 11개 언어 런타임(JS/TS/Python/Shell/Rust/Go/Ruby/PHP/Perl/R/Elixir)에서 격리 실행, stdout만 컨텍스트 진입. 기존 접근이 "출력을 사후 압축"이라면 이것은 "출력을 사전 격리" — 패러다임 전환. (B) Session Continuity via SQLite+FTS5 — 파일 편집·git 작업·태스크·에러·사용자 결정을 SQLite에 기록. 컨텍스트 압축(compaction) 시 raw 데이터 재주입 대신 BM25 검색으로 관련 이벤트만 복원. 20+ 이벤트를 4단계 우선순위(P1 Critical ~ P4 Low)로 분류하여 공간 부족 시 P4부터 자동 드롭. 세션이 압축되어도 "무엇을 하고 있었는지"를 정확히 복원. (C) Think-in-Code — "50개 파일을 읽어 함수를 세는" 대신 분석 스크립트 1회 실행으로 결과만 반환. 도구 10회 호출 → 샌드박스 1회로 100x 컨텍스트 절약. 모든 14개 플랫폼에서 동일 패턴 적용 가능. (D) 4개 Lifecycle Hook — PreToolUse(라우팅 강제), PostToolUse(이벤트 캡처), PreCompact(≤2KB XML 스냅샷), SessionStart(Session Guide로 상태 복원). Hook 시스템으로 HARD 강제.~/.claude/rules/context-sandboxing-session-continuity.md 신규 생성. 핵심: (A) 장기 세션(>1시간)에서 도구 출력 격리로 context rot 근본 방지 (B) QA 도구(agent-browser, expect-cli) 출력이 큰 경우 샌드박스 실행 패턴 적용 (C) team-orchestrator specialist 컨텍스트 소모를 구조적으로 감소 (D) PreCompact hook 개념을 우리 시스템의 context compaction 전략에 통합"Turn coding agents into real teammates — assign tasks, track progress, compound skills. Agents receive issue assignments, automatically progress through task lifecycles (enqueue, claim, start, complete/fail), maintain profiles, appear on project boards, contribute comments, create issues, and proactively report blockers." — 10개 에이전트 프로바이더, Next.js 16 + Go 백엔드, PostgreSQL + pgvector.
canonical-workflow-fsm.md가 "태스크의 7-state FSM"을, deterministic-orchestrator-scheduling.md가 "결정론적 스케줄링"을, shared-agent-memory.md가 "에이전트 간 메모리 공유"를 다뤘다면, 이 패턴은 에이전트 자체에 영속적 정체성(persistent identity)을 부여하여 "일회성 도구 호출"에서 "팀원으로서 자율 수행"으로 패러다임 전환. 핵심 차별점: (A) Persistent Identity — 에이전트가 프로필을 유지, 프로젝트 보드에 표시, 코멘트 작성, 이슈 생성, 블로커 능동 보고. 세션 간 정체성 유지. 기존 시스템에서 specialist는 호출될 때만 존재하지만, multica의 에이전트는 "팀원"으로 존재하며 자율적으로 태스크를 claim. (B) Skill Compounding — 해결책이 자동으로 재사용 가능한 스킬로 변환, 팀 전체에 공유. 반복 배포·마이그레이션·코드 리뷰에서 복리 효과. 기존 execution-path-crystallization.md의 "성공 패턴을 스킬로 결정화"와 일치하되, 팀 수준으로 확장. (C) Multi-Provider Agent Registry — Claude Code, Codex, OpenClaw, Hermes, Gemini, Cursor 등 10개 프로바이더를 자동 감지, 통합 대시보드에서 관리.~/.claude/rules/persistent-agent-identity.md 신규 생성. 핵심: (A) team-orchestrator specialist를 "호출 후 소멸"이 아닌 "세션 간 프로필 유지"로 전환 검토 (B) specialist 작업 결과를 자동으로 재사용 스킬로 변환하는 Skill Compounding 패턴 적용 (C) 에이전트가 블로커를 능동 보고하는 패턴을 bug-fixer에 적용shared-agent-memory.md(저장/공유)와 portable-memory-layer.md(이식성)가 메모리의 "어디에 넣을 것인가"를 다뤘다면, 이 패턴은 "어떻게 꺼내올 것인가"에 초점. (2) Intelligent Signal Monitoring 축: sansan0/TrendRadar(⭐55,735, Python)가 11개 플랫폼 통합 모니터링을 AI 스마트 필터링 + 3종 리포팅 모드로 정보 과부하 없이 달성. 핵심: 하이브리드 필터링 — L1 Keyword(정규식 + 필수/제외 키워드, LLM 비용 0) → L2 AI Smart(자연어 관심사 설명 기반 의미 필터링) → AI 실패 시 L1으로 자동 fallback. 3종 리포팅: Daily(전량), Current(실시간), Incremental(신규만, 중복 0). 타임라인 기반 스케줄링으로 시간대별 다른 필터 전략. 9개 알림 채널(Telegram · Slack · Email · Webhook 등). MCP 프로토콜 지원으로 Claude Desktop/Cherry Studio에서 자연어 대화 기반 데이터 탐색. 기존 trend-harvester의 .seen.json dedup이 "재처리 방지"를 다뤘다면, 이 패턴은 "필터링 자체를 지능화 + 리포팅 모드를 사용자 컨텍스트별로 분기". 추가 트렌딩: badlogic/pi-mono(⭐42.2K, 통합 에이전트 CLI + 코딩 에이전트 + 실세계 학습 데이터 공유), davila7/claude-code-templates(⭐26.2K, 100+ 컴포넌트 대시보드 + 세션 분석), alexzhang13/rlm(⭐4,050, MIT에서 Recursive Language Models — LLM이 자기 자신을 재귀 호출하여 무한 길이 컨텍스트 처리), langfuse/langfuse(⭐26.3K, LLM 관측성 플랫폼), HKUDS/RAG-Anything(⭐19.3K, 올인원 RAG 프레임워크), anthropics/claude-agent-sdk-python(⭐6,604, Anthropic 공식 Agent SDK), pydantic/monty(⭐7,041, Rust 기반 보안 Python 인터프리터), obra/superpowers(⭐171K, 지속 성장), forrestchang/andrej-karpathy-skills(⭐97.2K), rtk-ai/rtk(⭐37.8K), CherryHQ/cherry-studio(⭐44.7K), multica-ai/multica(⭐22.5K)."Three reporting modes eliminate information overload: Daily (complete summary), Current (real-time rankings), Incremental (new articles only, zero duplicates). Hybrid filtering: L1 Keyword (regex, zero LLM cost) → L2 AI Smart (natural language interest description) → automatic fallback on AI failure. Timeline-based scheduling for time-of-day filter strategy switching." — 11개 플랫폼, 9개 알림 채널, MCP 프로토콜 지원.
.seen.json이 "이미 본 항목 재처리 방지"를, Phase 2의 LLM 분석이 "의미 기반 필터링"을 다뤘다면, 이 패턴은 필터링을 2계층(키워드 → AI)으로 계층화하고 리포팅 모드를 3종으로 분기하여 정보 과부하를 구조적으로 제거. 핵심 차별점: (A) 하이브리드 필터링 + Graceful Fallback — L1 Keyword(정규식, bash grep, LLM 비용 0)로 사전 필터 → L2 AI Smart(자연어 관심사 기반 의미 필터)로 정밀 판정 → AI 실패 시 자동으로 L1으로 fallback하여 수집 중단 없음. 우리 Phase 2의 LLM-only 분석 대비 비용 절감 + 안정성 향상. (B) Incremental 모드 — 신규 항목만 리포팅(중복 0건). 우리 .seen.json의 dedup을 리포트 수준까지 확장하여 power user에게 noise-free 알림. (C) 타임라인 기반 스케줄링 — 동일 인프라에서 시간대별 다른 필터 전략. (D) MCP 프로토콜 대화형 탐색 — Claude Desktop에서 "지난주 AI agent 트렌드 요약해줘"로 데이터 직접 탐색 가능.~/.claude/rules/intelligent-signal-monitoring.md 신규 생성. 핵심: (A) trend-harvester Phase 2에 L1 키워드 사전 필터 추가 — LLM 호출 전 regex로 명백한 무관 항목 제거하여 비용 절감 (B) 텔레그램 알림에 Incremental 모드 개념 적용 — 이전 알림 이후 신규 적용분만 전송 (C) AI 필터 실패 시 keyword fallback으로 수집 안정성 확보"Progressive disclosure for memory: search returns ranked chunks, then expands context incrementally rather than retrieving full documents upfront. Markdown files are the source of truth; Milvus is a rebuildable shadow index. Hybrid search: Dense vectors + BM25 sparse + RRF reranking. SHA-256 dedup skips unchanged content." — Claude Code · Codex · OpenCode 크로스 에이전트 메모리 통합.
shared-agent-memory.md가 "에이전트 간 지식 공유 저장"을, portable-memory-layer.md가 "단일 파일 이식성"을, semantic-memory-compaction.md가 "완료 태스크 압축"을 다뤘다면, 이 패턴은 검색 전략 자체를 3계층으로 계층화하여 "필요한 만큼만" 토큰을 소비. 핵심 차별점: (A) 3계층 Progressive Retrieval — L1 Search(순위화된 청크 요약, ~200토큰) → L2 Expand(전체 마크다운 섹션, ~1000토큰) → L3 Transcript(원본 전체, ~5000토큰+). 대부분의 검색은 L1에서 종료하여 토큰 80% 절약. L3는 정말 필요한 경우에만. (B) Markdown-First Architecture — 벡터 DB는 "재구축 가능한 shadow index"이고 마크다운 파일이 source of truth. 인프라 의존성 최소화(벡터 DB 다운 시에도 raw 검색 가능). 우리 memory-bank의 SQLite 의존을 줄이는 보조 전략. (C) Hybrid Search + RRF — Dense 벡터(의미 유사도) + BM25(키워드 정확도) + RRF(순위 융합). 단일 검색 방식 대비 recall 향상. (D) Live Sync 파일 워처 — 파일 변경 시 자동 재인덱싱으로 인덱스 staleness 방지.~/.claude/rules/progressive-memory-retrieval.md 신규 생성. 핵심: (A) memory-bank 검색 시 L1(요약)부터 시작하여 필요시에만 L2 → L3로 확장하는 프로토콜 도입 (B) self-improve 실행 전 과거 세션 검색을 L1 수준으로 제한하여 토큰 절약 (C) bug-fixer 과거 동일 에러 패턴 검색 시 L1+L2까지만 사용하는 가이드라인qa-browser-test-required의 "인터랙션 테스트 = QA 핵심" 철학과 정확히 일치 — "요소 존재 확인"이 아닌 "실제 동작 검증"만 인정. (2) Complexity-Based Model Routing 축: mnfst/manifest(⭐5.8K, +430/wk, TypeScript)가 단일 /auto 엔드포인트로 300+ 모델·16개 프로바이더를 복잡도 기반 지능 라우팅. 핵심: 모든 요청을 최고 모델에 보내지 않고, 요청 난이도를 분석하여 적절한 모델 자동 선택 → 비용 70% 절감. 3가지 라우팅 전략: Complexity-based(난이도 자동 평가), Specificity(도메인 매칭), Header-based(호출자 명시 제어). 실시간 비용 추적("Track every single dollar"). 기존 unified-model-gateway.md(포맷 변환+fallback)를 "지능적 비용 최적화"로 진화. (3) Declarative Orchestration Builder 축: gastownhall/gascity(⭐514, +195/wk, Go)가 beads(22K⭐) 팀의 멀티 에이전트 인프라를 선언적 city.toml 설정 + 컨트롤러/수퍼바이저 reconcile 루프로 추출. 핵심: Kubernetes의 reconciliation pattern을 에이전트 오케스트레이션에 적용 — desired state(설정)와 actual state(실행 중)를 자동 조정. 런타임 프로바이더 추상화(tmux/subprocess/ACP/k8s)로 에이전트 실행 환경 교체 무마찰. 기존 declarative-agent-coordination.md(YAML 명세)를 "자동 reconcile 루프 + 런타임 추상화"로 구체화. 추가 트렌딩: farion1231/cc-switch(⭐54.4K, +5,027/wk, 크로스플랫폼 에이전트 CLI), obra/superpowers(⭐171K, +8,670/wk, 역대 최고치 지속), forrestchang/andrej-karpathy-skills(⭐96.7K, +28,522/wk, 폭발 성장 지속), rtk-ai/rtk(⭐37.7K, +6,222/wk, CLI 토큰 절감), badlogic/pi-mono(⭐42K, +3,727/wk, 통합 에이전트 CLI), addyosmani/agent-skills(⭐25.2K, +6,256/wk, 프로덕션급 에이전트 스킬), multica-ai/multica(⭐22.4K, +4,532/wk, 코딩 에이전트 팀메이트 플랫폼), Alishahryar1/free-claude-code(⭐17.4K, +13,415/wk), sansan0/TrendRadar(⭐55.7K, +2,770/wk, AI 여론 모니터), KeygraphHQ/shannon(⭐40.7K, 자율 보안 검증), mksglu/context-mode(⭐10.9K, +2,346/wk, 컨텍스트 윈도우 98% 압축)."No exploit, no report. Shannon validates by executing actual exploits — pattern matching produces false positives, exploitation produces proof. 96.15% success rate on XBOW benchmark. Five specialized agents (Injection, XSS, SSRF, AuthN, AuthZ) run parallel analysis. Strategic model assignment: Haiku for summarization, Sonnet for analysis, Opus for deep reasoning." — Claude Agent SDK 기반, 5단계 파이프라인(Pre-Recon → Recon → Analysis → Exploitation → Reporting).
security-patterns.md가 "OWASP 점검 체크리스트"를, qa-browser-test-required.md가 "인터랙션 테스트 필수"를 다뤘다면, 이 패턴은 보안 검증에 proof-by-exploitation을 적용하여 false positive를 구조적으로 제거. 핵심 차별점: (A) "No exploit, no report" — 취약점 "가능성"이 아닌 "실제 익스플로잇 성공"만 보고. 재현 가능한 PoC 필수. QA의 "요소 존재 확인 ≠ PASS" 원칙과 동일 철학. (B) 5개 전문 에이전트 병렬 — OWASP 카테고리별 독립 분석으로 coverage 극대화 + 속도 확보. specialist 병렬 위임 패턴과 매핑. (C) 전략적 모델 할당(Multi-Tier) — Haiku(요약·분류) → Sonnet(분석·구현) → Opus(깊은 추론). 모든 작업을 최고 모델에 보내지 않는 비용 최적화. agent-delegation-strategy의 모델 선택 결정 트리를 3-tier로 구체화. (D) White-Box + Dynamic 통합 — 소스 코드 정적 분석 + 브라우저 자동화 동적 테스트를 단일 파이프라인으로. code-reviewer(정적) + web-qa-tester(동적) 2중 검증과 동일 구조.~/.claude/rules/proof-by-exploitation-security.md 신규 생성. 핵심: (A) 보안 리뷰 시 "재현 가능한 PoC" 제시 의무화 — 취약점 가능성만 보고하는 것은 SOFT에서 HARD로 승격 (B) qa-browser-test-required의 인터랙션 필수 원칙을 보안 검증에 확장 — "SQL injection 의심" → "실제 injection 시도 + 결과 캡처" (C) 전략적 모델 할당을 bug-fixer 4회 로테이션과 agent-delegation-strategy에 통합"Redirects each query to the right model, saving up to 70% in AI costs. Track every single dollar, setup notifications and limits. 300+ models across 16 providers through a single /auto endpoint." — Complexity-based routing(난이도 자동 평가) + Specificity analysis(도메인 매칭) + Header-based routing(호출자 명시 제어).
unified-model-gateway.md가 "포맷 변환 + 프로바이더 fallback"을, agent-delegation-strategy.md가 "복잡한 판단=Opus, 나머지=Sonnet" 2단계를 다뤘다면, 이 패턴은 요청 복잡도를 실시간 분석하여 300+ 모델 중 최적을 자동 선택하고 달러 단위로 비용을 추적. 핵심 차별점: (A) Complexity-Based Routing — 요청 난이도를 분석하여 모델 자동 선택. 단순 리네이밍 → Haiku, 아키텍처 설계 → Opus. 기존 "Opus/Sonnet" 2단계를 "Haiku/Sonnet/Opus" 3단계 + 자동 판정으로 정교화. (B) 비용 달러 추적 — "Track every single dollar"로 세션별·에이전트별 비용을 실시간 집계. self-improve에서 모델별 ROI 분석 가능. (C) Fallback 체인 — 모델 장애 시 자동 rerouting. unified-model-gateway의 fallback을 지능화. (D) 결정론적 라우팅 — 파일 수 + 코드 라인 수 기반 임계값 → bash wc -l로 HARD 전환 가능. LLM 판단 없이 모델 선택.~/.claude/rules/complexity-based-model-routing.md 신규 생성. 핵심: (A) agent-delegation-strategy에 3-tier 모델 선택 규칙 통합 — 코드 라인수/파일수 기반 결정론적 판정 (B) bug-fixer 4회 로테이션에 모델 변경 전략 추가 — 1차 Sonnet, 4차 Opus (C) action-log에 model_tier 필드 추가하여 세션별 비용 추적 기반 마련"Extracts the reusable infrastructure from Gas Town into a configurable toolkit with runtime providers, work routing, formulas, orders, health patrol, and a declarative city configuration." — beads(22K⭐) 팀의 오케스트레이션 인프라 추출. K8s reconciliation loop 패턴 적용.
declarative-agent-coordination.md(takt 913⭐)가 "YAML 명세로 에이전트 조율 정의"를, state-driven-orchestration.md(oh-my-codex 21K⭐)가 "파일 기반 상태 영속화"를, deterministic-orchestrator-scheduling.md가 "LLM 없는 스케줄링"을 다뤘다면, 이 패턴은 세 가지를 통합하여 "선언적 설정(city.toml) + 자동 reconcile 루프 + 런타임 프로바이더 추상화"로 완전한 오케스트레이션 빌더를 제공. 핵심 차별점: (A) 컨트롤러/수퍼바이저 루프 — Kubernetes reconciliation pattern을 에이전트에 적용. desired state(설정) vs actual state(실행 중) diff 계산 → 자동 reconcile → 수렴. (B) 런타임 프로바이더 추상화 — tmux/subprocess/exec/ACP/k8s 5종 런타임을 동일 인터페이스로. 에이전트 실행 환경 교체가 설정 1줄 변경. (C) beads 연계 — beads(semantic-memory-compaction 패턴 출처, 22K⭐)의 작업 추적 인프라 재사용. 검증된 인프라 위에 구축. (D) convergence/ 모듈 — 명시적 수렴 루프 구현. convergence-loop-no-mid-question 원칙의 인프라 레벨 구현.~/.claude/rules/declarative-orchestration-builder.md 신규 생성. 핵심: (A) team-orchestrator Phase 3에서 specialist 위임을 선언적 설정으로 변환 — depends_on 기반 의존성 자동 해석 (B) 런타임 프로바이더 추상화 개념을 Agent tool의 isolation 옵션과 연계 (C) reconcile 루프를 deterministic-orchestrator-scheduling과 통합하여 LLM 추론 없는 오케스트레이션 완성codebase-search-before-create(검색 의무화)를 "검색 전에 그래프가 이미 답을 알고 있는 구조"로 진화. (2) Precomputed Code Intelligence 축: abhigyanpatwari/GitNexus(⭐32.4K, +4,043/wk, TypeScript)가 코드베이스를 6단계 인덱싱 파이프라인으로 완전한 지식 그래프화하고 16개 MCP 도구로 노출. 핵심: Structure→Parsing(Tree-sitter AST)→Resolution(크로스파일 import/타입 추론)→Clustering(Leiden)→Processes(진입점→호출 체인 추적)→Search(BM25+Semantic+RRF). Impact Analysis가 깊이별 그룹핑 + 신뢰도 점수 + 관계 유형(CALLS/IMPORTS/EXTENDS/IMPLEMENTS) 분류로 "이 함수를 수정하면 47개 다운스트림이 깨진다"를 단일 쿼리로 반환. 클라이언트사이드 실행(WebAssembly/로컬 CLI). 기존 ast-aware-code-search(62차)의 "어떻게 검색할 것인가"를 넘어 "검색 전에 모든 관계를 미리 계산하라". (3) Progressive Disclosure Architecture 축: wshobson/agents(⭐34.5K, TypeScript)가 184개 에이전트 + 78개 플러그인을 3계층 프로그레시브 디스클로저로 토큰 효율화. 핵심: Metadata(항상 로드) → Instructions(요청 시) → Resources(필요 시) 3단계 점진 노출로 플러그인당 평균 3.6개 컴포넌트만 로드. Strategic Model Assignment — Opus 4.7(핵심 판단), Sonnet 4.6(구현), Haiku 4.5(운영)로 비용 대비 성능 최적화. 16개 워크플로우 오케스트레이터(풀스택·보안·ML·인시던트 대응). 기존 per-turn-tool-adaptation(턴별 도구 선택)을 "플러그인 단위 점진 로딩"으로 정교화. 추가 트렌딩: sickn33/antigravity-awesome-skills(⭐35.5K, 1,400+ 에이전트 스킬 라이브러리), ruvnet/ruflo(⭐33.8K, Claude 에이전트 스웜 오케스트레이션), davila7/claude-code-templates(⭐26K, Claude Code 설정·모니터링 CLI), anthropics/claude-plugins-official(⭐18.1K, Anthropic 공식 플러그인 마켓플레이스), anthropics/knowledge-work-plugins(⭐11.6K, 지식 작업자용 Claude Cowork 플러그인), obra/superpowers(⭐171K, +8,670/wk, 역대 최고치 갱신), forrestchang/andrej-karpathy-skills(⭐96.2K, +28,522/wk, 지속 폭발 성장), rtk-ai/rtk(⭐37.5K, +6,222/wk, CLI 토큰 절감 Rust 바이너리), badlogic/pi-mono(⭐42K, 통합 에이전트 CLI + 코딩 에이전트), Alishahryar1/free-claude-code(⭐17.1K, +13,415/wk), open-metadata/OpenMetadata(⭐13.7K, +2,499/wk, 통합 메타데이터 플랫폼)."Clustering is graph-topology-based — no embeddings. Edge density determines communities, making the structure itself the similarity signal. On mixed corpora (code + papers + images), graphify achieves 71.5x fewer tokens per query vs reading raw files." — 25개 언어 AST + Whisper 트랜스크립션 + Claude 시맨틱 추출, Leiden 커뮤니티 감지, EXTRACTED/INFERRED/AMBIGUOUS 신뢰도 태그.
codebase-search-before-create.md가 "탐색 후 생성" 의무화를, ast-aware-code-search.md(62차)가 "AST 기반 하이브리드 검색"을 다뤘다면, 이 패턴은 코드를 넘어 문서·이미지·동영상까지 통합 그래프화하고 임베딩 없이 그래프 토폴로지만으로 클러스터링하는 근본적 접근. 핵심 차별점: (A) 3단계 결정론적 파이프라인 — AST 추출(LLM 불필요, 25개 언어) → 미디어 트랜스크립션(로컬 Whisper) → 시맨틱 추출(Claude 병렬). 1단계와 2단계는 LLM 비용 0. (B) Embedding-Free Clustering — 벡터 임베딩 대신 그래프 에지 밀도로 커뮤니티 감지. 인프라 의존성 제거(벡터 DB 불필요). (C) 신뢰도 태깅 — 모든 관계에 EXTRACTED(직접 발견)/INFERRED(추론, 신뢰도 점수)/AMBIGUOUS(검토 필요) 표시. LLM 환각 위험을 구조적으로 가시화. (D) 71.5x 토큰 절감 — 초기 그래프 구축에 토큰 소비하지만, 이후 쿼리는 압축된 그래프에서 수행하여 원본 파일 읽기 대비 71.5배 절약. (E) PreToolUse Hook 통합 — Claude Code에서 파일 검색 시 "그래프가 존재하면 GRAPH_REPORT.md를 먼저 읽으라" 강제.~/.claude/rules/multi-format-knowledge-graph.md 신규 생성. 핵심: (A) init-project 분석 시 코드+문서를 통합 그래프로 사전 구축하여 Explore 에이전트 효율 극대화 (B) codebase-search-before-create를 "그래프 우선 참조"로 강화 — 그래프 존재 시 raw 파일 검색 스킵 (C) 신뢰도 태깅을 code-reviewer의 변경 영향 분석에 적용"Traditional approaches give the LLM raw graph edges and hope it explores enough. GitNexus precomputes structure at index time — clustering, tracing, scoring — so tools return complete context in one call. An agent modifying UserService.validate() discovers 47 downstream dependents before shipping breaking changes." — Tree-sitter AST + Leiden + BM25+Semantic+RRF, 14개 언어, 클라이언트사이드 실행.
self/this receiver 매핑까지 수행하여 OOP 코드의 관계를 정확히 포착. (B) Impact Analysis 3차원 — 깊이별 그룹핑("즉시 깨짐" vs "전이적 영향"), 신뢰도 임계값 필터링(기본 0.8), 관계 유형 분류(CALLS/IMPORTS/EXTENDS/IMPLEMENTS). (C) detect_changes — git diff를 입력하면 영향받는 프로세스(실행 흐름)를 자동 매핑. PR 전 영향 분석에 직접 사용 가능. (D) Multi-Repo Group Tools — 5개 그룹 도구로 크로스레포 계약 추출, 통합 검색, staleness 모니터링. 마이크로서비스 아키텍처에서 서비스 간 의존성 추적.~/.claude/rules/precomputed-code-intelligence.md 신규 생성. 핵심: (A) code-reviewer의 PR 리뷰 시 impact analysis로 변경 영향 범위를 자동 감지 (B) team-orchestrator specialist 컨텍스트 전달에 360° symbol context 활용 (C) 리팩토링 시 rename 도구로 멀티파일 좌표 리네이밍 안전성 확보"Progressive disclosure: metadata (always loaded) → instructions (on demand) → resources (when needed). Each plugin averages 3.6 components. Strategic model assignment: Opus 4.7 for critical decisions, Sonnet 4.6 for complex work, Haiku 4.5 for operations." — 78개 플러그인, 150개 스킬, 16개 워크플로우 오케스트레이터.
per-turn-tool-adaptation.md가 "턴마다 관련 도구만 선택"을, token-brevity-pattern.md이 "출력 토큰 절감"을 다뤘다면, 이 패턴은 스킬/에이전트 정의 자체를 3계층으로 분리하여 로딩 비용을 구조적으로 최소화. 핵심 차별점: (A) 3-Tier Progressive Disclosure — Tier 1 Metadata(이름·설명·트리거, ~50토큰, 항상 로드) → Tier 2 Instructions(상세 지시, ~500토큰, 트리거 시) → Tier 3 Resources(참조 코드·예제, ~2000토큰, 필요 시). 184개 에이전트 전체 로드 시 370K 토큰이 점진 로딩으로 9.2K 토큰(Tier 1만)으로 시작. (B) Strategic Model Assignment — 작업 특성별 모델 자동 선택(핵심 판단=Opus, 구현=Sonnet, 운영=Haiku). 비용 3-5배 절감. (C) Granular Install — "install only what you need" 원칙으로 필요한 플러그인만 선택 설치.~/.claude/rules/progressive-disclosure-skills.md 신규 생성. 핵심: (A) skills/ 디렉토리의 SKILL.md를 3계층으로 재구조화 검토 — frontmatter(Tier 1) + body(Tier 2) + appendix(Tier 3) (B) team-orchestrator specialist 할당 시 전략적 모델 선택 패턴 적용 (C) agent-delegation-strategy에 progressive disclosure 원칙 통합frontend-patterns.md·ui-ux-reference-nagix.md·completion-verification.md에 구체적 미적 검증 기준 추가 근거. 추가 트렌딩: multica(⭐22.3K, +4,532/wk, "Turn coding agents into real teammates"), GitNexus(⭐32.4K, +4,043/wk, Graph RAG 코드 탐색), claude-context MCP(⭐10.0K, +3,725/wk, 전체 코드베이스 컨텍스트 MCP), free-claude-code(⭐17.1K, +13,415/wk, 무료 Claude Code 터미널 접근)."Skills for Real Engineers. Straight from my .claude directory." — TypeScript 전문가 Matt Pocock이 실제 사용하는 .claude 스킬을 공개. 추상적 가이드가 아닌 실전 검증된 프로덕션 패턴 모음.
agent-skills-format.md(HuggingFace Skills 표준 포맷)가 형식 표준화에 집중했다면, mattpocock/skills는 내용 품질 표준화에 집중. 핵심 차별점: (A) Practitioner Curation — TypeScript 에코시스템의 공신력 있는 전문가(Total TypeScript 저자, 35.2K⭐)가 직접 검증·사용한 스킬만 포함. LLM이 추론한 이론적 스킬이 아닌 실전 패턴. (B) Shell-Based Deterministic Execution — Shell 언어 기반으로 LLM 추론 없이 재현 가능한 HARD 실행. execution-path-crystallization.md의 L3 태스크별 SOP와 정확히 매핑. (C) .claude Directory 호환 — 현재 우리 시스템의 ~/.claude/skills/ 구조와 직접 호환. clone 후 즉시 플러그인 가능. (D) 주간 트렌딩 1위 + 35K⭐ — 커뮤니티 검증 완료. loopy-era 관점: 자동화(2, Shell 기반 재현 가능 실행) · 마찰제거(2, 전문가 큐레이션으로 스킬 탐색 비용 0) · HARD전환(2, Shell exit code 기반) · 토큰효율(2, 검증된 패턴 재사용 = 재탐색 비용 0) · 측정가능(2, 스킬 적용 횟수 카운트 가능).~/.claude/rules/practitioner-curated-skills.md 신규 생성. 핵심: (A) 스킬 추가 시 "검증된 practitioner 소스에서 우선 탐색" 원칙 명시 (B) mattpocock/skills 패턴을 참조하여 Shell 기반 결정론적 스킬 포맷 강화 (C) agent-skills-format.md와 연계: YAML frontmatter + Shell 실행 가능 본문을 표준으로 확정 (D) 스킬 품질 게이트: 추상적 설명만 있는 스킬 vs 실행 가능 코드가 있는 스킬 분리"High-Agency Frontend: gives your AI good taste." — AI가 생성한 프론트엔드 코드가 generic/uninspired하지 않도록 미적 품질을 결정론적으로 강제하는 anti-slop 검증 레이어.
frontend-patterns.md의 "디자인 품질" 항목("UI 구현 시 frontend-design 또는 vs-design-diverge 스킬 활용 — 기본 제공 디자인이 아닌 창의적이고 세련된 UI 생성")이 SOFT 지침이었다면, taste-skill은 미적 품질을 HARD 검증으로 격상. 핵심 차별점: (A) Anti-Slop Gate — AI가 생성한 UI가 "default boring"인지 결정론적으로 감지. CSS 품질, 색상 팔레트 다양성, 타이포그래피 계층 구조, 컴포넌트 창의성 점수화. (B) High-Agency 개념 — AI 에이전트가 단순 코드 출력이 아니라 디자인 결정권을 행사하도록 스킬로 권한 부여. (C) Taste Skill Format — Claude Code 스킬로 즉시 사용 가능한 포맷. (D) nagix/mini-tokyo-3d의 UI/UX 구루 분석(ui-ux-reference-nagix.md)과 web-performance-budget.md의 Lighthouse 점수 게이트와 함께, UI 품질 3-layer 검증 체계 완성 가능. loopy-era 관점: 자동화(2, 자동 품질 검사) · 마찰제거(2, "나쁜 디자인" 재작업 방지) · HARD전환(2, 품질 점수 exit code) · 토큰효율(2, 재작업 비용 선제 차단) · 측정가능(1, 미적 점수 메트릭 정의 필요).~/.claude/rules/frontend-aesthetic-gate.md 신규 생성. 핵심: (A) frontend-specialist 구현 완료 후 UI 품질 게이트 추가 — Tailwind 기본값 그대로 사용 금지, 색상/타이포/그림자 의도적 설정 필수 (B) 기존 frontend-patterns.md의 "디자인 품질" SOFT 지침을 HARD 체크리스트로 승격: 색상 팔레트 커스텀화 여부, 그림자/radius/호버 효과 존재 여부, 폰트 스케일 의도적 설정 여부 (C) web-qa-tester 스크린샷 검증 시 "밋밋한 플랫 UI" 감지 기준 명시 (D) ui-ux-reference-nagix.md·web-performance-budget.md와 연계하여 UI 품질 3-layer 체계 문서화cli-output-compression.md(rtk 프록시)와 context-compression-pipeline.md(파일 내용 압축)가 외부 도구 의존이라면, context-mode는 에이전트 내부에서 도구 수준 sandboxing으로 근본 차단. 기존 컨텍스트 압축 패턴들과 달리 도구 호출 결과 자체를 격리하는 새 접근. (2) Production-Grade Agent Skills Library 축: addyosmani/agent-skills(⭐24.9K, +6,256/wk, Shell)가 AI 코딩 에이전트를 위한 production-grade 엔지니어링 스킬 모음으로 급부상. 핵심 차별점: (A) 검증된 패턴의 표준화 — 코드 리뷰, 성능 최적화, 보안 감사, 테스트 작성 등 반복 에이전트 작업을 재사용 가능한 단위로 패키징. (B) Shell 기반 결정론적 실행 — LLM 추론 없이 HARD 실행 가능한 스킬. (C) 조합 가능성 — 스킬을 파이프라인으로 체이닝. 기존 agent-skill-extraction.md(해결 후 추출)과 달리 사전 검증된 라이브러리를 플러그인 방식으로 제공. 추가 트렌딩: lsdefine/GenericAgent(⭐7.9K, +2,832/wk, Python, 자가진화 에이전트 — seed 코드에서 스스로 성장), maximhq/bifrost(⭐4.4K, Go, 11µs AI 게이트웨이 지속 성장), badlogic/pi-mono(⭐41.7K, +3,131/wk, 6개 패키지 통합 AI 에이전트 툴킷), langfuse/langfuse(⭐26.2K, LLM 옵저버빌리티 지속 성장), anthropics/claude-code(⭐118.5K+, 역대 최고 성장세 유지)."Context window optimization for AI coding agents. Sandboxes tool output, 98% reduction. 14 platforms." — 도구 호출 결과를 에이전트 내부에서 격리·압축하여 컨텍스트 오버플로우를 원천 차단.
~/.claude/rules/tool-output-sandboxing.md 신규 생성. 핵심: (A) web-qa-tester, bug-fixer 등 도구 출력이 많은 에이전트에 context-mode 스타일 sandboxing 원칙 적용 (B) 기존 context-compression-pipeline.md에 "도구 호출 수준 sandboxing"을 4번째 스테이지로 추가 (C) HARD 강제: 도구 출력 토큰 수 > 임계값 시 자동 압축 (exit code로 측정)"Production-grade engineering capabilities designed for AI coding agents." — 반복 에이전트 작업을 재사용 가능한 Shell 기반 스킬로 패키징, 조합 가능한 파이프라인으로 체이닝.
agent-skill-extraction.md(hermes-agent)가 복잡한 작업 해결 후 스킬 추출을 다룬다면, addyosmani/agent-skills는 사전 검증된 스킬 라이브러리를 플러그인 방식으로 제공하는 보완적 접근. 핵심 차별점: (A) Pre-Validated Skills — 코드 리뷰, 보안 감사, 성능 분석, 문서화, 테스트 생성 등을 Addy Osmani(Google Chrome 팀)가 150+ 실제 프로젝트에서 검증한 스킬. (B) Shell-Based Determinism — LLM 추론 없이 HARD 실행 가능, 결과가 예측 가능. (C) Composable Pipeline — `review | audit | optimize` 방식으로 스킬을 체이닝하여 복합 QA 워크플로우 구성. (D) Agent-Agnostic — Claude Code, Cursor, GitHub Copilot Workspace 등 플랫폼 무관 사용. loopy-era 관점: 자동화(2) · 마찰제거(2, 반복 작업 재사용) · HARD전환(1, 스킬마다 결정론성 다름) · 토큰효율(2, 재탐색 불필요) · 측정가능(1, 재사용 횟수 추적 가능).~/.claude/rules/production-grade-agent-skills.md 신규 생성. 핵심: (A) 우리 skills/ 디렉토리를 addyosmani 방식으로 재구성 — 사전 검증된 스킬을 "플러그인 마켓플레이스" 형태로 카탈로그화 (B) specialist 에이전트 위임 시 관련 스킬을 자동 선택·주입 (C) agent-skill-extraction.md(사후 추출)와 연계 — 추출된 스킬이 라이브러리에 자동 편입되어 다음 세션부터 재사용unified-model-gateway(포맷 변환/failover)와 달리 "언제 어떤 모델을 써야 하는가"에 대한 비용 최적화 답. (2) Cross-Agent Memory Persistence 축: zilliztech/memsearch(⭐1.5K)가 Markdown = source of truth, Milvus = derived cache 아키텍처로 크로스 에이전트 메모리 구현. 핵심 차별점: (A) 매 대화 턴을 일별 .md 파일에 자동 캡처 (인간 가독, git 관리 가능), (B) 3계층 점진적 검색 — L1 벡터 청크(빠름) → L2 Markdown 섹션(확장) → L3 원본 전문(정밀), (C) SHA-256 content dedup으로 동일 내용 재인덱싱 방지, (D) Claude Code/OpenClaw/Codex CLI 등 에이전트 전환 시에도 메모리 연속성 유지. 기존 shared-agent-memory(수동 저장)와 portable-memory-layer(단일 파일)를 자동 캡처 + 크로스 에이전트 호환으로 진화. 추가 트렌딩: maximhq/bifrost(⭐4.4K, Go, 11µs 오버헤드의 AI 게이트웨이 — 5K RPS에서 100% 성공률, LiteLLM 대비 50x 빠름), badlogic/pi-mono(⭐41.7K, +3,131/wk, 6개 패키지 통합 AI 에이전트 툴킷 — 코딩 에이전트 CLI + TUI + Slack 봇 + 실세계 세션 HuggingFace 공유), thunderbird/thunderbolt(⭐4.3K, +1,675/wk, 벤더 락인 없는 크로스플랫폼 AI 클라이언트), langfuse/langfuse(⭐26.2K, LLM 옵저버빌리티 + 메트릭 + eval 플랫폼), CherryHQ/cherry-studio(⭐44.6K, 300+ AI 어시스턴트 통합 생산성 스튜디오), KeygraphHQ/shannon(⭐40.6K, 자율 화이트박스 AI 펜테스터), gastownhall/beads(⭐22.3K, +1,144/wk, 코딩 에이전트 메모리 업그레이드 지속 성장), gastownhall/gascity(⭐488, Go, 선언적 city.toml 기반 멀티 에이전트 오케스트레이션 SDK), forrestchang/andrej-karpathy-skills(⭐94.5K, +28,522/wk, 전주 대비 +3.5K 추가 성장), rtk-ai/rtk(⭐37.1K, +6,222/wk, CLI 프록시 토큰 60-90% 절감 Rust 도구), HKUDS/RAG-Anything(⭐19.1K, +2,622/wk, 올인원 RAG 프레임워크), openai/codex(⭐78.3K, OpenAI 코딩 에이전트 지속 성장), anthropics/claude-code(⭐118.5K, Anthropic 코딩 에이전트 역대 최고), anthropics/claude-agent-sdk-python(⭐6.6K, 에이전트 SDK 활발 개발), Wei-Shaw/sub2api(⭐16.2K, +2,269/wk, Go 구독 기반 통합 API 게이트웨이)."Scores each request in under 2ms using a 23-dimension algorithm, then routes to the cheapest model that can handle it. You see why a model was chosen." — 결정론적 복잡도 분류 + 4-tier cascading fallback, 300+ 모델 지원.
unified-model-gateway.md가 프로바이더 간 포맷 변환과 장애 failover를 다룬다면, 이 패턴은 "이 요청에 어떤 모델이 최적인가"를 결정론적으로 판정. 핵심 차별점: (A) 23-Dimension Scoring — 토큰 수, 도구 호출 수, 시스템 프롬프트 복잡도, 대화 턴 수, 컨텍스트 의존성, 추론 깊이 등 23개 축을 <2ms에 평가. LLM 호출 0으로 순수 결정론적. (B) 4-Tier Classification — Simple(요약/포맷팅) → Standard(코딩/리팩토링) → Complex(아키텍처/설계) → Reasoning(증명/수학). 각 티어에 최대 5개 fallback 모델 설정. (C) Transparency — 왜 특정 모델이 선택됐는지 사용자에게 설명 가능. (D) Self-hosted — Docker 로컬 실행으로 중개 비용 제로, ChatGPT Plus/Claude Max 구독 활용 가능.~/.claude/rules/complexity-tier-model-routing.md 신규 생성. 핵심: (A) team-orchestrator specialist 모델 선택에 복잡도 기반 자동 라우팅 도입 — 단순 타입 에러 수정은 Haiku, 아키텍처 설계는 Opus (B) codex 이중 리뷰에서 간단한 리뷰는 저비용 모델, CRITICAL 이슈 탐색만 고비용 모델 (C) 기존 deterministic-orchestrator-scheduling의 모델 선택 부분을 23차원 스코어링으로 구체화"Markdown files are the source of truth. Milvus is a derived, rebuildable cache. Memories created in one agent become searchable in all others." — 자동 캡처 + 3계층 점진적 검색 + SHA-256 dedup.
shared-agent-memory.md(metabot)가 에이전트 완료 시 수동 저장을, portable-memory-layer.md(memvid)가 단일 파일 메모리를 다룬다면, 이 패턴은 자동 캡처 + 크로스 에이전트 호환 + 재구축 가능 캐시를 제공. 핵심 차별점: (A) Markdown-as-Truth — 일별 .md 파일이 원본, 벡터 DB는 파생 캐시. DB 장애 시 markdown에서 재구축 가능. git diff/blame으로 메모리 변경 추적. (B) 3-Layer Progressive Retrieval — L1 벡터 청크(가장 빠름) → L2 전체 섹션(확장) → L3 원본 전문(정밀). 정확도와 속도의 자동 균형. (C) SHA-256 Content Dedup — 파일 모니터링 시 content hash로 변경 감지, 동일 내용 재인덱싱 방지. (D) Cross-Agent Compatibility — Claude Code, OpenClaw, Codex CLI 등 에이전트 전환 시에도 메모리 연속성 유지.~/.claude/rules/cross-agent-memory-persistence.md 신규 생성. 핵심: (A) memory-bank 보강 — 현재 FTS5 검색에 벡터 검색 계층 추가 검토 (B) self-improve에서 과거 실패 패턴을 3계층 검색으로 더 정확하게 참조 (C) specialist 에이전트가 다른 specialist의 해결 패턴을 자동 검색agent-delegation-strategy(위임 결정)와 shared-agent-memory(메모리 공유)를 전체 라이프사이클로 통합. (2) AST-Aware Code Context 축: zilliztech/claude-context(⭐9.6K, +3,537/wk)가 Claude Code용 코드 검색 MCP를 구축. 핵심: AST 기반 지능형 코드 청킹 — 텍스트 분할이 아닌 함수/클래스 단위 분할로 의미 보존, Merkle tree 증분 인덱싱으로 변경 파일만 재인덱싱, BM25+Vector 하이브리드 검색으로 키워드+의미 동시 매칭. 제어 실험에서 동일 검색 품질 대비 40% 토큰 절감 입증. 기존 codebase-search-before-create(검색 의무화)의 "어떻게 검색할 것인가"에 대한 구체적 답. (3) MicroVM Agent Sandbox 축: superradcompany/microsandbox(⭐5.8K, Rust, YC 지원)가 에이전트용 하드웨어 수준 격리 샌드박스를 sub-100ms 부팅으로 구현. 핵심 차별점: Container(커널 공유) 대비 microVM(libkrun 기반 하드웨어 격리)로 탈출 구조적 불가, 비밀키가 호스트에만 존재하여 VM 내부 진입 자체가 불가능, rootless 실행으로 권한 에스컬레이션 제거. Agent Skills + MCP Server + SDK 3계층 통합으로 Claude/Cursor/Copilot에서 직접 사용. 기존 sandboxed-agent-code-execution(pydantic/monty)의 격리 수준을 하드웨어 레벨로 격상. 추가 트렌딩: farion1231/cc-switch(⭐52K, +?, Rust, 크로스플랫폼 Claude Code/Codex/OpenCode 데스크톱 도구), sansan0/TrendRadar(⭐55.4K, +3,153/wk, AI 트렌드 모니터 + 11개 플랫폼 집계 + MCP 통합 분석), vllm-project/semantic-router(⭐3.9K, Go, 시그널 기반 지능형 모델 라우팅 — 토큰 최적화 + 환각 감지 + 멀티모델 조율), forrestchang/andrej-karpathy-skills(⭐91K, +29,944/wk, 지속 급성장), thedotmack/claude-mem(⭐68K, +4,967/wk, 코딩 세션 자동 기록 플러그인), mattpocock/skills(⭐24.3K, +5,013/wk, 실전 .claude 디렉토리 공개), Alishahryar1/free-claude-code(⭐13.9K, +10,335/wk, 무료 Claude Code 터미널), Fincept-Corporation/FinceptTerminal(⭐15.6K, +10,070/wk, 금융 분석 터미널), openai/openai-agents-python(⭐25.3K, +2,387/wk, 경량 멀티에이전트 프레임워크), microsoft/markitdown(⭐117.5K, +4,947/wk, 파일→Markdown 변환 지속 성장), HKUDS/RAG-Anything(⭐18.8K, +2,639/wk, 올인원 RAG 프레임워크), maximhq/bifrost(⭐4.3K, Go, 15µs 오버헤드 AI 게이트웨이)."Turn coding agents into real teammates — assign tasks, track progress, compound skills. Every solved problem becomes a reusable skill for the whole team." — Next.js 16 + Go + PostgreSQL 17 + pgvector, 다중 런타임(Claude Code/Codex/Gemini/OpenClaw) 자동 감지.
agent-delegation-strategy.md가 "누구에게 위임할 것인가"를, shared-agent-memory.md가 "메모리를 어떻게 공유할 것인가"를 다룬다면, 이 패턴은 위임 이후의 전체 라이프사이클을 관리. 핵심 차별점: (A) Skill Compounding — 에이전트가 문제를 해결할 때마다 해결 패턴이 팀 전체 스킬 풀에 자동 축적. 같은 에러 패턴 재발 시 이미 해결한 에이전트의 접근법이 자동 주입됨. (B) 5-Phase Lifecycle — Assign(할당) → Track(추적) → Review(검증) → Compound(축적) → Reuse(재사용). 기존 "단발 위임 → 결과 수신"을 "지속적 팀원 관리"로 격상. (C) Multi-Runtime Abstraction — 다양한 에이전트 CLI를 단일 인터페이스로 추상화, 가용 런타임 자동 감지. (D) Real-time Progress — WebSocket 기반 실시간 진행 추적 + 블로커 자동 보고.~/.claude/rules/agent-as-teammate-lifecycle.md 신규 생성. 핵심: (A) team-orchestrator specialist 관리에 5-Phase 라이프사이클 도입 (B) bug-fixer 해결 패턴을 shared-memory에 자동 축적하여 재발 방지 (C) 프로젝트 간 스킬 이전 — cross-project skill compounding"AST-based intelligent code chunking preserves semantic units. Merkle tree incremental indexing re-indexes only modified files. Hybrid BM25+vector search matches both keywords and meaning — 40% token reduction with equivalent retrieval quality." — Claude Code용 코드 검색 MCP.
codebase-search-before-create.md가 "검색 후 생성" 의무화를, codebase-packing-pattern.md가 "코드베이스 패킹"을 다룬다면, 이 패턴은 "어떻게 검색해야 효율적인가"에 대한 구체적 답. 핵심 차별점: (A) AST 기반 청킹 — 고정 길이/줄 기반 분할 대신 함수·클래스·모듈 단위 분할로 의미 보존. 함수 중간에서 잘리는 불완전 컨텍스트 문제 근본 해결. (B) Merkle Tree 증분 인덱싱 — 파일 해시 트리로 변경 감지, 수정 파일만 재인덱싱하여 대규모 코드베이스에서 90%+ 시간 절약. (C) Hybrid Search — BM25(정확한 심볼명 매칭) + Vector(의미적 유사 코드 검색)를 결합하여 "인증을 처리하는 함수 찾아줘" 같은 자연어 질의도 처리. (D) 40% 토큰 절감 — 제어 실험에서 동일 검색 품질 대비 토큰 소비 40% 감소 입증.~/.claude/rules/ast-aware-code-search.md 신규 생성. 핵심: (A) Explore 에이전트의 코드베이스 탐색에 AST 기반 청킹 패턴 적용 가이드 (B) team-orchestrator specialist 컨텍스트 전달 시 하이브리드 검색으로 관련 코드만 추출 (C) init-project 분석 시 Merkle tree 증분 인덱싱 패턴으로 토큰 절약"Hardware-level isolation with microVM technology — no server to set up, sub-100ms boot, secrets never enter the VM. Container shares kernel (escapable); microVM isolates at hardware level (structurally blocked)." — libkrun 기반 rootless microVM, Agent Skills + MCP + SDK 3계층 통합.
sandboxed-agent-code-execution.md(pydantic/monty)가 "코드로 표현 + 샌드박스 실행"의 원칙을 다룬다면, 이 패턴은 격리 수준과 성능의 구체적 구현을 제공. 핵심 차별점: (A) 하드웨어 수준 격리 — Container는 커널을 공유하므로 namespace 탈출 가능, microVM(libkrun)은 하드웨어 수준에서 격리하여 구조적으로 탈출 불가능. (B) Sub-100ms Boot — Docker 1~5초 대비 100ms 미만 부팅으로 에이전트 워크플로우에서 지연 체감 제로. (C) 비밀키 호스트 전용 — 자격증명이 VM 내부에 진입 자체가 불가능한 아키텍처로, 유출 표면 원천 제거. (D) 3계층 통합 — Agent Skills(Claude/Cursor/Copilot에서 직접 호출) + MCP Server(구조화된 도구 호출) + SDK(Rust/Python/TypeScript 프로그래밍적 접근).~/.claude/rules/microvm-agent-sandbox.md 신규 생성. 핵심: (A) bug-fixer의 위험한 코드 수정을 격리 환경에서 먼저 테스트 (B) autoresearch 실험 루프에서 코드 변경 부작용 격리 (C) 외부 코드/스크립트 실행 시 microVM 격리 우선 사용completion-verification(완료 전 체크리스트)이 "무엇을 확인할 것인가"에 초점이라면, 이 패턴은 "왜 건너뛸 수 없는가"를 강제 — LLM의 가장 위험한 실패 모드인 self-rationalization 차단. 추가: Verification Gate가 evidence requirement(테스트 통과, 빌드 출력, 런타임 데이터)를 강제하여 "'seems right' is never sufficient" 원칙 적용. (2) Controller-Supervisor Reconciliation 축: gastownhall/gascity(Go SDK)가 Kubernetes controller 패턴을 에이전트 조율에 적용. 핵심: desired state와 running state를 지속적으로 reconcile하는 제어 루프 — 오케스트레이터가 "지시 후 대기"가 아니라 "지속적 상태 비교 + 자동 교정". city.toml 선언적 설정, pluggable runtime(tmux/subprocess/K8s), beads-backed work tracking. 기존 state-driven-orchestration(파일 기반 상태 저장)과 deterministic-orchestrator-scheduling(결정론적 스케줄링)을 reconciliation loop로 통합. (3) Evidence-Only Reporting 축: KeygraphHQ/shannon(⭐42.2K, +1,832/wk)이 자율 AI 펜테스터에서 "No Exploit, No Report" 원칙 적용. 5개 병렬 에이전트가 가설 수립 → 조사 → exploit 시도를 병렬 수행하되, 실제 exploit 성공한 것만 최종 리포트에 포함 — 미확인 가설은 noise로 폐기. 우리 QA에서 "~일 수 있습니다" 수준의 보고를 "재현 가능한 증거 있는 보고만 유효"로 전환하는 직접적 모델. 추가 트렌딩: mnfst/manifest(⭐11.2K, +1,246/wk, 23차원 복잡도 스코어링으로 최적 모델 자동 라우팅 — 비용 70% 절감), maximhq/bifrost(⭐5.4K, +399/wk, 15µs 오버헤드의 고성능 AI 게이트웨이 — 15+ 프로바이더 통합), Leonxlnx/taste-skill(⭐18.5K, +3,022/wk, AI에게 "좋은 취향"을 주는 anti-slop 프론트엔드 스킬), anthropics/knowledge-work-plugins(⭐11.5K, 공식 11개 직군별 플러그인 아키텍처 — skills+commands+connectors 3계층), badlogic/pi-mono(⭐40.4K, +3,131/wk, 통합 LLM API + 코딩 에이전트 + 실세계 세션 데이터 수집), Donchitos/Claude-Code-Game-Studios(+3,572/wk, 49개 AI 에이전트 + 72개 워크플로우 스킬로 게임 개발 스튜디오화), Wei-Shaw/sub2api(Go, +1,955/wk, 구독 기반 LLM API 통합 게이트웨이), koala73/worldmonitor(+3,747/wk, AI 뉴스 집계 + 지정학 모니터링 대시보드), obra/superpowers(⭐147K, +9,021/wk, 에이전트 스킬 프레임워크 지속 급성장), forrestchang/andrej-karpathy-skills(⭐90K, +29,917/wk, 단일 CLAUDE.md 역대급 성장)."Rationalizations are the most dangerous failure mode — the agent convinces itself the shortcut is acceptable. Every verification gate must include documented excuses AND rebuttals." — Google 엔지니어링 문화(Hyrum's Law, Beyonce Rule)를 20개 스킬로 결정화.
completion-verification.md가 "완료 전 체크리스트"를 제공한다면, 이 패턴은 각 체크 항목에 "왜 건너뛸 수 없는지"를 선제적으로 명시. 핵심 차별점: (A) Anti-Rationalization Table — "테스트 나중에" → "나중은 안 온다", "빌드 통과=동작" → "빌드=구문, QA=기능", "'seems right'" → "exit code/count/hash만 유효" 등 에이전트가 취할 수 있는 모든 shortcut에 rebuttal 매핑. (B) Evidence Requirements — 각 게이트 통과 조건이 "tests passing, build output, runtime data"처럼 측정 가능한 증거 요구. (C) Cross-Tool Portability — 순수 Markdown이므로 Claude/Cursor/Codex/Gemini CLI 모두 호환. (D) Specialist Personas — code-reviewer, test-engineer, security-auditor 등 역할별 리뷰 관점 사전 정의.~/.claude/rules/anti-rationalization-gates.md 신규 생성. 핵심: (A) qa-cycle 각 L0~L5 검증에 anti-rationalization 테이블 참조 강제 (B) "seems right", "should work", "probably fine" 등 합리화 키워드 감지 → WARNING (C) bug-fixer/code-reviewer가 증거 없이 PASS 선언 시 차단"A controller continuously reconciles desired state to running state — orchestration as reconciliation loop, not one-shot dispatch." — 선언적 city.toml + pluggable runtime(tmux/subprocess/K8s) + beads-backed tracking.
state-driven-orchestration.md(파일 기반 상태 저장)과 deterministic-orchestrator-scheduling.md(결정론적 스케줄링)의 통합 진화. 핵심 차별점: (A) Reconciliation Loop — 한 번 지시 후 기다리는 것이 아니라, desired state(plan)와 running state(실행 결과)를 주기적으로 비교하여 drift 자동 감지 + 교정 액션 발행. (B) Primitive-first Abstraction — 역할 기반이 아닌 primitive(formula, bead, dispatch) 기반으로 조율 로직과 구현을 분리. (C) Pluggable Runtime — 동일 desired state로 tmux/subprocess/K8s 등 다양한 환경에서 실행 가능. (D) Health Monitoring — 에이전트 건강 상태를 주기적으로 수집하여 stuck/crashed 자동 감지.~/.claude/rules/controller-supervisor-reconciliation.md 신규 생성. 핵심: (A) team-orchestrator Phase 3에서 specialist별 desired state vs running state 비교 루프 도입 (B) auto-issue에서 이슈 상태 vs 실제 브랜치/PR 상태 reconcile (C) TaskList 결과를 주기적으로 파싱하여 blocked/stuck 태스크 자동 감지 + 교정"No exploit, no report. Five parallel agents hypothesize and attempt real-world attacks — only successfully exploited findings reach the final report. Unconfirmed hypotheses are noise." — 화이트박스 소스분석 + 라이브 exploit 검증 병행.
qa-screenshot-required.md가 "스크린샷 증거 필수"를, completion-verification.md가 "완료 전 자가 검증"을 다룬다면, 이 패턴은 모든 보고 항목에 재현 가능한 증거를 강제. 핵심 차별점: (A) 5단계 검증 프로세스 — 가설→조사→재현시도→증거수집→보고. 3단계(재현)에서 실패하면 가설 자체를 폐기하고 보고하지 않음. (B) Parallel Vulnerability Agents — 5개 에이전트가 injection/XSS/SSRF/auth/authz를 병렬 검증. 우리 QA의 web-qa-tester + agent-browser + expect-cli 3도구 크로스체크와 동일 철학. (C) Code-Guided Testing — 소스 코드 분석으로 공격 벡터를 식별한 후, 실제 런타임에서 검증. 정적 분석 + 동적 검증 이중 게이트. (D) "~일 수 있습니다" 보고 금지 — 가능성만으로는 리포트에 포함하지 않음. 우리 QA에서 "DOM 존재 확인 → PASS" 같은 불완전 보고 패턴을 구조적으로 차단.~/.claude/rules/evidence-only-reporting.md 신규 생성. 핵심: (A) QA PASS/FAIL 보고에 evidence 필드 필수화 (실행 증거 없으면 보고 금지) (B) 버그 리포트에 재현 명령 + 에러 출력 필수 (C) "~일 수 있습니다" 패턴 보고 시 WARNING (D) 코드 리뷰 지적에 파일:라인 + 구체적 문제 코드 필수agent-delegation-strategy(키워드 매칭 + 규모 판단)와 deterministic-orchestrator-scheduling(결정론적 스케줄링)이 "어떤 에이전트에게 무엇을"에 초점이라면, Multica는 "에이전트가 스스로 무엇을 가져가는가"에 초점 — pull 기반 자율 할당. Claude Code · Codex · OpenClaw · Gemini 등 8개 에이전트 런타임 동시 지원, WebSocket 실시간 스트리밍, 멀티워크스페이스 격리. Gartner 예측: 2026년 말까지 기업 애플리케이션 40%가 task-specific AI agent 탑재(2025년 5% 미만에서). (2) Transparent Compression 축: rtk-ai/rtk(Rust, ⭐35.9K, +6,437/wk)가 6차(20K⭐) 대비 80% 성장하며 CLI 압축의 de facto 표준으로 부상. 핵심 진화: 투명 셸 훅 — 에이전트가 git status를 실행하면 훅이 rtk git status로 자동 리라이트, 에이전트는 압축된 출력을 원본으로 인식. 89% 평균 압축률, 100+ 명령어 지원, <10ms 오버헤드. 기존 cli-output-compression(6차)이 "설치 검토" 수준이었다면, 이제 35.9K⭐의 생태계 검증 + 투명 훅 메커니즘으로 프로덕션 레디. 두 축의 공통 방향: "에이전트가 인지하지 못하는 수준에서 인프라가 최적화" — Multica에서 에이전트는 "큐에서 태스크를 받았다"만 알고 오케스트레이션 복잡성은 모름, rtk에서 에이전트는 "출력을 받았다"만 알고 압축된 줄 모름. 추가 주목: Claude Code 4월 대형 업데이트 — Computer Use in CLI(research preview, 네이티브 앱 제어), Auto Mode(classifier가 안전 액션 자동 허가, 위험 액션 차단 — 우리 user-proxy의 플랫폼 레벨 구현), Monitor tool(백그라운드 프로세스 인터럽트, polling 대체 → 토큰 절감), Hooks → MCP 직접 호출(type: "mcp_tool" 신규 지원). 벤치마크 핵심 인사이트: "Agent scaffolding matters as much as the underlying model — 동일 모델을 3개 프레임워크에서 실행하면 731문제에서 17건 차이" — loopy-era 전체 시스템(scaffold/rules/hooks)의 존재 가치를 실증. SWE-bench Pro에서 Claude Opus 4.7이 64.3%로 GPT-5.5(58.6%) 대비 리드, 단 Terminal-Bench에서는 GPT-5.5가 82.7%로 14.8점 차이 우세. 기타 트렌딩: forrestchang/andrej-karpathy-skills(⭐89.7K, +29.9K/wk, 역대급 성장), farion1231/cc-switch(Rust, ⭐51.8K, +4,465/wk, 멀티 에이전트 CLI 스위처), badlogic/pi-mono(⭐40.4K, +3,131/wk, AI 에이전트 올인원 툴킷), KeygraphHQ/shannon(⭐40.4K, +1,832/wk, 자율 화이트박스 AI 펜테스터), thedotmack/claude-mem(⭐67.8K, +5,341/wk, Claude Code 세션 메모리 플러그인), jamiepine/voicebox(⭐23.5K, +3,018/wk, 오픈소스 AI 보이스 스튜디오), superradcompany/microsandbox(Rust, ⭐5.8K, AI 에이전트용 Firecracker 마이크로샌드박스), google/osv-scanner(Go, ⭐9.8K, +986/wk, 취약점 스캐너), openai/openai-agents-python(⭐25.3K, +3,061/wk, 경량 멀티에이전트 프레임워크)."Turn coding agents into real teammates — assign tasks, track progress, compound skills. Agents claim from queue, report blockers proactively, and every solution becomes a reusable skill." — Claude Code · Codex · OpenClaw 등 8개 런타임 통합.
agent-delegation-strategy가 "orchestrator가 에이전트에게 push"하는 모델이라면, Multica는 "에이전트가 큐에서 pull"하는 모델. 핵심 차별점: (A) Pull-based Task Claim — 에이전트가 자신의 역량(스킬 히스토리)에 맞는 태스크를 큐에서 자율 선택. 기존 키워드 매칭(agent-delegation-strategy.md)보다 정교한 자기 선택. (B) Skill Compounding — 에이전트가 완료한 작업이 재사용 가능한 스킬로 자동 축적되어, 동일 유형 태스크의 다음 실행이 빨라짐. 기존 execution-path-crystallization(GenericAgent, 4차)의 플랫폼 레벨 구현. (C) Agent Profile & Status — 에이전트가 프로필(강점, 약점, 완료율)을 보유하고 보드에 "팀원"으로 표시. 기존 team-orchestrator에서 specialist를 단순 도구로 취급하는 것과 대비. (D) WebSocket Streaming — 에이전트 진행 상황을 실시간 스트리밍. 기존 TaskList 폴링 대비 토큰 절감. (E) Multi-workspace Isolation — 워크스페이스별 에이전트/이슈/설정 격리. 기존 worktree-parallel-agents의 프로젝트 레벨 확장. Gartner: 2026 말까지 기업앱 40%가 AI agent 탑재 예측.~/.claude/rules/agent-as-teammate.md 신규 생성. 핵심 도입: (A) team-orchestrator specialist 위임 시 "에이전트 프로필" 개념 — 각 specialist의 성공률/강점 히스토리를 memory-bank에서 참조하여 할당 최적화 (B) 스킬 컴파운딩 — specialist가 완료한 작업 패턴을 shared-memory에 자동 기록, 동일 유형 재작업 시 참조 (C) pull 기반 할당 가능성 검토 — TaskList에서 unblocked 태스크를 specialist 역량 매칭으로 자동 선택"Shell hook silently rewrites git status → rtk git status. Agent receives compressed output. Claude never sees the rewrite — just gets a smaller, cleaner result." — 단일 Rust 바이너리, 100+ 명령어, <10ms 오버헤드.
cli-output-compression 규칙으로 등재(당시 ⭐20K). 그 후 80% 성장(35.9K)하며 AI 코딩 에이전트 생태계의 de facto 토큰 압축 표준으로 정착. 핵심 진화: (A) Transparent Shell Hook — 6차 당시 "rtk 명령 직접 호출" 방식에서, 이제 셸 훅이 모든 명령을 투명하게 리라이트. 에이전트는 git status를 실행했다고 생각하지만, 실제로는 rtk git status가 실행되어 압축된 결과를 받음 — 에이전트 코드 변경 0. (B) 89% 평균 압축 — 기존 규칙의 "60-90% 절감"보다 구체적 실측: git status 2000→400 토큰(-80%), ls 출력 5000→500 토큰(-90%), 빌드 로그 10000→1100 토큰(-89%). (C) 비용 실측 — 10명 팀 기준 월 $1,750 절감(70%가 noise). Claude Code · Cursor · Gemini CLI · Aider · Codex · Windsurf 등 모든 주요 에이전트 지원. (D) <10ms 오버헤드 — Rust 바이너리라 CLI 응답 시간에 체감 영향 없음. 기존 caveman(출력 토큰 절감)과 합치면 전체 토큰 85%+ 절감 달성 가능.~/.claude/rules/cli-output-compression.md 기존 규칙 업데이트. 핵심: (A) "설치 검토" → "프로덕션 레디" 격상 (35.9K⭐ 생태계 검증) (B) 투명 셸 훅 패턴 상세 추가 — eval "$(rtk hook)" 으로 설치, 에이전트 코드 변경 불필요 (C) 실측 압축률 데이터 추가 (89% 평균, 명령별 상세) (D) caveman(출력) + rtk(입력) 조합 전략 표준화llm.completion() 대신 rlm.completion() 한 줄로 near-infinite context 달성. RLM(GPT-5)은 1,000 문서 규모에서도 perfect performance를 유지하는 유일한 패러다임 — 기존 long-context 모델은 문서 수 증가 시 정확도 급락. 우리 시스템의 context-compression-pipeline(claw-compactor, 입력 압축)과 semantic-memory-compaction(beads, 완료 태스크 요약)이 scaffold 수준에서 컨텍스트 문제를 다룬다면, RLM은 모델 수준에서 근본 해결 — "컨텍스트를 줄이는 게 아니라, 컨텍스트를 변수로 만들어 필요할 때 재귀 탐색". Docker/Modal/E2B 샌드박스 지원으로 sandboxed-agent-code-execution 원칙과도 정합. (2) Gateway Speed 축: maximhq/bifrost(Go, ⭐4.3K, +399/wk)가 LiteLLM 대비 50배 빠른 엔터프라이즈 AI 게이트웨이를 Go로 구현. 1,000+ 모델 로드밸런싱, 자동 폴백, 비용 추적을 단일 바이너리로 제공. 에이전트 워크플로우가 세션당 수백 건의 API 호출을 발행하는 현실에서, 게이트웨이 지연 시간이 전체 파이프라인 병목이 되는 문제를 해결. 기존 unified-model-gateway(QuantumNous/new-api, 16차)가 포맷 통일에 초점이라면, Bifrost는 처리량(throughput)에 초점 — 같은 API 포맷이라도 라우팅 레이턴시가 50ms→1ms면 에이전트 체감 속도가 완전히 달라진다. 두 축의 공통 방향: "더 많은 데이터를 넣는 것(long context)"이 아닌 "데이터를 구조적으로 다루는 것(recursive decomposition)", 그리고 "더 좋은 모델을 쓰는 것"이 아닌 "모델 접근 인프라를 극한까지 최적화하는 것(gateway speed)". 56차 단순화 → 57차 수치 기반 강제 → 58차 검증+격리 → 59차 재귀 분해+속도로, 에이전트 생태계가 "기능 추가"에서 "구조적 한계 제거" 방향으로 성숙. 추가 주목 동향: METR 벤치마크 — AI 에이전트 자율 작업 수행 시간이 4개월마다 2배로 증가(50% 신뢰 구간 ~50분, 1년 전 15분 이하), Darwin Gödel Machine(Sakana AI) — 자기 코드를 수정하는 에이전트가 SWE-bench에서 20%→50% 달성, Claude Code Opus 4.7 + xhigh effort level 공개(기존 high와 max 사이의 새 단계), Karpathy LLM Wiki gist(04-21) — 개인 지식 베이스를 에이전트로 자동 구축하는 패턴 제안. 기타 주목 트렌딩: Alishahryar1/free-claude-code(⭐12K, +8.7K weekly, 터미널/VSCode/Discord 무료 접근), koala73/worldmonitor(⭐52.6K, +3.7K weekly, AI 실시간 글로벌 인텔리전스 대시보드), ruvnet/RuView(Rust, ⭐50.3K, +3.3K weekly, WiFi 기반 인체 포즈 추정), Wei-Shaw/sub2api(Go, ⭐15.5K, +2K weekly, AI 구독 통합 미들웨어), hugohe3/ppt-master(⭐8.2K, +1.9K weekly, AI 네이티브 PPT 생성), CherryHQ/cherry-studio(⭐44.4K, +657/wk, AI 생산성 스튜디오), ysz/recursive-llm(RLM 대안 구현, 변수 기반 무한 컨텍스트), vllm-project/semantic-router(⭐3.9K, Mixture-of-Models 지능형 라우터), gastownhall/gascity(Go, 멀티에이전트 오케스트레이션 빌더 SDK), casdoor/casdoor(⭐13.5K, Agent-first IAM + MCP 게이트웨이)."Task-agnostic inference paradigm: offload context as variables in a REPL, let the model recursively call itself to decompose and solve." — MIT OASYS lab 연구에서 탄생. rlm.completion() 한 줄로 기존 llm.completion() 대체. Docker/Modal/E2B 샌드박스 지원.
context-compression-pipeline(claw-compactor, 15~82% 입력 압축)과 semantic-memory-compaction(beads, 완료 태스크 3줄 요약)이 scaffold 수준에서 토큰을 줄이는 접근이라면, RLM은 모델 수준에서 컨텍스트를 변수화하는 근본적 패러다임 전환. 핵심 차별점: (A) Context-as-Variable — 컨텍스트를 프롬프트에 넣지 않고 REPL 변수로 저장, 모델이 필요할 때 재귀적으로 참조. 선형 토큰 비용 → 로그 스케일 (B) 1,000문서 스케일에서 유일한 perfect performance — 기존 long-context 모델(200K window)도 500문서 이상에서 정확도 급락, RLM만 유지 (C) Sandbox 내장 — 재귀 호출 시 Docker/Modal/E2B에서 격리 실행, sandboxed-agent-code-execution 원칙 자동 준수 (D) Trajectory 시각화 — 재귀 호출 경로를 인터랙티브 뷰어로 탐색 가능, 디버깅·감사 용이. 우리 시스템 적용 시점: team-orchestrator가 대규모 코드베이스 분석 시 context-compression-pipeline으로 입력을 줄이고, 여전히 부족하면 RLM 패턴으로 재귀 분해하는 2단계 전략 가능.~/.claude/rules/recursive-context-decomposition.md 신규 생성. 핵심 도입: (A) 대규모 컨텍스트 처리 시 "압축 → 재귀 분해" 2단계 전략 표준화 (B) context-freshness 규칙에 RLM 패턴 참조 추가 — "세션 분리"보다 "재귀 분해"가 우선 (C) 에이전트 프롬프트 작성 시 "전체 파일 전달" 대신 "참조 경로 + 필요 시 탐색" 패턴 강화"50x faster than LiteLLM. Load-balance 1,000+ models with automatic fallback, cost tracking, and zero-config deployment." — 단일 Go 바이너리. 에이전트 워크플로우의 API 호출 병목을 구조적으로 제거.
unified-model-gateway(QuantumNous/new-api, 16차)가 포맷 크로스 변환(OpenAI↔Claude↔Gemini)에 초점이고, mnfst/manifest(53차)가 비용 기반 지능형 라우팅(23차원 스코어링)에 초점이라면, Bifrost는 처리량(throughput)과 지연 시간(latency)에 초점. 핵심 차별점: (A) 50x Speed — Go의 goroutine 기반 동시성으로 Python 게이트웨이(LiteLLM) 대비 50배 처리 속도. 에이전트가 세션당 200~500 API 호출을 발행하면, 라우팅 지연 50ms→1ms는 전체 세션에서 10~25초 절약 (B) 1,000+ 모델 로드밸런싱 — 프로바이더별 가중치, 자동 폴백, health check 내장. bug-fixer 4회 로테이션의 모델 전환(Claude→GPT→Gemini) 비용 0 (C) Zero-Config — 바이너리 하나로 프록시 시작, 별도 설정 파일 불필요. 기존 new-api의 Docker 복잡성 제거 (D) 비용 자동 추적 — 세션별/모델별 토큰 사용량 + 비용 대시보드, token-efficiency-tracking 규칙의 HARD 측정 도구로 활용 가능.~/.claude/rules/unified-model-gateway.md 기존 규칙에 Bifrost 참조 추가. 핵심 업데이트: (A) 게이트웨이 선택 기준에 "throughput" 축 추가 — 포맷 통일(new-api) + 비용 최적화(manifest) + 처리량(bifrost) 3축 평가 (B) bug-fixer 모델 로테이션 시 게이트웨이 경유 패턴 표준화 (C) 에이전트 세션별 API 호출 수 · 총 지연 시간 메트릭 추적 제안completion-verification의 "깊이 검증" 원칙과 정확히 일치. (2) Skill Compounding 축: multica-ai/multica(⭐21K, +5.1K weekly)가 에이전트를 팀원처럼 관리하되 핵심은 스킬 복리(skill compounding) — "every solution becomes a reusable skill for the whole team." 에이전트가 태스크를 해결할 때마다 그 패턴이 조직 전체의 재사용 자산으로 자동 축적. 기존 shared-agent-memory와 execution-path-crystallization의 플랫폼화. 워크스페이스 격리 + WebSocket 실시간 모니터링 + 이기종 에이전트(Claude Code, Codex, Gemini CLI 등) 통합 런타임. (3) Hardware Containment 축: superradcompany/microsandbox(Rust, ⭐5.8K, +306/wk)가 AI 에이전트 코드 실행을 microVM 하드웨어 격리로 보호. 부팅 <100ms, 데몬 불필요, 핵심은 "Unexploitable secrets — keys never enter the VM". 기존 sandboxed-agent-code-execution(pydantic/monty, 인터프리터 수준)을 하드웨어 수준으로 격상. libkrun 기반 KVM, Apple Silicon macOS 지원. 세 축의 공통 방향: "가설이 아닌 증명"(shannon), "일회성이 아닌 축적"(multica), "소프트웨어가 아닌 하드웨어 경계"(microsandbox)로 에이전트 생태계가 신뢰 가능한 결과 + 물리적 격리를 동시에 달성하는 단계에 진입. 55차 증명+축적 → 56차 단순화+복원력 → 57차 수치 기반 강제 → 58차 검증+격리로 성숙도 곡선이 "더 많은 기능"이 아닌 "더 강한 보증" 방향으로 진화. 추가 연구 동향: Stanford CS329A "Self-Improving AI Agents" 전용 강좌 개설(metacognitive learning, verifiers, RL scaling), ICLR 2026 Recursive Self-Improvement 워크숍(2026-04-26, Rio de Janeiro) — 자가개선을 독립 연구 분야로 인정하는 학계 신호. 기타 주목 트렌딩: forrestchang/andrej-karpathy-skills(⭐88K, +30K weekly, 단일 CLAUDE.md 역대 최고 성장세), NousResearch/hermes-agent(⭐117K, +18K weekly, 자가성장 에이전트), thedotmack/claude-mem(⭐67.4K, +5.3K weekly, 세션 간 메모리), lsdefine/GenericAgent(⭐7.2K, +3K weekly, 스킬 트리 자가 성장), openai/openai-agents-python(⭐25.2K, +3.1K weekly, 경량 멀티에이전트), zilliztech/claude-context(⭐9.4K, +3.3K weekly, 코드검색 MCP), thunderbird/thunderbolt(⭐4.1K, +2.8K weekly, 로컬 AI 어시스턴트), Tracer-Cloud/opensre(⭐3.1K, +1.4K weekly, AI SRE 에이전트), HKUDS/RAG-Anything(⭐18.6K, +2.6K weekly, 올인원 멀티모달 RAG), langfuse/langfuse(⭐+979/wk, LLM 옵저버빌리티), farion1231/cc-switch(⭐51.3K, +4.5K weekly, 5개 AI 코딩 도구 통합), rtk-ai/rtk(⭐35.4K, +6.4K weekly, CLI 토큰 압축 60-90%), jamiepine/voicebox(⭐23.3K, +3K weekly, AI 보이스 스튜디오), sansan0/TrendRadar(⭐55.2K, +3.2K weekly, AI 트렌드 모니터), n8n-io/n8n(⭐185.5K, +1.2K weekly, AI 네이티브 워크플로우 자동화)."Every solution becomes a reusable skill for the whole team." — 에이전트를 팀원처럼 관리. 워크스페이스 격리 + WebSocket 실시간 모니터링 + 이기종 에이전트(Claude Code, Codex, Gemini CLI 등) 통합 런타임. Go + Next.js 16 + PostgreSQL 17(pgvector).
shared-agent-memory(xvirobotics/metabot, 26차)가 에이전트 학습 내용을 파일 기반으로 수동 축적하고, execution-path-crystallization(GenericAgent, 4차)이 성공 경로를 SOP로 변환한다면, multica는 이 둘을 플랫폼 수준에서 자동화. 핵심 차별점: (A) Skill Compounding — 배포, 마이그레이션, 코드 리뷰 등 모든 해결이 자동으로 조직 전체의 재사용 스킬로 등록. 에이전트가 많이 일할수록 조직이 기하급수적으로 강해지는 복리 효과 (B) Proactive Communication — 에이전트가 블로커를 자발적으로 보고 + 상태 업데이트. 기존 auto-block-stuck-tasks(4회 실패 → blocked)의 반대 방향: 에이전트가 먼저 신호 (C) Workspace Isolation — 팀/프로젝트별 에이전트, 이슈, 설정이 완전 격리. worktree 패턴의 조직 수준 확장 (D) "Set and Forget" Autonomy — 프롬프트 복붙, 실행 감시, 수동 상태 확인 제거. 이슈 할당 → 자동 완료 → 결과 보고의 전 과정 무인화.~/.claude/rules/managed-agent-team-platform.md 신규 생성. 핵심 도입: (A) shared-agent-memory에 자동 스킬 등록 + 키워드 검색 추가 (B) 에이전트 완료 시 학습 내용 3줄 요약 자동 저장 패턴 표준화 (C) team-orchestrator specialist별 스킬 축적 메커니즘 강화 (D) Proactive blocker reporting → 텔레그램 에스컬레이션 자발적 발행"No exploit, no report — hypothesized vulnerabilities must be successfully exploited to prove impact." — 5개 전문 에이전트가 OWASP 카테고리별 병렬 공격. 가설적 취약점은 실제 익스플로잇으로 증명해야 보고. Claude Agent SDK 기반, 에피메랄 Docker + Temporal 태스크 큐.
security-patterns의 보안 점검이 코드 패턴 매칭(grep 기반 SOFT 검증)에 의존한다면, shannon은 실제 익스플로잇으로 증명하는 HARD 검증. 핵심: (A) 5-Phase Pipeline — Reconnaissance(인프라 핑거프린팅 + 소스 분석) → Parallel Exploitation(5 에이전트 OWASP별 공격) → Verified Report(PoC 첨부). 가설만으로 보고 금지, 검증된 것만 CRITICAL (B) QA 원칙의 보안 버전 — "빌드 성공 ≠ 기능 정상" = "패턴 매칭 ≠ 취약점 존재". "인터랙션 테스트 필수" = "익스플로잇 실행 필수". "DOM 존재 ≠ PASS" = "코드 패턴 ≠ 취약" (C) Resumable Checkpoint — 스캔 중단 시 git commit으로 체크포인트 → 재개 시 검증 완료 지점부터 시작. pause-on-failure-pattern과 동일 원리 (D) False Positive 구조적 제거 — 증명 없는 가설은 discard하여 실제 취약점이 noise에 묻히는 것을 방지. autoresearch의 keep/discard 판정과 동일 사고.~/.claude/rules/exploit-verified-security-testing.md 신규 생성. 핵심 도입: (A) security-specialist에 "패턴 매칭 → 익스플로잇 시도 → 성공 시에만 보고" 3단계 파이프라인 추가 (B) agent-browser를 이용한 XSS/CSRF 실제 주입 테스트 패턴 (C) PoC 증거 첨부 필수 (D) false positive 율 메트릭 추적"Unexploitable secrets — keys never enter the VM." — libkrun 기반 microVM, 부팅 <100ms, 데몬 불필요, 루트리스. Rust/Python/TypeScript SDK, OCI 이미지 호환. Apple Silicon macOS 지원.
sandboxed-agent-code-execution(pydantic/monty, 50차)이 인터프리터 수준 샌드박스(파일시스템 차단 + 리소스 제한 + 런타임 취소)를 다룬다면, microsandbox는 하드웨어 수준 microVM으로 한 단계 더 강력한 격리. 핵심 차별점: (A) 커널 수준 격리 — 컨테이너가 아닌 microVM이므로 커널 취약점 기반 탈출이 원천 차단 (B) 시크릿 미진입 — API 키, 토큰 등이 VM 내부에 진입하지 않고 외부에서 결과만 전달. 에이전트가 키를 "본 적이 없으므로" 유출 표면 = 0. 기존 no-env-commit.sh(커밋 차단)와 secret-scanning-depth(인코딩 감지)가 유출 후 감지라면, 이것은 유출 자체를 구조적으로 불가능하게 만듦 (C) Daemonless — 장기 실행 데몬 없이 일회성 sandbox 생성/삭제로 공격 표면 최소화 (D) <100ms 부팅 — autoresearch 실험 루프에서 매 iteration마다 fresh sandbox 생성해도 오버헤드 무시 가능.~/.claude/rules/microvm-agent-sandbox.md 신규 생성. 핵심 도입: (A) autoresearch/bug-fixer에서 신뢰할 수 없는 코드 실행 시 microVM 격리 권장 (B) 시크릿 미진입 원칙 — 에이전트 실행 환경에 키를 직접 주입하지 않는 아키텍처 (C) sandboxed-agent-code-execution과 2단계 보안 모델 구성(인터프리터 → microVM) (D) 리소스 사용량 측정 패턴(msb metrics)unified-model-gateway(중앙 프록시)와 달리 로컬 라우팅이 핵심 — 비용 70% 절감. 세 축의 공통 방향: "느낌"이 아니라 "수치"로 에이전트의 행동(rationalization table), 출력 품질(taste 파라미터), 비용(23-dim scoring)을 강제한다. 54차 규율 → 55차 증명+축적 → 56차 단순화+복원력 → 57차 수치 기반 강제 장치로 에이전트 생태계가 정성적 판단을 정량적 게이트로 교체하는 성숙 단계에 진입. 기타 주목 트렌딩: obra/superpowers(⭐167.5K, +9.3K weekly, 에이전트 스킬 프레임워크 — 역대 최고 성장세 지속), forrestchang/andrej-karpathy-skills(⭐87.3K, +29.4K weekly, 단일 CLAUDE.md 지속 성장), thedotmack/claude-mem(⭐67.4K, +6K weekly, 세션 간 메모리 압축·주입), NousResearch/hermes-agent(⭐116.6K, +19K weekly, 자가성장 에이전트), multica-ai/multica(⭐21K, +5.4K weekly, 스킬 컴파운딩 성장 지속), sansan0/TrendRadar(⭐55.2K, +3.3K weekly, AI 트렌드 모니터), farion1231/cc-switch(⭐51.3K, +4.2K weekly, 5개 AI 코딩 도구 통합 데스크탑), HKUDS/nanobot(⭐40.8K, 초경량 개인 AI 에이전트 — 메모리/스킬을 context-on-demand로만 로드), koala73/worldmonitor(⭐52.6K, +3.9K weekly, 글로벌 인텔리전스 대시보드), mattpocock/skills(⭐19.7K, +2.6K weekly, 개인 스킬 디렉토리), Donchitos/Claude-Code-Game-Studios(⭐16.1K, +4.3K weekly, 49개 AI 에이전트 + 72개 게임 개발 워크플로우 스킬), KeygraphHQ/shannon(⭐40.3K, 자율 화이트박스 펜테스터 성장 지속), rtk-ai/rtk(⭐35.4K, +5.9K weekly, CLI 토큰 압축 60-90% 절감), openai/openai-agents-python(⭐25.1K, +3.4K weekly, 경량 멀티에이전트), microsandbox(⭐5.8K, AI 에이전트 로컬 샌드박스), maximhq/bifrost(⭐4.3K, 엔터프라이즈 AI 게이트웨이 — LiteLLM 대비 50배 빠름)."Smart Model Routing for Personal AI Agents — 23-dimension scoring in under 2ms, no third-party proxy needed." — 요청 복잡도를 4-tier(Simple/Standard/Complex/Reasoning)로 자동 분류, 각 tier에 최적 모델 매핑. 300+ 모델, 17+ 프로바이더. 모든 라우팅 메트릭(토큰, 비용, 지연, 모델 선택) 투명 추적.
unified-model-gateway(QuantumNous/new-api, 26차)가 중앙 프록시 서버 방식이라면, manifest는 로컬 라우팅이 핵심 차별점. API 키가 로컬에만 존재하여 제3자 노출 제로. 핵심: (A) 23차원 복잡도 스코어링 — 단순 키워드 매칭이 아닌 다차원 분석으로 <2ms에 tier 분류. 기존 agent-delegation-strategy의 키워드 매칭(SOFT)을 정량 스코어링(HARD)으로 대체 가능 (B) 4-Tier 비용 최적화 — Simple(Haiku 1x), Standard(Sonnet 6x), Complex(Opus 30x), Reasoning(o3 50x) → bug-fixer 로테이션에 tier 자동 선택 적용 (C) 5-fallback 자동 체인 — 모델 실패 시 같은 tier 내 대안으로 즉시 전환, 서비스 연속성 보장 (D) 구독 재사용 — ChatGPT Plus/Claude Pro 기존 구독을 API로 재활용하여 추가 비용 0.~/.claude/rules/local-model-routing.md 신규 생성. 핵심 도입: (A) 요청 복잡도 4-tier 분류 기준 표준화 (B) bug-fixer/specialist에 tier 기반 모델 자동 선택 (C) 라우팅 메트릭 JSONL 로그로 비용 추적 (D) unified-model-gateway와 역할 분리: 게이트웨이=중앙 인프라, 라우팅=로컬 의사결정"Process steps, not prose. Anti-rationalization tables prevent agents from skipping critical gates." — 20개 생산급 스킬을 6단계 라이프사이클(Define→Plan→Build→Verify→Review→Ship)로 구조화. 각 단계에 Red Flags + Rationalization Table + Non-negotiable Evidence. Google SWE 문화(Hyrum's Law, Beyonce Rule) 기반.
completion-verification(완료 선언 전 자가 검증)과 qa-browser-test-required(인터랙션 필수)가 "무엇을 체크할지"를 명시한다면, Anti-Rationalization Tables는 "에이전트가 왜 스킵하려 하는지"의 변명 패턴 자체를 사전 카탈로그화. 핵심: (A) Rationalization = 에이전트의 구조적 약점 — "빌드 성공 → QA 불필요", "이전과 동일 패턴 → 테스트 스킵" 등 AI가 반복하는 합리화 패턴을 수집·반박 (B) Red Flags 시스템 — 각 워크플로우 단계에서 위반 징후 목록 → hook에서 grep 패턴으로 HARD 감지 가능 (C) Non-negotiable Evidence — "PASS" 선언에 필요한 최소 증거를 명시 → qa-evidence-format의 필수 필드와 직접 연계 (D) 5-Axis Code Review — ~100줄 변경 크기 제한 + Chesterton's Fence 원칙(삭제 전 이유 확인). 우리 convergence-loop-no-mid-question의 "위장된 중간 멈춤 패턴"이 이미 rationalization table의 부분 구현.~/.claude/rules/anti-rationalization-tables.md 신규 생성. 핵심 도입: (A) QA/Review/Ship 단계별 rationalization table 작성 (B) Red Flags를 grep 패턴으로 hook 전환 검토 (C) completion-verification + qa-evidence-format과 연계 강화 (D) 에이전트 self-check: "지금 내가 단계를 스킵하려는 변명을 하고 있는가?""Parameterized anti-slop — 3 dials (Design Variance, Motion Intensity, Visual Density) on 1-10 scales prevent generic output." — 프로젝트 타입별 사전 설정 + Anti-Slop 체크리스트. GSAP 모션 가이드, 프레임워크 무관(React/Vue/Svelte), npx skills add로 설치.
frontend-patterns 디자인 품질 섹션("밋밋한 플랫 UI 지양")과 ui-ux-reference-nagix(3D 시각화 레퍼런스)가 참조 기준이라면, taste-skill은 수치 기반 강제. 핵심: (A) 3-Dial 파라미터 — Design Variance(실험성 1-10), Motion Intensity(애니메이션 1-10), Visual Density(정보밀도 1-10). 프로젝트 타입별 프리셋(랜딩 7/6/3, 대시보드 3/2/8, 포트폴리오 9/8/4) (B) Anti-Slop Checklist — 동일 패딩, 기본 팔레트, 동일 카드 크기, 애니메이션 0개, 타이포 위계 없음 → 3개 이상 해당 시 FAIL (C) 프레임워크 무관 — SKILL.md 형식으로 React/Vue/Svelte 동시 적용. 기존 impeccable 스킬의 bolder/quieter 강도 조절을 수치 스케일로 표준화.~/.claude/rules/parameterized-aesthetic-enforcement.md 신규 생성. 핵심 도입: (A) 프론트엔드 구현 시 3-Dial 파라미터 명시 권장 (B) Anti-Slop 체크리스트로 generic 출력 사전 감지 (C) impeccable 스킬과 연계하여 수치 기반 디자인 품질 측정 (D) 프로젝트 타입별 파라미터 프리셋 표준화set -x로 모든 실행 경로 추적 가능, exit code가 네이티브 HARD 게이트. 우리 시스템의 codex-convergence-loop.sh, loopy-era-workflow.sh 등 bash 스크립트 기반 자동화가 이미 이 패턴의 부분 구현이었음을 확인 — 에이전트 하네스에 프레임워크가 필요하다는 가정 자체가 틀렸다. (2) Resilient Complexity 축: aden-hive/hive(⭐10.1K)가 멀티에이전트를 그래프 기반 DAG로 컴파일하고, 실패 시 그래프 구조 자체를 자동 진화. 기존 pause-on-failure-pattern(상태 보존 + 재실행)과 auto-block-stuck-tasks(blocked 전환 + 우회)가 단일 노드 수준 복구라면, hive는 서브그래프 단위로 실패 경로를 대안 경로로 교체 + DAG 재컴파일 + 재배포. 세션 격리(한 에이전트 crash가 전파 안 됨) + 비용 상한(노드별 토큰 예산 초과 시 즉시 중단) + Human-in-the-loop 개입 노드. 100+ LLM 프로바이더 지원, zero-setup 구성. 두 축의 공통 방향: 단순한 원시 요소(bash 스크립트, exit code, jq 파이프라인)가 복원력 있는 시스템(DAG 자동 진화, 체크포인트 복구, 비용 강제)으로 합성된다. 복잡한 프레임워크 없이도, 단순한 빌딩 블록의 올바른 조합이 프로덕션급 에이전트 인프라를 만든다 — 이것이 loopy-era의 bash hook 철학과 정확히 일치. "검증+축적(55차) → 단순화+복원력(56차)"으로 에이전트 생태계가 불필요한 복잡성을 제거하면서 본질적 복원력을 강화하는 방향으로 진화. 기타 주목 트렌딩: obra/superpowers(⭐167.3K, +9.3K weekly, 에이전트 스킬 프레임워크 — 역대 최고 성장세 유지), forrestchang/andrej-karpathy-skills(⭐86.3K, +29.4K weekly, 단일 CLAUDE.md 파일로 LLM 코딩 행동 표준화), thedotmack/claude-mem(⭐67.3K, +6K weekly, 세션 간 메모리 압축·주입), NousResearch/hermes-agent(⭐116.3K, +19K weekly, 자가성장 에이전트), multica-ai/multica(⭐20.9K, +5.4K weekly, 에이전트 팀원화 플랫폼 성장 지속), n8n-io/n8n(⭐185.5K, 400+ 통합 AI 네이티브 워크플로우), HKUDS/RAG-Anything(⭐18.6K, +2.5K weekly, 올인원 멀티모달 RAG), Leonxlnx/taste-skill(⭐12.9K, +3.5K weekly, 3-dial 안티슬롭 프론트엔드 — design variance·motion intensity·visual density 조절), mksglu/context-mode(⭐10K, +2.3K weekly, 컨텍스트 샌드박스 격리 성장 지속), openai/openai-agents-python(⭐25.1K, +3.4K weekly, 경량 멀티에이전트), Tracer-Cloud/opensre(⭐3K, +1.6K weekly, AI SRE 에이전트 오픈소스 툴킷), mattpocock/skills(⭐19.1K, +2.6K weekly, 개인 스킬 디렉토리), microsoft/markitdown(⭐116.8K, +5.6K weekly, 파일→마크다운 변환 유틸리티 성장 지속), jamiepine/voicebox(⭐23.3K, +3.5K weekly, 오픈소스 AI 보이스 스튜디오)."On failure, the system evolves the graph and redeploys automatically." — 자연어 목표 → 결정론적 DAG 자동 생성, 각 노드에 체크포인트. 실패 시 단순 재시도가 아닌 그래프 구조 자체를 진화(에이전트 교체, 의존성 경로 변경, 노드 분할). 세션 격리 + 노드별 비용 상한 + Human-in-the-loop 개입 노드.
pause-on-failure-pattern(실패 상태 보존 + 해당 step 재실행)과 auto-block-stuck-tasks(4회 실패 → blocked 전환 + 다음 태스크 우회)가 단일 노드 수준의 복구라면, hive는 서브그래프 단위의 구조적 진화. 핵심 차별점: (A) DAG 자동 생성 + 컴파일 — LLM이 플래닝하되, 실행 자체는 결정론적 DAG로 코드 실행 → deterministic-orchestrator-scheduling 원칙과 일치 (B) 실패 시 그래프 진화 — 같은 노드를 4번 재시도하는 대신, 대안 에이전트로 교체하거나 의존성 경로를 변경하여 1번에 해결 시도 → bug-fixer 로테이션의 "전략 변경"을 구조적으로 확장 (C) 비용 강제(cost enforcement) — 노드별/세션별 토큰 예산, 초과 시 즉시 중단 → request-complexity-scoring의 예산 게이트와 시너지 (D) 진화 이력 JSONL — 동일 실패 패턴 재발 시 이전 진화에서 선택한 대안을 즉시 재활용.~/.claude/rules/graph-based-crash-recovery.md 신규 생성. 핵심 도입: (A) 멀티에이전트 워크플로우의 DAG 기반 실행 + 체크포인트 패턴 (B) 실패 시 그래프 구조 자동 진화 — 단순 재시도 대신 구조적 변경 (C) 노드별 비용 상한으로 과도한 리소스 소모 차단 (D) 진화 이력으로 동일 패턴 재발 방지"Bash is all you need — a nano claude-code-like agent harness, built from 0 to 1." — curl + jq만으로 완전한 에이전트 루프(LLM 호출 → 도구 파싱 → 실행 → 결과 피드백) 구현. 외부 의존성 0, set -x로 모든 실행 경로 추적, exit code 네이티브 HARD 게이트.
codex-convergence-loop.sh, loopy-era-workflow.sh, trend-harvest-to-html.sh 등이 이미 이 패턴의 부분 구현. 하지만 이를 명시적 원칙으로 정리한 적이 없었음. learn-claude-code가 증명한 핵심: (A) 프레임워크 불필요 가설 — Python/Node 에이전트 프레임워크가 제공하는 모든 기능(도구 정의, 루프, 에러 처리, 상태 관리)을 bash 함수 + jq + exit code로 동등하게 구현 가능 (B) 디버깅 투명성 — set -x로 모든 실행 경로가 추적 가능하여 "에이전트가 왜 이 행동을 했는지" 즉시 파악 (C) hook 자연 통합 — 기존 bash hook 시스템과 동일 런타임이므로 에이전트 로직과 검증 로직이 같은 언어로 공존 (D) 멱등성 + exit code 계약 — 0=성공, 1=실패, 2=HARD차단으로 모든 자동화의 인터페이스 통일. 기존 execution-path-crystallization(성공 경로 → SOP 변환)과 연결: bash로 구현된 에이전트 로직은 그 자체가 이미 SOP.~/.claude/rules/minimal-bash-agent-harness.md 신규 생성. 핵심 도입: (A) 새 자동화 스크립트 작성 시 Bash 우선 검토 원칙 (B) exit code 계약 표준화 (0/1/2) (C) JSON 파이프라인 패턴(jq) (D) 의존성 최소화 원칙 — curl + jq로 충분한 경우 프레임워크 도입 금지qa-browser-test-required의 "인터랙션 테스트 = QA의 핵심"을 보안 도메인에서 극한까지 밀어붙인 구현. (2) Skill Compounding 축: multica-ai/multica(⭐20.8K, +5.4K weekly, 53차 대비 4배 성장)가 에이전트를 프로젝트 보드의 실제 팀원으로 운영하면서 "Every solution becomes a reusable skill for the whole team" 원칙 실현. 에이전트 A가 해결한 패턴이 공유 스킬로 저장 → 에이전트 B가 유사 문제에서 자동 재사용 → 팀 능력이 복리로 증가. 8개 에이전트 런타임(Claude Code, Codex, Hermes, Gemini 등) 통합 대시보드 + WebSocket 실시간 진행 스트리밍 + Go/Next.js/PostgreSQL+pgvector 기술 스택. 기존 shared-agent-memory(조직 지식 축적)와 execution-path-crystallization(성공 경로 SOP 변환)을 팀 수준 자동 축적 + 빈도 기반 신뢰도 상승으로 통합 진화. 두 축의 공통 방향: 증명되지 않은 것은 존재하지 않고(shannon의 proof-by-exploitation), 증명된 것은 자동으로 재사용 가능한 자산이 된다(multica의 skill compounding). "규율 주입(54차) → 증명+축적(55차)"으로 에이전트 생태계가 품질 보증과 지식 축적을 동시에 달성하는 방향으로 수렴. 기타 트렌딩: sansan0/TrendRadar(⭐55.1K, +3.3K weekly, 11개 플랫폼 AI 트렌드 모니터 + MCP 통합 + 자연어 관심사→구조화 태그 자동 추출), farion1231/cc-switch(⭐51K, +4.2K weekly, 5개 AI 코딩 도구 통합 데스크탑 — Tauri 2/Rust 기반, 50+ 프로바이더 프리셋), koala73/worldmonitor(⭐52.5K, +3.9K weekly, 500+ RSS 피드 기반 실시간 글로벌 인텔리전스 대시보드), lsdefine/GenericAgent(⭐7.0K, +3.5K weekly, 3.3K줄 시드에서 스킬 트리 자가 성장 + 6배 토큰 절감), openai/openai-agents-python(⭐25K, +3.4K weekly, 경량 멀티에이전트 프레임워크), anthropics/claude-agent-sdk-python(⭐6.5K, Anthropic 공식 Agent SDK), HKUDS/RAG-Anything(⭐18.6K, +2.5K weekly, 멀티모달 통합 RAG — 텍스트+이미지+테이블+수식 크로스모달 지식그래프), Wei-Shaw/sub2api(⭐15.3K, +1.9K weekly, Go 기반 AI API 게이트웨이 — 스마트 계정 스케줄링 + 토큰 레벨 사용량 추적), hugohe3/ppt-master(⭐7.9K, +2K weekly, AI PPTX 네이티브 생성 — 이미지가 아닌 실제 PowerPoint 도형), NousResearch/hermes-agent(⭐115.8K, +19K weekly, 자가성장 에이전트)."Only vulnerabilities with working proof-of-concept exploits are reported — no theoretical detection." — 5단계 파이프라인의 Exploitation 단계에서 실제 공격 성공한 취약점만 보고. 5개 OWASP 카테고리별 병렬 에이전트가 데이터 플로우 추적(source→sink) → 실제 공격 → 재현 가능 PoC 생성.
qa-browser-test-required("인터랙션 테스트 = QA의 핵심")과 qa-screenshot-required("DOM 존재만으로 PASS 금지")가 인터랙션을 권장하는 SOFT 규칙이라면, shannon의 proof-by-exploitation은 재현 증거 없으면 보고 자체를 거부하는 HARD 원칙. 핵심 차별점: (A) 5단계 파이프라인 매핑 — Pre-Recon(빌드)→Recon(DOM 확인)→Vuln Analysis(시나리오 도출)→Exploitation(실제 클릭/입력/제출)→Report(.qa-cycle-passed) (B) 병렬 카테고리별 에이전트 — 인증/인가, 인젝션, XSS, SSRF 각각 독립 에이전트가 동시 검증 → team-orchestrator Phase 4의 병렬 QA에 적용 가능 (C) "No interaction, no PASS" HARD 변환 — `.qa-evidence.json`에 `interaction_count` 필드 추가, 0이면 exit code 2로 차단.~/.claude/rules/proof-by-exploitation-qa.md 신규 생성. 핵심 도입: (A) QA PASS 판정 기준을 "탐지"에서 "재현"으로 격상 (B) 인터랙션 로그를 append-only JSONL로 기록하여 증거 보존 (C) interaction_count > 0 체크를 HARD 게이트로 전환 가능 (D) 병렬 카테고리별 QA 에이전트 패턴 도입 검토"Every solution becomes a reusable skill for the whole team." — 에이전트를 프로젝트 보드의 팀원으로 운영. 자율 작업 수행 + WebSocket 실시간 진행 스트리밍 + 8개 런타임(Claude Code, Codex, Hermes, Gemini 등) 통합. Go/Next.js/PostgreSQL+pgvector 기술 스택.
execution-path-crystallization(성공 경로 SOP 변환)과 shared-agent-memory(에이전트 간 지식 공유)가 "저장"과 "검색"을 독립적으로 다룬다면, multica의 Skill Compounding은 저장→검색→재사용→빈도 추적→신뢰도 상승의 복리 루프를 완성. 핵심 차별점: (A) usage_count 추적 — 스킬 사용 빈도가 높을수록 우선 추천, semantic dedup로 중복 방지 (B) 프로필 기반 할당 — 에이전트별 보유 스킬 명시 → 작업의 키워드와 매칭하여 최적 에이전트에 우선 배정 (C) 복리 효과 정량화 — 1회차(풀 추론, 토큰 100%) → N회차(스킬 히트, 토큰 10~20%).~/.claude/rules/agent-skill-compounding.md 신규 생성. 핵심 도입: (A) 에이전트 작업 완료 시 해결 패턴 3줄 요약 자동 생성 + shared-memory 저장 (B) usage_count 추적으로 빈도 기반 스킬 우선순위 (C) semantic dedup(Jaccard ≥ 0.5)로 중복 스킬 방지 (D) self-improve 시 shared-memory/ 파일 수와 hit 비율로 복리 효과 측정completion-verification 규칙의 "선언만으로 끝내기 금지"를 에이전트 합리화 패턴별 사전 차단으로 한 층 강화. (2) Incremental Codebase Indexing 축: zilliztech/claude-context(⭐9.0K, +2.9K weekly)가 Merkle tree 기반 증분 인덱싱 + AST 경계 기반 코드 청킹으로 대규모 코드베이스에서 40% 토큰 절감하면서 검색 품질을 유지. BM25(키워드) + Dense Embedding(의미) 하이브리드 검색으로 자연어 질문→정확한 코드 위치 반환. 1000개 파일 중 10개 변경 시 10개만 재인덱싱(100배 절감). 기존 codebase-packing-pattern(전체 패킹)의 비효율을 변경분 증분 + 의미 단위 분할로 해결. (3) Request Complexity Scoring 축: mnfst/manifest(⭐5.6K, +1.2K weekly)의 23차원 복잡도 스코어링(2ms 이내 완료)이 요청을 simple/standard/complex/reasoning 4티어로 자동 분류하여 최적 모델에 라우팅. 53차에서 "포맷 변환 + 비용 게이트" 초점이었다면, 이번 분석에서는 우리 시스템의 bug-fixer 로테이션 + agent-delegation에 직접 적용 가능한 복잡도 티어링으로 재해석. 실패 횟수에 따른 자동 티어 상승 + 5단계 fallback 체인. 세 축의 공통 방향: 에이전트가 스킵하지 않고(anti-rationalization), 효율적으로 컨텍스트를 확보(incremental indexing)하며, 적절한 수준의 리소스를 자동 할당(complexity scoring)받는 구조. "인프라 성숙(53차) → 에이전트 규율 주입(54차)"으로 에이전트의 외부 환경과 내부 행동이 동시에 성숙. 기타 트렌딩: Leonxlnx/taste-skill(⭐12.7K, +3.5K weekly, 3-dial 파라미터 시스템으로 AI 프론트엔드 "밋밋함" 구조 차단), Donchitos/Claude-Code-Game-Studios(⭐16K, 49개 AI 에이전트 + 72 워크플로우 스킬로 게임 개발 스튜디오 구현), obra/superpowers(⭐166.8K, +9.3K weekly, 에이전트 스킬 프레임워크 — 개발 방법론 통합), NousResearch/hermes-agent(⭐115.3K, +19K weekly, 자가성장 에이전트), rtk-ai/rtk(⭐34.7K, +5.9K weekly, CLI 토큰 60-90% 절감 Rust 바이너리), vllm-project/semantic-router(⭐3.8K, Workload-Router-Pool 아키텍처 + LLM 안전성 통합), maximhq/bifrost(⭐4.3K, 15µs 오버헤드 AI 게이트웨이 — Go 기반), simonw/tools(⭐1.6K, LLM 생성 실용 도구 모음)."AI coding agents default to the shortest path — which often means skipping specs, tests, security reviews." — 20개 프로덕션급 스킬이 6개 Phase(Define→Plan→Build→Verify→Review→Ship)를 커버. 각 스킬에 Anti-Rationalization Tables: 에이전트의 전형적 합리화("나중에 테스트할게", "간단해서 리뷰 불필요")를 사전 식별하고 구조화된 반박을 매핑. Verification Evidence로 "했습니다" 선언 불가 — exit code, 테스트 결과, 스크린샷만 허용.
completion-verification(완료 후 자가 검증)과 convergence-loop-no-mid-question(중간 질문 금지)이 "결과 시점의 검증"이라면, agent-skills는 과정 중간의 합리화를 사전 차단. 핵심 차별점: (A) Anti-Rationalization Tables — 에이전트가 "나중에 할게" 패턴을 쓰면 테이블에서 즉시 반박 발견 (B) Process Over Prose — 스킬이 참조 문서가 아닌 실행 가능한 워크플로우로 구성, 각 단계에 checkpoint와 conditional branch 포함 (C) Progressive Token Disclosure — 메인 SKILL.md가 entry point, 상세 체크리스트는 필요 시에만 로드하여 토큰 절약. Google의 Beyonce Rule("if you like it, put a test on it"), Hyrum's Law, Chesterton's Fence 같은 검증된 엔지니어링 원칙을 에이전트용으로 재포장.~/.claude/rules/anti-rationalization-tables.md 신규 생성. 핵심 도입: (A) 워크플로우 단계별 합리화→반박 매핑 테이블 (B) Verification Evidence 타입 명시 — 선언만으로 완료 금지 (C) Progressive Token Disclosure 패턴으로 스킬 로딩 최적화 (D) self-improve가 새 합리화 패턴 발견 시 테이블 자동 확장"Make entire codebase the context — without exhausting token budgets." — Merkle tree로 변경 파일만 재인덱싱(1000개 중 10개 변경 시 10개만 처리). AST 기반 코드 청킹으로 함수/클래스 경계를 보존하며 분할. BM25 + Dense Embedding 하이브리드 검색으로 키워드+의미 동시 매칭. 15+ AI 개발 도구 MCP 통합.
codebase-packing-pattern(repomix 스타일 전체 패킹)이 "전체를 한 번에"라면, claude-context는 "변경분만 증분 + 의미 단위 분할". 기존 context-compression-pipeline의 StructuralCollapse 스테이지(import 병합, 반복 축약)를 AST 경계 기반 청킹으로 대체하면 압축 시 의미적 완결성을 보존. 핵심 차별점: (A) Merkle tree — 파일 시스템 변경을 해시 트리로 추적, 루트 비교만으로 변경 서브트리 식별 → 재인덱싱 비용 1/100 (B) AST 청킹 — 함수 중간에서 자르지 않음, import/타입/구현부를 독립 청크로 (C) 하이브리드 검색 — "인증 처리 함수"(의미) + "handleAuth"(키워드) 동시 매칭. team-orchestrator Phase 3에서 specialist에게 관련 코드만 전달 시 활용 가능.~/.claude/rules/incremental-codebase-indexing.md 신규 생성. 핵심 도입: (A) Merkle tree 증분 인덱싱 — 변경 파일만 재처리 (B) AST 경계 기반 코드 청킹 — naive split 대체 (C) BM25+Dense 하이브리드 검색으로 precision+recall 동시 향상 (D) context-compression-pipeline의 StructuralCollapse 강화"Scores each request in 23 dimensions under 2ms, routes to the cheapest model that can handle it." — simple/standard/complex/reasoning 4단계 티어에 자동 분류. 300+ 모델, 15+ 프로바이더. 5단계 fallback 체인 + 예산 게이트. bug-fixer 실패 시 자동 티어 상승 적용 가능.
agent-delegation-strategy의 키워드 매칭("React" → frontend-specialist)이 요청 내용으로 에이전트를 선택한다면, manifest의 복잡도 스코어링은 요청 복잡도로 모델/리소스 수준을 선택 — 직교하는 두 축을 동시 적용 가능. 핵심 차별점: (A) 파일 수, 기술 스택 수, 의존성 깊이, 이전 실패 횟수 등을 결정론적 함수로 계산(LLM 불필요) → deterministic-orchestrator-scheduling 원칙 완전 준수 (B) 실패 시 자동 티어 상승(Haiku→Sonnet→Opus→codex:rescue)으로 bug-fixer 4회 로테이션을 비용 효율적으로 실행 (C) 예산 게이트로 과도한 Opus 사용 자동 차단.~/.claude/rules/request-complexity-scoring.md 신규 생성. 핵심 도입: (A) 다차원 복잡도 스코어링으로 Simple/Standard/Complex/Reasoning 4티어 자동 분류 (B) 실패 횟수에 따른 자동 티어 상승 (C) agent-delegation-strategy의 키워드 매칭과 직교 적용 (D) 예산 게이트로 비용 상한 자동 강제shared-agent-memory 규칙의 "조직 전체 지식 축적"을 팀원 생명주기로 구현한 청사진. (2) Context Sandbox Isolation 층: mksglu/context-mode(⭐9.8K, +1,797 weekly)가 도구 출력을 subprocess로 격리하여 raw 데이터가 컨텍스트 윈도우에 직접 진입하지 않게 차단. Playwright 스냅샷 56KB→299B(99% 감소), GitHub 이슈 20개 59KB→1.1KB(98% 감소). 원본은 FTS5+BM25 인덱스로 검색 가능하게 보관. Session persistence로 compaction 후에도 작업 상태 자동 복구. 우리 context-compression-pipeline + cli-output-compression의 통합·진화 — "압축"이 아닌 "격리"로 패러다임 전환. 12개 플랫폼(Claude Code, Codex, Cursor, Gemini CLI 등) 동시 지원. (3) Intelligent Model Routing 층: mnfst/manifest(⭐5.6K, +1,221 weekly)가 23차원 복잡도 스코어링을 2ms 내 수행하여 요청을 최적 모델에 자동 라우팅. 간단한 질문→저렴 모델, 복잡한 추론→고급 모델. 300+ 모델, 15+ 프로바이더 지원. 70% 비용 절감 + 5단계 fallback 체인. 기존 unified-model-gateway(포맷 변환)를 비용-성능 자동 최적화로 확장. 세 층의 공통 방향: 에이전트가 팀원으로 상주(multica)하면서, 컨텍스트는 샌드박스로 격리(context-mode)되고, 모델 호출은 지능형 라우팅(manifest)으로 최적화. "거버넌스 강화(52차) → 인프라 성숙(53차)"으로 에이전트 생태계가 계속 깊어지는 추세. 기타 트렌딩: rtk-ai/rtk(⭐34.5K, CLI 토큰 60-90% 절감 — Rust 바이너리, 100+ 명령 지원), superradcompany/microsandbox(⭐5.8K, Firecracker microVM 기반 에이전트 샌드박스 — 100ms 부팅), maximhq/bifrost(⭐4.3K, 50x faster AI gateway — Go 기반 adaptive load balancer), Wei-Shaw/sub2api(⭐15.2K, 멀티 LLM 프로바이더 통합 게이트웨이), NousResearch/hermes-agent(⭐115K, +20.3K weekly, 자가성장 에이전트 프레임워크)."Sandbox tool output so raw data never enters your context window." — 모든 도구 출력을 subprocess에서 실행하고 stdout 요약만 컨텍스트에 주입. 원본은 SQLite FTS5+BM25 인덱스로 영구 검색 가능. 12개 에이전트 플랫폼 동시 지원. Session persistence로 compaction 후에도 작업 상태 자동 복구.
context-compression-pipeline(파일 압축)과 cli-output-compression(CLI 필터링)이 "데이터를 줄이는" 접근이라면, context-mode는 "데이터를 격리하는" 패러다임 전환. Playwright 스냅샷 56KB→299B(99%), GitHub 이슈 59KB→1.1KB(98%). 핵심 차별점: (A) raw 데이터가 아예 컨텍스트에 진입하지 않음 (subprocess 격리) (B) 원본은 FTS5 인덱스로 언제든 검색 가능 (C) 파일 편집·git·태스크·결정을 SQLite에 기록하여 compaction 후에도 세션 상태 복구 — fresh-context-iteration의 "파일 기반 메모리"를 DB로 구조화.~/.claude/rules/context-sandbox-isolation.md 신규 생성. 핵심 도입: (A) 도구 출력 subprocess 격리 원칙 — raw 데이터 컨텍스트 직접 주입 금지 (B) FTS5+BM25 기반 원본 인덱싱으로 "격리했지만 검색 가능" 패턴 (C) Session persistence로 compaction 복구 (D) Intent-driven filtering — 5KB 초과 출력 시 쿼리 매칭 부분만 반환"Simple questions go to fast, cheap models. Hard problems go to expensive ones." — 23차원 스코어링 알고리즘(2ms 이내)으로 요청 복잡도를 simple/standard/complex/reasoning 4단계로 분류. 300+ 모델, 15+ 프로바이더 지원. 5단계 fallback 체인 + 예산 게이트.
unified-model-gateway(포맷 변환 초점)와 cost-tier routing(quantified-ambiguity-gate 내 실패 기반 승격)이 "수동 선택" 또는 "실패 후 대응"이라면, manifest는 사전 복잡도 판정으로 최적 모델 자동 선택. 23차원 스코어링이 2ms 내 완료되므로 LLM 호출 없이 결정론적 라우팅 — deterministic-orchestrator-scheduling 원칙("스케줄링에 LLM 사용 금지")과 완벽 일치. 예산 게이트로 일/주/월 비용 상한 자동 강제.~/.claude/rules/intelligent-model-routing.md 신규 생성. 핵심 도입: (A) 요청 복잡도 사전 스코어링으로 모델 자동 선택 (B) 결정론적 라우팅(LLM 불필요, 2ms 판정) (C) 5단계 fallback 체인 + 예산 게이트 (D) 라우팅 결정 로그로 감사·최적화 피드백 루프"Turn coding agents into real teammates." — 에이전트가 프로젝트 보드에 등장하여 자율적으로 작업 수행·진행 보고·블로커 리포팅. 8개 에이전트 런타임(Claude Code, Codex, Gemini, Hermes 등) 통합. Next.js 16 + Go + PostgreSQL + pgvector. Skill Compounding으로 팀 역량 누적.
team-orchestrator의 specialist는 "호출→반환" 도구 패턴 — 세션 종료 시 컨텍스트 소실. multica는 에이전트에 지속 정체성(이름, 역할, 작업 이력)을 부여하여 워크스페이스에 상주. 핵심 차별점: Skill Compounding — 에이전트 A가 해결한 패턴이 조직 공유 스킬로 저장되어 에이전트 B가 유사 문제에서 자동 재사용. shared-agent-memory 규칙의 "에이전트 간 지식 공유"를 팀원 생명주기 관리로 구현. 에이전트별 실시간 WebSocket 스트리밍으로 진행 상태 관찰 가능.~/.claude/rules/agent-as-teammate.md 신규 생성. 핵심 도입: (A) 에이전트 "도구→팀원" 패러다임 전환 — 지속 정체성 부여 (B) Skill Compounding — 해결 패턴 조직 공유·자동 재사용 (C) 에이전트 자율 블로커 리포팅 + 에스컬레이션 판단 (D) 멀티 런타임 통합 대시보드 패턴completion-verification 원칙("존재 확인"이 아닌 "올바른 동작 증명")과 정확히 일치. (2) Deterministic Workflow Crystallization 축: coleam00/Archon(⭐19.6K, +1,080 weekly)이 AI 코딩을 YAML 워크플로우로 결정화하여 "계획→구현→검증→리뷰→PR"이 매번 동일하게 실행되는 하네스 빌더. 17개 기본 워크플로우 + .archon/workflows/ 커스텀 확장 + CLI/Web/Slack/Telegram/Discord 5개 플랫폼 동시 지원. 결정론적 노드(bash, test)와 AI 노드(planning, codegen)를 혼합 DAG로 구성 — 우리 deterministic-orchestrator-scheduling 규칙의 "LLM은 구현만, 스케줄링은 코드로" 원칙을 YAML 선언형으로 구현한 청사진. (3) Multimodal Knowledge Graph 축: HKUDS/RAG-Anything(⭐18.5K, +2,131 weekly)이 텍스트 전용 RAG를 넘어 이미지·테이블·수식·차트를 포함한 5단계 파이프라인(파싱→이해→분석→지식그래프→검색)으로 확장. 벡터 유사도 + 그래프 탐색 하이브리드 검색 + 모달리티 인식 랭킹으로 텍스트뿐 아니라 시각 자료까지 검색 대상. memory-bank의 텍스트 FTS5 검색을 엔티티 관계 그래프 + 크로스모달 매핑으로 확장하는 방향. 세 축의 공통 방향: 에이전트가 "했다"고 말하는 것을 증명(shannon PoC)하고, 행동 자체를 결정론적 워크플로우(Archon YAML)로 통제하고, 참조하는 지식을 구조화된 그래프(RAG-Anything)로 관리. "자율성 확장(49~51차) → 거버넌스 강화(52차)"로 진자가 다시 균형점으로 회귀. 기타 트렌딩: SimoneAvogadro/android-reverse-engineering-skill(⭐4.8K, 도메인 전문성의 Claude Code 스킬화 패턴 — 5단계 구조화 워크플로우), langfuse/langfuse(⭐26K, LLM 관측성 플랫폼 — 트레이싱+평가+프롬프트 관리), sansan0/TrendRadar(⭐55K, AI 기반 멀티플랫폼 트렌드 모니터링 — 11개 소스+9채널 알림), jamiepine/voicebox(⭐23K, 오픈소스 AI 보이스 스튜디오)."White-box pentester: only vulnerabilities with working proof-of-concept exploits are reported." — 5개 OWASP 카테고리를 병렬 에이전트가 독립 분석 + 실제 exploit 실행. Temporal 워크플로우 + Docker 격리 컨테이너 + Claude Agent SDK 추론 엔진. 96.15% 성공률(100/104) XBOW 벤치마크.
security-specialist와 pentest-checklist 스킬이 "체크리스트 기반 수동 검증"이라면, shannon은 가설→공격→증명 폐루프. 우리 QA의 completion-verification("존재 확인" ≠ "올바른 동작")과 동일 원칙을 보안 영역에 적용. 5개 카테고리 병렬 분석+병렬 공격 아키텍처는 team-orchestrator의 Phase 3 병렬 specialist 패턴과 구조 동일. 에이전트별 진행 상태를 git commit으로 체크포인트하는 방식은 checkpoint-before-mutation 규칙의 실전 구현.~/.claude/rules/proof-based-agent-verification.md 신규 생성. 핵심 도입: (A) "에이전트가 했다고 주장하면 PoC/증거를 함께 제출"하는 검증 원칙 (B) 병렬 카테고리별 독립 분석+검증 패턴을 QA에 적용 (C) Temporal-style 체크포인트로 중단 시 정확한 재개 (D) 96.15% 같은 수치 벤치마크를 에이전트 능력 측정에 도입"Make AI coding deterministic." — 17개 기본 워크플로우(이슈 수정, 기능 구현, 5인 병렬 PR 리뷰, 안전 리팩토링, 머지 충돌 해소)를 YAML DAG로 선언. 결정론적 노드(bash, test)와 AI 노드(planning, codegen)를 혼합 그래프로 구성. CLI/Web/Slack/Telegram/Discord 5개 플랫폼 동시 지원 + git worktree 격리.
deterministic-orchestrator-scheduling 규칙이 "스케줄링을 코드로"라면, Archon은 전체 워크플로우를 YAML로 결정화. 우리 team-orchestrator의 Phase 1~5가 자연어 지시로 실행되는 반면, Archon은 명시적 DAG 노드로 정의 — 동일 워크플로우는 항상 동일 순서로 실행. .archon/workflows/ 디렉토리 패턴은 우리 .claude/skills/ + rules/ 구조와 유사. 핵심 차별점: 5인 병렬 PR 리뷰 워크플로우가 기존 Claude+Codex 이중 리뷰를 5배로 확장.~/.claude/rules/declarative-workflow-crystallization.md 신규 생성. 핵심 도입: (A) 반복 워크플로우를 YAML DAG로 결정화하여 재현성 보장 (B) 결정론적 노드(bash exit code)와 AI 노드(LLM 추론)를 명시적으로 구분 (C) .claude/workflows/ 디렉토리에 프로젝트별 워크플로우 선언 (D) 멀티플랫폼(CLI/Web/Telegram) 동시 접근 패턴"All-in-One RAG Framework." — 텍스트·이미지·테이블·수식·차트를 5단계 파이프라인(파싱→이해→멀티모달 분석→지식그래프 구축→지능형 검색)으로 처리. 벡터 유사도 + 그래프 탐색 하이브리드 검색 + 모달리티 인식 랭킹. 엔티티 추출 + 크로스모달 관계 매핑.
semantic-codebase-search.md(51차 적용)가 코드 전용 BM25+벡터라면, RAG-Anything은 문서 전용 멀티모달 + 지식 그래프. memory-bank의 FTS5 텍스트 검색을 엔티티 관계 그래프로 확장하면 "이 규칙이 어떤 다른 규칙과 충돌하는지"를 그래프 탐색으로 자동 발견 가능. self-improve의 Curator 단계(recursive-self-improvement-loop)에서 규칙 간 관계를 그래프로 시각화하면 dead rule 탐지 정확도 향상.~/.claude/rules/multimodal-knowledge-graph-rag.md 신규 생성. 핵심 도입: (A) 텍스트 외 이미지·테이블을 포함한 문서 처리 파이프라인 패턴 (B) 엔티티 추출 + 관계 매핑으로 지식 그래프 구축 (C) 벡터+그래프 하이브리드 검색으로 단순 키워드 매칭 넘어 관계 기반 탐색 (D) 모달리티 인식 랭킹으로 쿼리에 맞는 콘텐츠 타입 우선 반환farion1231/cc-switch(⭐50.3K, All-in-One 에이전트 데스크탑), maximhq/bifrost(⭐4.2K, 50x 빠른 AI 게이트웨이 — unified-model-gateway 중복), vercel-labs/open-agents(⭐4.1K, 클라우드 에이전트 템플릿), casdoor/casdoor(⭐13.5K, Agent-first IAM + MCP 게이트웨이)."Make entire codebase the context for any coding agent." — BM25(키워드) + Dense Vector(임베딩) 하이브리드 검색으로 자연어 질의에서 관련 코드만 정확히 추출. AST 기반 코드 청킹으로 함수/메서드 단위 의미적 완결성 보장 + Merkle 트리 증분 인덱싱으로 변경 파일만 재인덱싱. 15개+ AI 개발 도구와 MCP stdio 통합.
codebase-packing-pattern.md(repomix)가 정적 전체 패킹이라면, claude-context는 실시간 시맨틱 검색 — 질의 시점에 관련 함수만 추출. codebase-search-before-create 규칙의 Grep/Glob 탐색을 시맨틱 검색으로 강화하면 "유사 구현 있는지 모르고 새 파일 생성"하는 안티패턴을 근본 차단. team-orchestrator Phase 3에서 specialist에게 전달하는 컨텍스트를 40% 절감 가능.~/.claude/rules/semantic-codebase-search.md 신규 생성. 핵심 도입: (A) Hybrid Search(BM25+벡터)로 키워드+의미 동시 매칭 (B) AST 노드 단위 청킹으로 파일이 아닌 함수 단위 검색 (C) Merkle 트리로 대규모 코드베이스 증분 인덱싱 (D) MCP 통합으로 에이전트 네이티브 접근"Hardware-level isolation with microVM technology. Unexploitable secret keys that never enter the VM." — 에이전트가 자신의 microVM을 직접 생성·관리하는 임베더블 샌드박스. <100ms 부팅, 호스트 파일시스템 완전 차단, 비밀키 VM 진입 불가. Rust·Python·TypeScript SDK + MCP Server로 AI 에이전트 네이티브 지원.
pydantic/monty가 Python 인터프리터 샌드박스(프로세스 내 격리)라면, microsandbox는 OS 수준 완전 격리(microVM). 보안 계층이 한 단계 강하다 — 파일시스템·네트워크·프로세스 공간 모두 분리. 에이전트가 자신의 샌드박스를 Sandbox.builder()로 직접 생성하는 SDK 패턴은 sandboxed-agent-code-execution.md의 "코드로 로직 표현" 원칙과 완벽 호환.~/.claude/rules/microvm-agent-sandbox.md 신규 생성. 핵심 도입: (A) 컨테이너 대신 microVM으로 하드웨어 수준 격리 (B) 비밀키가 VM에 진입하지 않는 아키텍처 — 유출 표면 0 (C) <100ms 부팅으로 개발 속도 무저하 (D) bug-fixer/qa-cycle/autoresearch에서 격리 실행"Your next 10 hires won't be human." — 코딩 에이전트를 프로젝트 보드의 정식 팀원으로 관리. 태스크 자율 할당 + 실시간 진행 스트리밍 + 블로커 자동 보고 + Skill Compounding(매 해결 패턴이 조직 전체의 재사용 가능 스킬로 변환). Claude Code·Codex·Gemini 등 이기종 에이전트 단일 팀 관리.
team-orchestrator가 "세션 단위 specialist 위임"이라면, multica는 영구 팀원으로서의 에이전트 — 세션이 끝나도 스킬이 누적. shared-agent-memory.md의 "에이전트 학습을 공유 메모리에 저장"과 동일 방향이지만, multica는 태스크 보드 + 런타임 대시보드 + Skill Compounding을 통합 플랫폼으로 제공. 우리 시스템의 shared-memory/ + decisions.jsonl + orchestration-state/를 하나로 묶는 청사진.~/.claude/rules/managed-agent-teammates.md 신규 생성. 핵심 도입: (A) specialist가 해결한 패턴을 shared-memory/에 자동 저장 → 다른 specialist가 자동 참조 (Skill Compounding) (B) 에이전트 자율 태스크 할당 패턴을 /auto-issue에 적용 (C) 이기종 에이전트(Claude+Codex) 단일 팀 조율 패턴/self-improve가 "무조건 개선"이면 evolver는 "어떤 종류의 개선을 할지"를 선택. (2) Sandboxed Code Execution 축: pydantic/monty(Pydantic 공식)가 Rust 기반 미니멀 Python 인터프리터로 "에이전트가 도구 호출 대신 코드를 짠다" 패러다임 제시 — 마이크로초 시작, 호스트 파일시스템 완전 차단, 리소스 제한 내장. 순차 도구 호출 N회를 코드 1회로 치환 → 비용 1/N. (3) Scored Agent Benchmarks 축: Tracer-Cloud/opensre(⭐2.7K)가 "AI SRE agent"로 incident investigation을 점수 매기기 벤치마크로 정량화 — synthetic RCA suite + scored simulations + E2E tests. harness-report가 scaffold 구조를 측정한다면 opensre는 에이전트 행동 능력을 측정. 세 축의 공통 방향: 48~49차의 "에이전트가 스스로 skill 만들고 진화한다"에 대해 "그 진화가 protocol-bound이고, 실행은 sandboxed이고, 결과는 scored benchmark로 검증된다"는 governance layer 추가. 기타 트렌딩: rtk-ai/rtk(⭐+5.5K, CLI 토큰 압축 Rust — 기존 rule 보유), mksglu/context-mode(⭐+1.8K, 컨텍스트 윈도우 최적화 — 기존 overlap), mnfst/manifest(⭐+1.2K, 23차원 모델 라우팅 — unified-model-gateway와 중복)."Evolver is a prompt generator, not a code patcher." — 에이전트 자가개선을 프로토콜 기반 진화로 구조화. Gene(trigger_signal + validation_rule + repair_action) 단위로 진화 자산 캡슐화 + 4가지 strategy preset으로 진화 모드 선택: balanced(안정/혁신 균형), innovate(새 규칙 적극 추가), harden(SOFT→HARD 승격만), repair-only(실패 수리만). 모든 변경은 events.jsonl에 immutable 기록.
recursive-self-improvement-loop.md가 4단계 폐루프(Competitor→Analyst→Coach→Curator)를 정의한다면, evolver는 각 단계 내부의 변경 단위(Gene)와 전략 모드(preset)를 구체화. 우리 /self-improve는 "무조건 개선 시도"인데, evolver preset 차용 시 harden 모드(기존 SOFT→HARD만 전환, 신규 없음)와 repair-only(실패 패턴 수리만) 구분 가능 — 상황에 맞는 진화 방향 선택.~/.claude/rules/protocol-bound-evolution.md 신규 생성. 핵심 도입: (A) self-improve에 --mode 전략 선택 개념 추가 (B) trend-harvester가 innovate 모드일 때만 새 rule 추가, harden에서는 SOFT→HARD 전환만 (C) 변경마다 EvolutionEvent 로그"Treats investigation as a learnable, trainable domain — comparable to how SWE-bench improved coding agents." — AI SRE agent의 incident investigation 능력을 합성 시나리오 + 점수 매기기로 정량화. Synthetic RCA Suite(scored simulations) + Real-World E2E Tests(K8s · EC2 · CloudWatch · Lambda) + 3축 채점: 정확도(올바른 원인?), 완전성(모든 증거?), 효율성(불필요 탐색 없이?).
harness-report가 scaffold 구조(정적 파일 존재/패턴)를 측정한다면, opensre 패턴은 에이전트 행동 능력(동적 시뮬레이션)을 측정. bug-fixer의 "4회 로테이션 전략"이 효과적인지를 "느낌"이 아닌 수치로 판정 가능. autoresearch keep/discard 판정을 3축 점수 기반으로 강화.~/.claude/rules/scored-agent-benchmarks.md 신규 생성. 핵심 도입: (A) autoresearch/qa-cycle 시나리오를 scored benchmark로 구조화 (B) self-improve 전후 benchmark 점수 비교로 개선 검증 (C) 점수 임계값 미달 시 exit code 2로 HARD 차단"A minimal, secure Python interpreter written in Rust for use by AI." — 에이전트가 순차 도구 호출 대신 코드로 로직 표현 + 샌드박스에서 안전 실행. 마이크로초 시작, 호스트 파일시스템 완전 차단, 리소스 제한(메모리/시간/스택) 내장, 런타임 취소. "Designed for one use case: to run code written by agents."
~/.claude/rules/sandboxed-agent-code-execution.md 신규 생성. 핵심 개념: 도구 호출 vs 코드 표현 트레이드오프 + 3계층 보안 모델 + ulimit/timeout으로 HARD 강제hermes-agent + evolver + forrestchang/karpathy-skills + multica가 "autonomous skill crystallization + protocol-bound evolution"을 industry 표준 제안으로 보여줬다면, 이번 주는 "배포 인프라 공식화 + vertical domain 확산" 두 축. (1) Anthropic 공식 Plugin Marketplace 축: anthropics/claude-plugins-community(read-only mirror, nightly sync)가 내부 review pipeline을 public mirror로 노출 — PR auto-close로 공식 submission 경로 강제, 모든 plugin은 automated security scanning + internal review 통과 후에만 marketplace에 진입. 지금까지 우리 cc-sync가 user-scope 복사 패턴이었다면 Anthropic은 audited · versioned · signed 배포 인프라. (2) Role-Specific Plugin Architecture 축: anthropics/knowledge-work-plugins(⭐11.5K)가 10개 vertical(Sales/Support/PM/Legal/Finance/Data/Enterprise Search/Bio-Research/Productivity/Marketing) × 표준 디렉토리 구조(plugin.json + .mcp.json + commands/ + skills/) — dev-work vs knowledge-work 분리가 공식 architecture. 우리 ~/.claude/skills/가 평평한 100+ 스킬 목록이면 Anthropic은 role taxonomy로 계층화 + MCP connector로 SaaS 통합(HubSpot · Linear · Snowflake · BigQuery · PubMed). (3) Vertical Domain Agent 확산 축: Tracer-Cloud/opensre(⭐2.6K, +1.5K)가 AI SRE agent로 incident investigation/RCA/remediation을 agent 도메인으로 확립 — "runbook-aware reasoning" + "evidence-backed root cause" + 60+ integration(PagerDuty · Slack · Datadog · AWS · GCP) + optional auto-remediation. bug-fixer가 코드 버그 전용이면 opensre는 production incident 전용 자매 에이전트. ci-self-healing-loop.md의 개념을 runtime operations 도메인으로 확장. (4) Cross-Provider Auth Gateway 축: simonw/llm-openai-via-codex가 한 provider(Codex CLI) 인증을 통해 다른 provider(OpenAI API) 모델 접근 — 구독 경제의 경계를 뚫는 bridging 패턴. 우리 unified-model-gateway.md(new-api, format 변환 중심)가 API 표준화면 simonw 버전은 auth 표준화. 네 축 모두 loopy-era 5축의 "자동화 증대"(marketplace install · role template · incident RCA · cross-provider auth)와 "HARD 전환 가능"(security scan exit code · plugin signature · evidence link · auth token validation)에 직결. 공통 패러다임 변화: 지난 몇 달간 agent 생태계가 "개인이 개인 scripts를 user-scope에 쌓는 시대"였다면, 이번 주는 "organization이 signed marketplace + role-specific vertical + cross-provider auth로 infrastructure화하는 시대"로의 변곡점. 우리 시스템은 user-scope 유일 + 평평한 skills/ + 단일 provider 의존 → marketplace + role taxonomy + provider auth gateway 3개 공백이 명시적으로 드러남. 이번 수확이 공백을 지목하는 signal."Open source plugins for knowledge workers in Claude Cowork." 10개 vertical(Sales: prospect research · call prep · HubSpot/Close/Clay/ZoomInfo · Customer Support: ticket triage · Intercom/Guru · Product Management: specs · Linear/Figma/Amplitude · Marketing: content drafting · Canva/Ahrefs · Legal: contract review · Box/Egnyte · Finance: reconciliation · Snowflake/Databricks/BigQuery · Data: SQL · BigQuery/Hex · Enterprise Search: cross-tool unified · Slack/Notion/Jira/Microsoft 365 · Bio-Research: genomics · PubMed/BioRender/ChEMBL · Productivity: daily workflows · Slack/Notion/Asana/Jira). 표준 디렉토리 구조: plugin-name/.claude-plugin/plugin.json(manifest) + .mcp.json(MCP server 선언) + commands/(slash command) + skills/(domain knowledge markdown). dev-work vs knowledge-work 완전 분리.
~/.claude/skills/는 평평한 100+ 스킬 목록(프로젝트별 scaffold, 유틸, 분석기가 한 레벨에 혼재)이면 Anthropic은 10개 role로 명시적 계층화. 각 role이 독립 디렉토리 + 자체 MCP connector + 자체 commands/skills. agent-manifest-pattern.md(apm)의 "primitive 단위 선언"을 role 단위로 확장. (2) Standard Directory Schema: .claude-plugin/plugin.json + .mcp.json + commands/ + skills/가 표준 스키마 — 어느 role이든 동일 구조. 우리 skills/는 SKILL.md만 요구, plugin.json 없음. agent-skills-format.md(HF skills)의 "SKILL.md + YAML frontmatter"를 상위 plugin level로 확장. (3) MCP Connector 중심: 각 role이 enterprise SaaS(HubSpot · Linear · Snowflake · PubMed)와 MCP로 통신 — agent의 tool이 아닌 data source 통합이 핵심. 우리 MCP 사용은 주로 vercel/figma/supabase 등 개발 도구 중심, knowledge-work SaaS는 미흡. (4) Dev vs Knowledge Work 분리: Claude Code(dev) vs Claude Cowork(knowledge) 두 플랫폼 병행 + 각각 다른 plugin 스택. 우리는 모든 skills/가 dev-centric — 기획/영업/법무/재무 같은 knowledge work 영역 공백.~/.claude/skills/가 성장하면서 discoverability 저하 마찰 누적 — 100+ 스킬 중 필요한 걸 찾기 어렵고, 신규 스킬이 기존과 중복인지 판단 어려움. Anthropic 패턴 차용 시: (A) Skill taxonomy 재구성 — ~/.claude/skills/ 아래에 dev-work/(현재 대부분) · project-scaffold/(프로젝트별 scaffold) · meta-ops/(self-improve · loopy-era-trend-harvester) · analysis/(pen-import · harness-scorecard) 등 카테고리 디렉토리 도입 + 각 카테고리에 README.md로 인덱스. (B) plugin.json manifest 도입 — 각 스킬 디렉토리에 .claude-plugin/plugin.json 추가하여 {name, version, depends_on, mcp_servers[], commands[], skills[]} 선언 → cc-sync가 manifest 읽고 선택적 설치. (C) MCP connector catalog — ~/.claude/skills/README.md에 "이 스킬은 어떤 MCP를 요구하는가" 표 추가. 현재 .mcp.json이 프로젝트별로 흩어져있음 → catalog로 통합 조회. (D) dev-work vs knowledge-work 분리 — 사용자가 finance/legal 작업 요청 시 별도 plugin set 로드(예: 정부지원사업 문서, 재무 분석)하여 context pollution 방지. 5축: 자동화 2 · 마찰제거 2(discoverability) · HARD전환 2(manifest schema validation) · 토큰효율 1 · 측정가능 2(plugin usage rate per category) → 9/10~/.claude/rules/role-taxonomy-plugin-structure.md 도입 시 3가지 실효: (1) 카테고리 디렉토리 마이그레이션: ~/.claude/skills/ 100+ 스킬을 dev-work/ · project-scaffold/ · meta-ops/ · analysis/ · knowledge-work/(향후) 5개 카테고리로 분류 + 각 카테고리 README.md 자동 생성. Claude가 "어떤 스킬이 있지?" 탐색 시 카테고리 → 목록 2단계로 간소화. (2) plugin.json 표준 manifest: 각 스킬에 .claude-plugin/plugin.json 추가하여 {name, version, category, depends_on, mcp_servers[], triggers[]} 선언 → scripts/plugin-manifest-validate.sh가 schema 검증 + depends_on 순환 탐지. agent-manifest-pattern.md의 .claude/manifest.yml 패턴과 통합. (3) MCP connector catalog: ~/.claude/catalog/mcp-servers.md에 "vercel · supabase · figma · claude_ai_Figma · ..." MCP 전체 목록 + 각각 사용하는 스킬 backlink. Phase 3.5 autoresearch가 카테고리별 스킬 reuse rate를 측정~/.claude/skills/{dev-work,project-scaffold,meta-ops,analysis}/ 카테고리 마이그레이션 · 각 스킬에 .claude-plugin/plugin.json manifest · scripts/plugin-manifest-validate.sh(schema + depends_on 순환 탐지) · ~/.claude/catalog/mcp-servers.md(MCP connector + 사용 스킬 backlink) · knowledge-work 확장 여지(finance/legal/research)"An open reinforcement learning environment for agentic infrastructure incident response." 5단계 incident workflow: (1) 알림 context fetch(logs · metrics · traces 상관관계) · (2) 연결 시스템 cross-reasoning → 이상 탐지 · (3) 구조화된 investigation report + 근거 첨부 · (4) next step 제안 + 선택적 remediation 실행 · (5) Slack/PagerDuty 요약 posting. Runbook-aware reasoning(기존 playbook 자동 적용) + evidence-backed root cause(결론과 로그/메트릭 source 링크) + full LLM flexibility(Anthropic · OpenAI · Ollama). 60+ integration(PagerDuty · Slack · Datadog · New Relic · AWS · GCP · Kubernetes · Elasticsearch · Prometheus). "open RL environment"로 포지셔닝 — 행동/보상이 명확해 agent training에도 활용 가능.
bug-fixer가 "이 코드가 문제"라고 judgment하지만 왜 그 코드를 의심하는지 stack trace line link는 암묵적. opensre는 evidence를 강제. (2) Runbook-Aware Reasoning: 과거 incident 해결 runbook을 메모리에 로드 → 유사 패턴 감지 시 자동 적용. 우리 execution-path-crystallization.md(GenericAgent)가 "성공 경로를 스킬화"면 opensre runbook은 incident 맥락의 skill. self-improve가 fix 커밋에서 rule 추출이면 opensre는 resolved incident에서 runbook 추출. (3) Structured Investigation Report: 자유 서술 아닌 goal · evidence · hypothesis · test · conclusion 구조 필수 — Claude 응답이 "대충 이럴 것 같다"로 수렴하는 것 방지. 우리 code-review-patterns.md의 severity 분류와 유사하지만 investigation 전용. (4) Optional Auto-Remediation with Human Approval Gate: suggest와 execute 분리 — PagerDuty/Slack 승인 기반으로만 실행. 우리 ci-self-healing-loop.md가 CI 실패 자동 수정이면 opensre는 production incident 자동 수정 — 위험도 훨씬 높아 approval gate 필수.bug-fixer는 코드 버그에 특화이지만 production incident(서버 500 · DB 커넥션 폭주 · Kubernetes pod crashloop)는 별도 도메인 — 현재 코드 repo 컨텍스트만 있고 runtime metrics/logs/traces 없음. opensre 패턴 차용 시: (A) bug-fixer evidence chain 요구 — 현재 "이 코드가 문제"라는 판단에 대해 stack trace line · test output line · grep hit line을 citation으로 요구 → 응답 형식에 <evidence-chain>...</evidence-chain> 블록 강제. 판단 근거 불명확하면 추가 탐색 요청. (B) Runbook pattern 도입 — 해결된 fix 커밋을 ~/.claude/runbooks/{pattern}.md로 결정화 → 유사 에러 재발 시 runbook 우선 조회 → 중복 디버깅 제거. self-improve가 fix에서 rule 추출하는 것과 병행 (runbook은 narrow 해결 가이드, rule은 broad 원칙). (C) Structured investigation response — bug-fixer 응답을 자유 서술에서 {goal, evidence, hypothesis, test, conclusion} 5-field로 전환 → QA가 각 필드를 개별 검증 가능. (D) Incident-aware mode — Claude Code 프로젝트가 production repo인 경우(예: .prod-target 플래그) 자동으로 approval-gated mode 활성화 → 자동 수정 대신 PR 생성 + 텔레그램 승인 요청. 5축: 자동화 2 · 마찰제거 2(디버깅 재반복 제거) · HARD전환 2(evidence schema 검증 + exit code) · 토큰효율 1 · 측정가능 2(incident resolution time · runbook hit rate) → 9/10~/.claude/rules/evidence-backed-investigation.md 도입 시 3가지 실효: (1) Evidence chain schema: bug-fixer 에이전트 프롬프트에 <evidence-chain> 필수 블록 추가 + PostToolUse hook이 응답에서 해당 블록 부재 시 경고. 근거 없는 "이 코드가 문제" judgment 차단. (2) Runbook library 구축: ~/.claude/runbooks/{error-pattern}.md 디렉토리 도입 + self-improve가 fix 커밋 분석 시 error signature와 resolution을 runbook으로 추출. 유사 에러 재발 시 Claude가 runbook 먼저 조회(TYPE: 빠른 재사용 vs self-improve rule: 원칙 승격). (3) Structured response format: bug-fixer 기본 응답 형식을 goal/evidence/hypothesis/test/conclusion 5-field로 전환 → QA hook이 각 필드 존재 검증. loopy-era-eval에 "evidence citation rate" 메트릭 추가 — 응답 중 citation 비율 측정<evidence-chain> 필수 블록 · ~/.claude/runbooks/{error-pattern}.md 디렉토리(fix 커밋 → runbook 추출) · structured response 5-field schema(goal/evidence/hypothesis/test/conclusion) · incident-aware mode 플래그(.prod-target) · loopy-era-eval에 "evidence citation rate" 메트릭"Community plugin marketplace for Claude Cowork and Claude Code (read-only mirror)." Read-only mirror(internal review pipeline에서 nightly sync) — 사용자 직접 commit 불가, PR은 자동 close. 모든 plugin이 automated security scanning + internal review 통과 후 marketplace.json에 등록. 설치 경로: claude plugin marketplace add anthropics/claude-plugins-community → claude plugin install <plugin>@claude-community. Submission은 clau.de/plugin-directory-submission 폼 전용. Official plugins(claude-plugins-official) + Knowledge work plugins(knowledge-work-plugins)와 3-tier 구조.
cc-sync가 user-scope 파일 복사면 Anthropic은 verified state snapshot. (2) Automated Security Scanning: plugin 코드 제출 전 자동 스캔 — 구체 기준은 비공개지만 "hidden Unicode · secret leak · malicious network call" 등 표준 risk check 가능성. 우리 agent-manifest-pattern.md(apm)의 content security gate(apm audit)와 동일 철학 — Anthropic이 managed 버전으로 구현. (3) PR Auto-Close + Form-Only Submission: GitHub workflow에서 모든 PR auto-close + "use clau.de/plugin-directory-submission" 자동 코멘트 → 공식 경로 외 우회 차단. 우리 rule-author-strict-exceptions.md의 "허용 예외는 엄격하게" 원칙을 PR gate에 적용.cc-sync가 user-scope 전체 복사 + git push만 수행 — security audit 없음. 외부 skill/agent를 install할 때 hidden Unicode/secret/malicious code 검증 부재. Anthropic marketplace 패턴 차용 시: (A) cc-sync에 security scan stage 추가 — push 전 scripts/skill-audit.sh가 신규/수정된 skills/agents 파일을 스캔: hidden Unicode/zero-width char · API key pattern(sk-, ghp_, AKIA) · suspicious network call(curl to unknown host) · shell metacharacter in validation_cmd(evolver GEP 철학). (B) Plugin manifest signature — 각 스킬에 .claude-plugin/plugin.json(role-taxonomy card에서 제안)의 content hash를 SHA256로 기록 + cc-sync 시 검증 → 사람이 직접 수정한 경우 vs self-improve 자동 생성 구분 가능. (C) Staleness gate — 외부 repo에서 스킬 가져올 때 "fetched at + source hash" 기록 + 60일 경과 시 재fetch 강제 → stale malicious code 감지. 단 Anthropic internal pipeline 전체 재현은 불가 — local security scan + signature만 실용적. 5축: 자동화 2 · 마찰제거 2(security audit 공백) · HARD전환 2(scan exit code + signature) · 토큰효율 1 · 측정가능 1 → 8/10~/.claude/rules/skill-audit-pipeline.md 도입 시 3가지 실효: (1) Security scan in cc-sync: scripts/skill-audit.sh가 git diff로 변경된 skills/agents/rules 파일만 대상으로 hidden Unicode + API key pattern + shell metacharacter(evolver 철학) 스캔 → 위반 시 exit 2로 push 차단. 기존 no-env-commit.sh와 보완(이건 .env 차단, 새 스크립트는 코드 내 embedded secret). (2) Plugin manifest signing: .claude-plugin/plugin.json에 content_sha256 필드 + cc-sync 시 SKILL.md 내용과 hash 일치 검증 → 외부 attacker가 signed plugin 내용 조작하면 즉시 감지. (3) Staleness tracking: ~/.claude/.external-sources.jsonl에 "외부 repo에서 가져온 스킬 + fetched_at + source_hash" append → 60일 경과 시 WARNING + 재fetch 권장. agent-memory-hygiene.md의 "3개월 미트리거 규칙 삭제"와 유사 철학scripts/skill-audit.sh(hidden Unicode + API key pattern + shell metacharacter 스캔, cc-sync 단계에서 exit 2) · .claude-plugin/plugin.json의 content_sha256 signing · ~/.claude/.external-sources.jsonl(fetched_at + source_hash 추적) · 60일 staleness WARNING · no-env-commit.sh와 보완 관계 명시"Access OpenAI models via an existing Codex subscription." LLM CLI plugin으로 Codex CLI 인증(Codex 구독)을 bridge해 OpenAI 직접 API 키 없이 모델 접근. llm -m openai-codex/gpt-5.5 "..." 형태 사용. 구현은 OpenAI Codex CLI의 authenticated session을 intercept → request를 OpenAI endpoint로 proxy. 저자의 원문: "Apparently this is OK!" (OpenAI 대표 승인 인용). Python plugin · Apache 2.0 · 구독 경제의 일반적 경계를 뚫는 bridging pattern의 실증.
unified-model-gateway.md(new-api)가 request format 변환 중심(OpenAI ↔ Claude ↔ Gemini)이면 simonw 버전은 authentication bridging — 사용자가 어느 provider에 가입했든 다른 provider 모델도 접근. "어느 모델을 살지"와 "어느 구독을 사는지" 분리. (2) CLI Tool Reuse as Auth Mechanism: 직접 OAuth 플로우 구현 대신 기존 CLI tool(Codex)이 이미 관리하는 인증 세션을 재사용 → 구현 복잡도 최소. 우리 cli-automation-first.md의 "CLI 먼저 탐색" 원칙과 같은 DNA — auth도 CLI로 해결. (3) Plugin-Based Distribution: LLM CLI 플러그인 생태계에 업로드 → llm plugin install llm-openai-via-codex 1줄 — apt/pip 같은 표준 배포 채널 활용. 우리 agent-manifest-pattern.md의 "primitive 단위 선언/설치"와 동일.gh CLI의 인증을 ~/.claude/skills/가 재사용하여 GitHub API 호출 시 직접 토큰 관리 불필요. (C) Multi-subscription 탐색 — 사용자가 Codex/Claude/Gemini 구독 3개를 동시 보유한 경우 어느 구독으로 현재 request를 처리할지 결정하는 router 필요 → unified-model-gateway.md의 future work으로 기록. 현재 단계: 참조만, 구체 integration은 multi-subscription 시나리오 발생 시 재검토. 5축: 자동화 1 · 마찰제거 1(provider lock-in 회피) · HARD전환 1(CLI exit code) · 토큰효율 1 · 측정가능 2(provider별 usage split) → 7/10 (참조급, ToS 위험 주의)execution-path-crystallization(GenericAgent)로 성공 경로를 스킬화하고, recursive-self-improvement-loop(autocontext)로 Competitor→Analyst→Coach→Curator 4단계 폐루프를 설계하고, self-improve 스킬로 fix 커밋에서 scaffold rule을 자동 추출해왔다. 그러나 이 모든 것이 "개발자가 정의한 evolution rule" 기반이었다면, 이번 주 4개 repo는 "에이전트가 스스로 skill을 생성·감사·배포"하는 방향으로 한 층 더 올라감. (1) Autonomous Skill Generation 축: NousResearch/hermes-agent(⭐112.5K, 주간 +22.1K, 모든 trending의 1위)가 "autonomous skill creation after complex tasks" + "agent-curated memory with periodic nudges"로 복잡한 작업 완료 후 에이전트가 스스로 procedural knowledge를 skill로 박음 + agentskills.io 표준 호환. 우리 execution-path-crystallization이 성공 경로를 "사람이 검토해서" 스킬화라면 hermes는 완전 자동. (2) Protocol-Bound Evolution 축: EvoMap/evolver(⭐6.6K, +4.4K)가 GEP(Genome Evolution Protocol) 표준으로 진화를 deterministic primitive로 격상 — genes.json(진화 단위) + capsules.json(복합 단위) + events.jsonl(불변 audit trail) + Mutation/PersonalityState(deterministic stagnation 방지) + strategy preset(balanced 50/30/20 · innovate · harden · repair-only). 우리 /self-improve는 ad-hoc ML/bash 믹스라 audit 불가 — evolver는 모든 진화가 JSONL에 immutable 기록. (3) Bottom-Up CLAUDE.md Distribution 축: forrestchang/andrej-karpathy-skills(⭐79.4K, 주간 +35.3K, 전체 trending 1위)가 Karpathy의 4원칙(Think Before Coding · Simplicity First · Surgical Changes · Goal-Driven Execution)을 단일 CLAUDE.md + Cursor 규칙 파일로 마켓플레이스 배포. 기존 우리 karpathy-coding-principles.md가 18줄 요약이면 forrestchang 버전은 예시·판단 기준·조건부 rigor까지 구체화. (4) Managed Agent Teams 축: multica-ai/multica(⭐20K, +6K)가 "Turn coding agents into real teammates — assign tasks, track progress, compound skills"로 agent를 팀원처럼 이슈 할당 + 모든 해결책을 workspace 수준 reusable skill로 축적 + local daemon이 Claude Code · Codex · Gemini · Cursor Agent CLI 자동 감지 · Next.js+Go+PostgreSQL+pgvector 스택. 우리 /team 오케스트레이터가 단일 세션에서 specialist를 조율한다면 multica는 세션을 넘어 지속되는 팀 구조로 격상. 네 축 모두 loopy-era 5축의 "자동화 증대"(수동 skill 작성 → 자동 생성)와 "측정 가능"(audit trail · skill reuse rate · agent assignment stats)에 직결. 공통 패러다임 변화: 지금까지 agent framework는 "사람이 skill을 짜면 에이전트가 쓴다"였지만, 이번 주 트렌드는 "에이전트가 작업하며 skill을 만들고, 그 skill이 감사 트레일에 박히고, 다음 에이전트가 재사용"하는 generational skill evolution. 우리 시스템은 memory-bank + self-improve로 유사 방향이지만 "skill을 에이전트가 직접 커밋"하는 autonomy 계층이 부재 — 이번 주 수확이 공백을 채우는 standardization signal."The agent that grows with you" — closed learning loop with autonomous skill creation after complex tasks + agent-curated memory with periodic nudges. 6 terminal backends(local/Docker/SSH/Daytona/Singularity/Modal) × 6 messaging platforms(Telegram/Discord/Slack/WhatsApp/Signal/CLI) — agent core와 messaging layer 완전 분리. Honcho dialectic user modeling(cross-session 관계 모델) + FTS5 session search + LLM summarization(cross-session recall) + SOUL.md 페르소나 시스템. Skills는 agentskills.io 표준 호환 + self-improving during use. Isolated subagents(parallel workstreams) + cron scheduler(natural-language task def) + MCP 통합.
/skills 디렉토리에 agentskills.io 스키마로 저장. 우리 execution-path-crystallization.md(GenericAgent)가 "성공 경로를 스킬화"라는 원칙이면 hermes는 그걸 에이전트가 사람 개입 없이 실행. self-improve 스킬이 fix 커밋에서 rule 추출이면, hermes는 모든 성공 작업에서 skill 추출. (2) Agent-Curated Memory Nudges: 에이전트가 "이 정보는 나중에 유용할 것 같은데 저장할래?" 자동 제안 → 사용자 승인 → memory 영구 기록. 우리 memory-bank가 "명시적 remember:" 의존이면 hermes는 에이전트가 능동적 nudge. shared-agent-memory.md(metabot)가 "완료 시 자동 저장"이면 hermes는 한 단계 더: "저장 가치 판단 + 제안". (3) Decoupled Messaging Layer: agent core와 6개 platform 완전 분리 → 한 인스턴스가 Telegram + Discord + CLI 동시 서비스. 우리 rc 스킬(Telegram Reply 브릿지)이 단방향 bridging이면 hermes는 multi-channel unified context. (4) SOUL.md Persona: 에이전트 정체성을 SOUL.md 파일로 선언 → Honcho dialectic 모델링으로 사용자별 관계 미세조정. CLAUDE.md가 "지시사항"이면 SOUL.md는 "정체성 + 관계". (5) Multi-Backend Terminal: local/Docker/SSH/Daytona/Singularity/Modal 6개 실행 backend 자동 선택 → 리소스 요구에 맞게 분산. 우리 Task tool의 isolation: worktree가 단일 옵션이면 hermes는 6개 execution tier.skill-nudge.sh 추가하여 "방금 해결한 패턴을 ~/.claude/skills/에 등록할래?" 자동 질문 + Yes 시 에이전트가 skill 초안 생성 + 텔레그램으로 사용자 승인 → 채택 시 커밋. 현재 execution-path-crystallization이 원칙만 제시했지 자동 트리거 없음. (B) Memory nudge prompt — UserPromptSubmit/Stop에서 "세션 주요 발견을 memory-bank에 저장할래?" 에이전트가 능동 제안. 현재 memory-bank는 "사용자가 remember:" 입력해야만 동작. (C) SOUL.md 도입 — ~/.claude/SOUL.md에 Hugh 페르소나(존댓말 · 직설적 · 진전 중심) 선언 → CLAUDE.md의 지시사항과 분리 · agent-specific persona 파일로 진화. (D) agentskills.io 호환 — 우리 skills/ 스키마를 agentskills.io 표준으로 마이그레이션 가능성 검토 → cross-framework 공유 가능. 단 전체 adoption은 Honcho + Postgres + 6 backend 인프라 부담 — skill-nudge hook + SOUL.md 2개 primitive만. 5축: 자동화 2(수동 skill 작성 제거) · 마찰제거 2(발견 즉시 공식화) · HARD전환 2(skill JSON schema + exit code) · 토큰효율 2(반복 발견 재작업 제거) · 측정가능 2(skill create rate · reuse count) → 10/10~/.claude/rules/autonomous-skill-crystallization.md 도입 시 3가지 실효: (1) Skill-nudge hook: ~/.claude/hooks/skill-nudge.sh를 Stop에 등록 → 세션에서 2+ tool call로 해결한 패턴 감지 시 텔레그램으로 "이 패턴 skill로 박을래요? (yes/no)" 질문 + yes 시 에이전트가 ~/.claude/skills/{slug}/SKILL.md 초안 자동 생성. execution-path-crystallization 원칙의 trigger layer. (2) Memory-nudge in Stop: 현재 Stop hook이 session-state.json만 기록 → 확장하여 "핵심 발견 3줄 요약 + memory-bank 등록 제안" 추가 → 사용자 수동 remember: 입력 의존 제거. (3) SOUL.md 분리: 현재 CLAUDE.md가 instructions + persona 혼재 → SOUL.md로 persona 추출(존댓말 규칙 · 불만 표현 톤 · 일 기준)하여 instructions와 독립적 진화. Phase 3.5 autoresearch가 skill 재사용률을 measure~/.claude/hooks/skill-nudge.sh(Stop hook, 텔레그램 yes/no 프롬프트) · ~/.claude/SOUL.md(persona 분리) · memory-nudge in Stop hook · agentskills.io 호환 스키마 검토 · harness-report에 "skill create rate + reuse count" 메트릭"GEP-powered self-evolving engine for AI agents" — auditable prompt generator, not code patcher. 런타임 로그 스캔 + evolution asset 선택 + protocol-bound prompt 발행. GEP(Genome Evolution Protocol): assets/gep/genes.json(진화 단위, signals + validation commands + repair strategies) + capsules.json(복합 단위) + events.jsonl(immutable EvolutionEvent trail) + Mutation/PersonalityState(deterministic stagnation 방지). 4 strategy preset: balanced(50 innovate/30 optimize/20 repair) · innovate · harden · repair-only. Safety gates: validation 명령은 node/npm/npx 접두사만 · backticks/pipes/command-substitution 거부 · 180초 timeout. Offline-first + optional EvoMap Hub(evomap.ai).
genes.json의 각 entry는 {id, signal_pattern, validation_cmd, repair_strategy} 필수. 우리 /self-improve가 LLM 자유형 규칙 제안이면 evolver는 파싱 가능한 deterministic schema. agent-manifest-pattern.md(apm)의 declarative primitive를 evolution에 적용. (2) Immutable EvolutionEvents: 모든 진화 시도가 events.jsonl에 append-only 기록 → 6개월 후 "이 규칙이 언제·왜 추가됐는지" 역추적 가능. 우리 agent-memory-hygiene.md가 "규칙 생명주기 추적"이면 evolver는 JSONL audit trail로 구현. recursive-self-improvement-loop.md(autocontext)의 Curator 단계가 rule 유지/폐기를 판단한다면 evolver는 판단 근거를 events에서 조회. (3) Mutation + PersonalityState: 매 evolution run이 mutation 객체와 evolvable personality를 거쳐야 적용 → 동일 rule 반복 추가 방지(deterministic stagnation 방지). 우리 self-improve가 "fix 커밋 → 규칙 추가" 단방향이면 evolver는 중복 감지 gate. (4) Safety-Gated Validation: validation 명령이 node/npm/npx 접두사만 허용 + shell metacharacter 차단 → LLM이 생성한 validation script가 악성 코드 되는 것 원천 봉쇄. 우리 hook 시스템의 no-env-commit.sh · scaffold-violation-check.sh와 철학 일치 — 다만 evolver는 LLM 출력을 실행하기 전 구조적 검증./self-improve의 근본 한계: 규칙 추가가 "LLM 판단 + 수동 검토"이고 왜 이 규칙이 추가됐는지 audit trail 부재. 6개월 후 "이 규칙 아직 유효한가?" 확인하려면 git blame + memory-bank 수동 검색 필요. evolver 패턴 차용 시: (A) ~/.claude/rules/.evolution-events.jsonl 도입 — 매 rule 추가/수정/삭제 시 JSONL append: {ts, actor, rule_id, reason, source_session, harness_delta, approved_by}. 기존 agent-memory-hygiene.md의 "last_triggered 추적"과 보완. (B) genes.json 스키마 실험 — ~/.claude/rules/*.md를 gene primitive로 재구성 가능성 검토: 현재 각 rule은 자유형 Markdown, 파싱 가능한 frontmatter로 구조화하면 machine-readable audit 가능. (C) Mutation gate — self-improve가 중복 규칙 제안 시 .evolution-events.jsonl에서 "최근 30일 내 동일 signal_pattern으로 rule 추가됐나?" 체크 + 있으면 skip. (D) Safety-gated validation — 현재 self-improve가 제안하는 scripts/를 실행 전 "shell metacharacter 검증" hook 추가. 단 GEP 전체 schema adoption은 bottom-up 마이그레이션 비용 큼 — evolution-events.jsonl + mutation gate 2개만. 5축: 자동화 2 · 마찰제거 2(중복 규칙 폭주 방지) · HARD전환 2(JSONL audit + schema validation) · 토큰효율 1 · 측정가능 2(evolution event count + rule lifetime) → 9/10~/.claude/rules/auditable-rule-evolution.md 도입 시 3가지 실효: (1) Evolution events ledger: ~/.claude/rules/.evolution-events.jsonl에 모든 rule 변경 append-only → scripts/rule-audit.sh {rule}로 특정 rule의 생성·수정·트리거 history 조회. agent-memory-hygiene.md와 병행. (2) Mutation dedup gate: self-improve 실행 시 제안 rule의 signal_pattern을 최근 30일 events와 비교 → 유사도 0.7 이상이면 skip + 이유 기록. 현재 "context-freshness + context-compression + fresh-context-iteration" 같은 3겹 중복의 구조적 방지. (3) Safety-gated validation cmd: self-improve가 제안하는 hook/script 내용을 shell parsing → backtick/pipe/$(...) 감지 시 "사용자 확인 필요" 플래그 + 감사 로그에 기록. loopy-era-eval 리포트에 "evolution events this cycle" 섹션 추가~/.claude/rules/.evolution-events.jsonl(immutable append-only) · scripts/rule-audit.sh {rule_id}(lifetime 조회) · self-improve에 mutation dedup gate(30d window, signal similarity 0.7) · validation cmd shell-parse 검증 · loopy-era-eval 리포트에 evolution events 섹션단일 CLAUDE.md 파일로 Karpathy의 LLM 코딩 실패 관찰을 4원칙으로 체계화 + Claude Code/Cursor 동시 지원. (1) Think Before Coding: 가정을 명시 · 다중 해석 제시 · "run along" 금지. (2) Simplicity First: overengineering 방지 · 요청 없는 기능/추상화 금지. (3) Surgical Changes: 요청된 변경만 · 기존 style 보존 · drive-by refactor 금지. (4) Goal-Driven Execution: verifiable success criteria로 변환 + test-first iteration. 판단 기준: 사소한 작업(typo · one-liner)은 rigor 완화 · pre/post test verification · orphaned code vs pre-existing dead code 구분. 7.5K forks · skills/karpathy-guidelines/ + .claude-plugin/ + .cursor/rules/ 멀티플랫폼.
completion-verification.md가 "완료 후 검증"이면 karpathy는 시작 전 의도 검증. (2) Simplicity Decision Gate: "Would a senior engineer call this overcomplicated?"를 implementation 전 자가 질문로 강제 → 우리 token-brevity-pattern.md가 출력 간결화라면 karpathy는 설계 단순화. (3) Orphaned vs Pre-existing Dead Code 구분: 내 변경이 만든 orphan은 삭제 OK, 기존 dead code는 "mention only, don't delete" — 우리 completion-verification.md의 "관련 없는 파일 수정 금지"를 세분화. (4) Conditional Rigor: 모든 작업에 full rigor 적용하면 overhead 폭주 → typo/one-liner는 완화, 기능 추가/리팩토링은 엄격. 우리 scaffold rules가 동일한 수준으로 적용되는 약점 보완.karpathy-coding-principles.md가 18줄 요약으로 존재하지만 실제 Claude 행동 가이드로 불충분 — 4원칙 이름만 있고 구체 판단 기준 부재. forrestchang 버전 차용 시: (A) 기존 rule 재작성 — 18줄 → 80줄 이상으로 확장, 각 원칙마다 "이 행동은 OK" vs "이 행동은 NO" 예시 3개씩 추가. (B) Multi-interpretation prompt — 사용자 요청이 모호한 경우(예: "개선해줘") Claude가 2~3개 해석 먼저 제시 후 선택 요청하도록 UserPromptSubmit hook에 주입 시나리오 검토. (C) Simplicity gate — 기능 구현 전 "이게 overcomplicated는 아닌가?" 자가 질문 → 응답에 포함하도록 agent 프롬프트 강화. (D) Conditional rigor 레벨 — CLAUDE.md에 "이 작업은 trivial/normal/critical 어느 레벨인가?"를 시작 시 분류 → trivial이면 scaffold 체크 완화. 5축: 자동화 1(판단 가이드라인 강화) · 마찰제거 2(잘못된 방향 구현 방지) · HARD전환 1(선언적 기준) · 토큰효율 2(overengineering 방지) · 측정가능 1(subjective) → 9/10~/.claude/rules/karpathy-coding-principles.md 재작성 시 3가지 실효: (1) Multi-interpretation trigger: 요청이 모호 감지(키워드: "개선" · "고쳐" · "좀 더 낫게") 시 Claude가 2~3 해석 선제 제시 → 재작업 방지. hugh-clone 에이전트의 "요구사항 명확화"와 직접 연결. (2) Simplicity gate 응답 포맷: 구현 전 "이 설계의 복잡도는 [낮음/중간/높음]이고, [낮음] 선택한 이유는 ..." 1줄 포함 강제 → 독자가 검토 가능. (3) Conditional rigor level: 작업 시작 시 <task-tier>trivial|normal|critical</task-tier> 분류 → task-quality-gate.sh가 tier별 차단 수준 다르게 적용(trivial은 QA 증거 완화)<task-tier> 분류 + task-quality-gate.sh tier-aware · orphaned vs dead code 구분 규칙 명문화"Turn coding agents into real teammates — assign tasks, track progress, compound skills." Open-source 관리형 agents platform. Autonomous Task Lifecycle: 이슈 할당 → 큐잉 → 클레임 → 시작 → WebSocket 실시간 진행 → 결과 보고. Skill Compounding: "Every solution becomes a reusable skill for the whole team" — 모든 해결책(배포 · 마이그레이션 · 코드 리뷰)이 workspace 수준 재사용 skill로 축적. Multi-Workspace Isolation + Unified Runtime Dashboard(local daemon + cloud runtime 단일 control plane). 스택: Next.js 16(App Router) + Go(Chi/sqlc/WebSocket) + PostgreSQL 17 + pgvector. Agent 통합: Claude Code · Codex · OpenClaw · OpenCode · Hermes · Gemini · Pi · Cursor Agent 로컬 daemon으로 PATH 자동 감지. Homebrew/binary/Docker 설치.
assignee: @claude-agent"로 직접 할당 → 에이전트가 수용·진행·완료 보고. 우리 /auto-issue가 수동 트리거 모델이면 multica는 이슈 생성 즉시 자동 클레임. (2) Skill Compounding at Workspace Level: 단일 세션이 아니라 workspace 전체에 skill 축적 → 같은 organization의 다른 프로젝트에서도 재사용. 우리 skills/가 user scope이면 multica는 team/workspace scope. agent-manifest-pattern.md(apm)의 packaged skill 공유와 유사. (3) Unified Multi-Agent Runtime Dashboard: Claude Code/Codex/Cursor Agent를 하나의 dashboard에서 동시 모니터링 + 워크로드 기반 라우팅. 우리 unified-model-gateway.md(new-api)가 모델 라우팅이면 multica는 에이전트 라우팅. (4) Local Daemon Pattern: 백엔드 서버와 로컬 daemon 분리 → 로컬이 CLI 실행 · 서버가 task 큐 관리 → vendor lock-in 없이 self-host 가능. durable-agent-sandbox-decoupling(open-agents)의 agent-sandbox 분리를 CLI 레벨로 구현./auto-issue에 "이슈 label이 agent:claude면 자동 클레임 + 진행도 이슈 코멘트로 업데이트" 기능 추가 검토. (C) Multi-agent runtime awareness — 현재 Claude Code만 쓰지만 Codex/Cursor도 병행 사용 시 통합 action-log로 수렴 → 간단한 JSONL 기반 dashboard 구축 가능(scripts/runtime-dashboard.sh). (D) Local daemon 패턴 — trend-harvester/autoresearch 같은 장시간 태스크를 daemon화하여 Claude 세션 종료해도 계속 실행 → durable-agent-sandbox-decoupling.md(47차 수확)의 bg-exec.sh와 연계. 현재 단계: 참조만, 개인 개발 환경에서 full platform 불필요. 팀/조직 확장 시 재평가. 5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2(dashboard 메트릭) → 8/10 (참조급)scripts/runtime-dashboard.sh(multi-agent JSONL 통합) · daemon 패턴 durable-agent-sandbox-decoupling와 연계 · 팀 확장 시 재평가 플래그worktree-parallel-agents로 파일시스템 격리, browser-automation-crystallization으로 브라우저 결정화, role-based-agent-permissions로 권한 격리를 개별 도입해왔다면, 이번 주 트렌드는 격리(isolation)를 에이전트 시스템의 1급 primitive로 격상하는 4개 축의 동시 수렴. (1) Context Isolation 축: mksglu/context-mode(⭐9K, +1.7K)가 MCP 프로토콜 레이어에서 tool 출력을 서브프로세스 sandbox에 가두고 stdout만 context에 진입 → Playwright snapshot 56KB → 299B, GitHub Issues 58.9KB → 1.1KB, 총 98% 토큰 절감 + SQLite FTS5 indexing + PreToolUse/PostToolUse/PreCompact/SessionStart 4-hook lifecycle + 세션 복구 XML 스냅샷. (2) Agent-Sandbox Decoupling 축: vercel-labs/open-agents(⭐4K, +1.7K)가 "The agent is not the sandbox" 철학으로 에이전트 실행 ≠ 샌드박스 실행 분리 — Web → Agent Workflow → Sandbox VM 3-layer, 에이전트는 tool 호출로만 sandbox와 통신, hibernation/resumption 독립 관리 가능. (3) Multi-Agent Handoff 축: openai/openai-agents-python(⭐25K, +3.8K)이 Handoff primitive로 에이전트-에이전트 위임을 명시적 타입으로 정의 + SandboxAgent 내장(UnixLocalSandboxClient) + Guardrails + Sessions 자동 영속화 + Tracing 네이티브. LangChain의 graph-centric이나 CrewAI의 role-play와 달리 handoff를 SDK 1급 primitive로. (4) Secure Code Execution 축: superradcompany/microsandbox(⭐5.8K, +375)가 Rust 기반 MicroVM 보안 샌드박스를 AI 에이전트용으로 특화 — LLM 생성 코드를 로컬에서 안전히 실행 + 격리 보장 + 빠른 시작. browser-automation-crystallization이 웹 UI 자동화용이면 microsandbox는 임의 코드 실행용. 네 축 모두 loopy-era 5축의 "마찰 제거"(context 폭주 · 샌드박스 누수 · agent 조율 모호성 · 코드 실행 위험)와 "HARD 전환 가능"(MCP 프로토콜 exit code · VM snapshot hash · Handoff type signature · microVM boundary)에 직결. 공통 패러다임 변화: 지금까지 agent 프레임워크는 "reasoning + action이 한 몸"이었다면, 이번 주 트렌드는 "reasoning은 context에, action은 sandbox에, state는 file에 — 삼위 일체 분리". 우리 시스템이 각 축을 개별 규칙으로 보유하지만 "격리 계층"이라는 통합 개념은 부재 — 이번 주 수확이 공백을 메우는 convergence validation."AI context window optimization — tool output never leaves the subprocess." MCP 서버로 6개 sandbox tool 제공(ctx_execute/ctx_execute_file/ctx_batch_execute/ctx_index/ctx_search/ctx_fetch_and_index) + 11개 언어(JS · Python · Ruby · Go · Rust · PHP · Perl · R · Elixir · Shell · Bun) 서브프로세스 격리 실행 + stdout만 context 진입. SQLite FTS5(Porter stemming + trigram fallback + Levenshtein 교정) + BM25+RRF hybrid rank + 24h TTL fetch cache. 4-hook lifecycle(PreToolUse/PostToolUse/PreCompact/SessionStart) + 2KB XML session snapshot으로 compaction 복구. Elastic License 2.0 · Zero telemetry · 12 platform 통합(Claude Code · Gemini CLI · VS Code · Cursor · OpenCode · Zed · 등).
ctx_execute는 Claude가 직접 호출하는 일반 bash가 아니라 MCP 프로토콜 레이어에서 spawn된 격리 프로세스 → stdout만 JSON으로 응답, 56KB Playwright snapshot → 299B stdout이 되는 메커니즘의 핵심. 우리 browser-automation-crystallization.md가 "어댑터 결정화"로 LLM 비용 0을 달성한다면 context-mode는 "모든 tool을 subprocess로 격리"로 raw data가 context에 절대 진입 못 하게 구조적 차단. role-based-agent-permissions.md의 "도구 화이트리스트"보다 한 단계 위 — 권한이 아니라 실행 장소 자체가 격리. (2) FTS5 + BM25 + RRF Hybrid Indexing: 5KB 초과 출력은 FTS5로 automatic indexing, 후속 쿼리 시 BM25 ranking + trigram fallback + Porter stemming + Levenshtein 교정까지 내장 — 우리 memory-bank가 FTS5만 쓰는 데 비해 context-mode는 fuzzy matching + semantic ranking을 네이티브 지원. semantic-memory-compaction.md의 3줄 요약 압축과 다른 접근(요약 대신 indexed retrieval). (3) XML Session Snapshot (2KB): Claude Code의 context compaction이 발생하기 직전 PreCompact hook이 실행되어 "현재 파일 편집 상태 · git ops · task · errors"를 XML 2KB로 직렬화 → SessionStart hook이 복구. 우리 state-driven-orchestration.md(oh-my-codex)가 "오케스트레이션 상태를 파일에"면 context-mode는 세션 상태 자체를 파일에 — 더 근본적. (4) 12-Platform Hook Routing: Claude Code, Gemini CLI, VS Code Copilot, Cursor 모두 동일 MCP 서버 + 플랫폼별 hook config(.claude/settings.json, gemini.json 등)로 자동 라우팅. agent-manifest-pattern.md(apm)의 "cross-target deploy" 철학을 MCP 도구로 구현. (5) Progressive Throttling: 동일 검색 abuse 감지 시 batch operation으로 자동 redirect → "잘못 쓰는 Claude를 도구가 가르침". harsh-critic 에이전트의 "사용자 관점 사전 차단"과 철학 일치.context-compression-pipeline.md(claw-compactor, 15~82% 압축)와 cli-output-compression.md(rtk, 60~90% CLI 절감)가 있지만 두 가지 공백: (α) 실행 위치 격리 미구현 — 우리는 CLI 출력을 "읽은 후 압축"하지만 context-mode는 "애초에 context에 진입 못 하게" 차단. (β) 세션 복구 미구현 — PreCompact hook + XML snapshot 패턴이 현재 우리 시스템에 없음 (Stop hook에서 session-state.json만 존재). 즉시 차용 가치: (A) subprocess gateway 도입 — scripts/ctx-execute.sh가 bash 명령을 받아 서브프로세스로 실행 + stdout만 반환 + stderr/timing은 별도 logs/에 저장 → Claude가 대용량 명령(playwright · curl · grep 전체 파일) 실행 시 매번 호출. (B) PreCompact hook 구현 — ~/.claude/hooks/session-snapshot.sh가 현재 git HEAD · 편집 중 파일 · TodoWrite 상태 · 최근 에러를 XML/JSON으로 2KB 직렬화 → Stop/PreCompact 시 자동 실행. (C) FTS5 fuzzy 개선 — memory-bank의 단일 search를 BM25 + trigram fallback + Levenshtein 3단 hybrid로 업그레이드 → 오타/부분 일치도 수용. (D) Progressive throttling 규칙 — 동일 키워드 3회 이상 검색 시 "batch mode 쓰라" 자동 경고 (현재는 무제한 반복 허용). 단 MCP 서버 전체 fork는 과함 — subprocess gateway + PreCompact snapshot 2개 primitive만. 5축: 자동화 2 · 마찰제거 2(context 폭주 근본 차단) · HARD전환 2(MCP exit code + stdout 크기) · 토큰효율 2(98% 명시 측정) · 측정가능 2(ctx stats · insight dashboard) → 10/10~/.claude/rules/subprocess-gateway-for-tool-output.md 도입 시 3가지 실효: (1) Subprocess gateway 스크립트: scripts/ctx-execute.sh 후이 bash 명령을 서브프로세스로 실행 + stdout만 Claude에 반환 + stderr/timing은 .claude/logs/ctx/{ts}.jsonl에 분리 저장 → 대용량 출력이 context에 진입하는 빈도 측정. (2) PreCompact session snapshot: ~/.claude/hooks/session-snapshot.sh가 compaction 감지 시 `{git_head, edited_files, todos, recent_errors}` JSON을 `.claude/session-snapshot.json`에 저장 + 다음 SessionStart hook에서 자동 복구 → 장기 세션에서 compaction 후 "내가 뭐 하던 중이었지" 정보 손실 제거. (3) FTS5 hybrid search 업그레이드: search-conversations 스킬에 trigram + Porter stemming + Levenshtein 교정 계층 추가 → 오타/부분 일치 히트율 상승. 모든 변경 후 ctx stats류 메트릭(saved tokens %)을 harness-report에 통합scripts/ctx-execute.sh(stdout만 반환하는 wrapper) · ~/.claude/hooks/session-snapshot.sh(PreCompact + SessionStart) · memory-bank FTS5에 trigram/Porter/Levenshtein 3단 hybrid 추가 · progressive throttling 규칙("동일 검색 3회 이상 = batch 권장") · harness-report에 "context tokens saved %" 메트릭"A lightweight yet powerful framework for multi-agent workflows" (Provider-agnostic, 100+ LLM 지원). 5개 primitive: Agent(instructions/tools/guardrails/handoff) · Runner(orchestration) · Handoff(agent-to-agent delegation) · Guardrail(I/O validation) · Tracing(native observability). SandboxAgent 내장 — UnixLocalSandboxClient로 OS-level isolation + Manifest(entries={"repo": GitRepo(...)}) 선언적 workspace + Runner.run_sync() 즉시 실행. Sessions 자동 영속화, Tracing은 optional이 아닌 native. LangChain의 graph, CrewAI의 role-play와 달리 handoff를 SDK 1급 primitive로 표현.
team-orchestrator가 specialist 호출 시 prompt 자연어 + result parse 방식이면 openai-agents는 타입 시그니처로 공식화. declarative-agent-coordination.md(takt persona/permissions)의 YAML을 Python 타입으로 구현한 버전. (2) SandboxAgent Built-in: 샌드박스가 framework 외부 의존이 아닌 SDK 내장 — SandboxAgent는 일반 Agent의 subclass, UnixLocalSandboxClient가 컨테이너 관리. 우리 시스템은 샌드박스 실행이 worktree 또는 별도 Docker가 필요한데 openai-agents는 Agent 정의에 manifest 포함. worktree-parallel-agents.md + browser-automation-crystallization.md를 단일 primitive로 통합. (3) Native Tracing: print 로그나 custom logger 아닌 tracing은 기본 켜짐 + OpenAI 플랫폼 연동 + local JSON export. 우리 ~/.claude/scripts/action-log.sh가 JSONL 로깅이지만 구조적 tracing 아님. state-driven-orchestration.md의 "결정 로그"를 ISO 표준(OpenTelemetry) 호환으로 업그레이드 가능. (4) Guardrails as Framework Layer: input/output validation이 agent에 부착 가능 — Zod-like schema. 우리 task-quality-gate.sh가 QA 증거 검증이지만 runtime I/O는 검증 안 함. openai-agents의 guardrail은 Agent 응답 자체를 validate → LLM 오출력 런타임 차단.team-orchestrator + manager-orchestrator가 자연어 기반 prompt + result parse 패턴인데 정형화된 handoff primitive 도입 시 향상: (A) TypedDict 기반 handoff schema — 각 specialist agent 호출 시 {task_id, acceptance_criteria, parent_agent, expected_schema} dict를 필수로 주입 + 결과도 schema validated. 현재 "prompt에 잘 적기"에 의존. (B) SandboxAgent 패턴 포팅 — ~/.claude/agents/*.md의 specialist를 frontmatter에 sandbox: worktree|docker|none 옵션 추가 → 기본 none, 파일 수정 시 worktree 자동 생성. 현재는 수동으로 Task(isolation: "worktree") 호출. (C) Native tracing 도입 — action-log.sh를 OpenTelemetry trace-id 호환으로 확장 + trace view {id} CLI로 시각화. (D) Guardrail 런타임 I/O 검증 — PostToolUse hook에 "specialist 반환값이 schema 만족하는지" Zod 검증 추가. 단 Python SDK 전체 채택은 우리 shell/markdown 기반 시스템과 충돌 — handoff schema + sandbox frontmatter + trace-id 3개 개념만. 5축: 자동화 2 · 마찰제거 2(prompt → schema 정형화) · HARD전환 2(type validation + trace-id) · 토큰효율 1 · 측정가능 2(tracing 네이티브) → 9/10~/.claude/rules/typed-agent-handoff.md 도입 시 3가지 실효: (1) Handoff schema 정형화: specialist 호출 시 orchestrator가 scripts/handoff-pack.sh로 JSON payload 생성 → {task_id, acceptance_criteria, files_allowed, expected_artifacts} 필수 필드. specialist는 최종 응답에 schema 준수 필수 — 누락 시 pre-merge gate 차단. (2) Agent frontmatter sandbox 옵션: ~/.claude/agents/{agent}.md의 YAML frontmatter에 sandbox: worktree|inline 선언 + Task tool wrapper가 자동 worktree 생성. 현재 수동 isolation: "worktree" 생략 자주 발생. (3) OpenTelemetry trace-id 통합: action-log.sh가 매 호출에 trace_id 생성 + parent/child span 기록 → scripts/trace-view.sh로 특정 태스크의 전체 에이전트 chain 시각화 가능. loopy-era-eval 리포트에 trace 링크 포함scripts/handoff-pack.sh(JSON payload 생성 + schema 검증) · agent frontmatter sandbox: worktree|inline 옵션 · action-log.sh에 trace_id + parent/child span · scripts/trace-view.sh(태스크별 chain 시각화) · PostToolUse guardrail로 specialist 응답 schema 검증"Open-source reference app for building and running background coding agents on Vercel. Meant to be forked and adapted, not treated as a black box." 3-layer: Web → Agent Workflow → Sandbox VM. 핵심 결정: 에이전트는 샌드박스 밖에서 실행 — sandbox와는 discrete tool(file ops · shell · search)로만 통신. Vercel Workflow SDK로 durable execution(멀티스텝이 요청 생명주기 넘어 지속) + stream reconnection으로 resume + 스냅샷 기반 VM hibernation/resume. PostgreSQL state + optional Redis skills cache + JWE 토큰 암호화 + GitHub App 워크플로우(auto-commit, PR).
worktree-parallel-agents.md는 "작업 단위 격리"지만 여전히 Claude 세션 = worktree. open-agents는 LLM reasoning과 tool execution을 완전 decouple → Claude가 죽어도 sandbox는 살아있음, 역도 성립. (2) Durable Workflow Execution: 대화 턴을 넘어 workflow가 Vercel Workflow SDK로 영속 실행 → 사용자가 "잠깐 끊어" → "이어서" 가능. rc 스킬(Telegram Reply 브릿지)의 비동기 실행 패턴을 SDK 레벨에서 제공. (3) VM Hibernation + Stream Reconnection: sandbox가 유휴 시 자동 동결, 재요청 시 snapshot에서 복구 + 기존 workflow에 stream 재연결. 우리 시스템은 dev 서버를 portless로 계속 띄워둠 — open-agents는 자동 hibernate로 리소스 절감. (4) Discrete Tool Boundary: agent와 sandbox 간 통신이 tool call(file_read, shell, search 등)로만 제한 — agent가 sandbox의 메모리/프로세스 직접 조작 불가. role-based-agent-permissions.md(forgecode)의 "도구 화이트리스트"를 VM 경계까지 강화.Task(subagent_type)로 실행되는데 Claude 자식 프로세스라 parent 죽으면 cascade 종료. open-agents 패턴 차용 시: (A) background-agent 분리 — 장시간 태스크(trend-harvester · autoresearch)를 nohup 대신 명시적 durable job으로 래핑, Claude 세션 종료해도 계속 실행 → 완료 시 텔레그램 알림. (B) sandbox hibernate 패턴 — dev 서버를 idle 5분 후 자동 hibernate(pm2/systemd-socket-activate) + 요청 시 snapshot 복구. (C) Tool boundary 강제 — specialist agent가 파일 시스템에 직접 접근하지 않고 sandbox MCP server 통해서만 조작 → microsandbox(다음 항목)와 연계. (D) Workflow state persistence — .claude/workflow-state/{id}.json에 중간 상태 저장 + 세션 간 resume. 단 Vercel Workflow 전체 adoption은 vendor lock-in 위험 — background-agent + hibernate 2개 개념만 local bash로 구현. 5축: 자동화 2 · 마찰제거 2(세션 종료 cascade 문제) · HARD전환 1(hibernate 판단 LLM 불필요) · 토큰효율 1(hibernate 시 context 유지) · 측정가능 2(workflow state file) → 8/10~/.claude/rules/durable-agent-sandbox-decoupling.md 도입 시 3가지 실효: (1) Background job wrapper: scripts/bg-exec.sh 후가 장시간 태스크를 systemd --user 또는 launchd로 등록 + PID/log 추적 + 완료 시 텔레그램 notify. trend-harvester/autoresearch처럼 30분+ 태스크는 자동 background 전환. (2) Dev server auto-hibernate: portless에 idle timeout 추가(기본 5분) + 다음 HTTP 요청 시 자동 재시작 → 리소스 절감. (3) Workflow state file: .claude/workflow-state/{workflow_id}.json에 phase 진행도 + 중단점 저장 → /loopy-era-workflow.sh --resume {id}로 재개 가능. 세션 종료 공포 제거scripts/bg-exec.sh(systemd/launchd wrapper + 텔레그램 완료 알림) · portless idle hibernate(5분 기본) · .claude/workflow-state/{id}.json 중단점 저장 + resume 플래그 · specialist → sandbox MCP 경계 강제 옵션"Secure, local sandboxes for AI agent execution and isolation." Rust 기반 microVM (Firecracker 계열) 특화 — LLM 생성 코드를 로컬에서 빠른 시작 + 강한 격리로 실행. OS-level container보다 강한 boundary(하이퍼바이저 경계), Docker보다 빠른 cold start. AI 에이전트용 특화 기능: snapshot/restore · 짧은 수명 단일 작업 실행 · resource limit(CPU/memory/network). browser-automation-crystallization(web UI)이나 worktree-parallel-agents(git)와 다른 임의 코드 실행 격리에 특화.
checkpoint-before-mutation.md(moltis)의 "변경 전 스냅샷"을 VM 레벨로 격상.python3 -c "..."를 호스트 실행 중. microsandbox 도입 시 ctx-execute.sh --sandbox=microsandbox로 VM 안에서 실행 + 결과만 stdout. context-mode(첫 항목)가 "context 격리"면 microsandbox는 "실행 격리" — 상호보완. (B) 위험도 분류 — bash 명령을 safe(read-only) · mutating(fs 변경) · untrusted(LLM 생성) 3단으로 분류 → untrusted만 microsandbox 라우팅. 우리 scaffold-violation-check.sh의 감지 능력 보강. (C) Snapshot-based rollback — self-improve가 rule 파일 수정할 때 VM snapshot + 실패 시 복구. 단 macOS dev 환경에서 VM 오버헤드 크므로 리모트 VPS에서만 선택 활성화 현실적. 현재 단계: 참조만, 구체 적용은 장기 과제. 5축: 자동화 1 · 마찰제거 2(untrusted code host 실행 위험) · HARD전환 2(VM 경계 exit code) · 토큰효율 1 · 측정가능 2(VM lifecycle 이벤트) → 8/10--sandbox 옵션 설계<private> 태그로 민감정보 자동 제외. 우리 memory-bank + search-conversations 스킬이 개념은 같지만 hook 기반 자동 캡처 + progressive disclosure는 부분 구현. (2) Codebase-as-Context 축: zilliztech/claude-context(⭐7.4K, +1.1K)가 AST 기반 intelligent chunking + Merkle tree incremental indexing + BM25+dense hybrid search로 40% 토큰 절감 + 전체 codebase를 MCP로 노출. 우리 codebase-search-before-create.md가 원칙 수립 레벨이면 claude-context는 실제 infrastructure. (3) Knowledge Engine 축: topoteretes/cognee(⭐16.6K, +1.3K)가 vector + graph + cognitive science 통합 + auto-routing recall(쿼리별 최적 검색 전략 자동 선택) + OTEL traceability + multi-tenant agentic isolation. (4) Smart Model Routing 축: mnfst/manifest(⭐5.5K, +1.1K)가 23차원 scoring(<2ms)로 요청을 4-tier(simple/standard/complex/reasoning) 분류 + 300+ 모델/20+ 프로바이더 대응 + self-hosted Docker + 70% 비용 절감. 우리 unified-model-gateway.md(new-api)가 format 변환 중심이면 manifest는 cost-optimization routing. 네 축 모두 loopy-era 5축의 "토큰 효율성"(10x/40%/70% 명시 수치)과 "측정 가능"(검색 hit rate + complexity score + cost dashboard)에 직결. 외부 인프라 의존성(Chroma/Milvus/Docker) 감수하면 즉시 현실화 가능한 진화 경로."Persistent memory for Claude Code — seamlessly preserves context across sessions by automatically capturing tool usage observations." 5-hook lifecycle(SessionStart · UserPromptSubmit · PostToolUse · Stop · SessionEnd)에 자동 부착 + SQLite(세션/요약) + Chroma vector DB(semantic search) + worker service(:37777) + MCP tools로 progressive disclosure 3-layer(search index → timeline → full observation). 10x 토큰 절감(관련 없는 전체 history dumping 대신 relevance-scored 주입). <private> 태그로 민감정보 자동 제외. mem-search skill로 자연어 쿼리. npx claude-mem install 일괄 설치.
memory-bank가 Claude 판단으로 수동 저장이면 claude-mem은 무조건 전부 캡처 후 검색 시 필터. (2) Progressive Disclosure 3-layer: search index(metadata only) → timeline(날짜별 summary) → full observation(원본) 순으로 lazy load — 10x 절감의 핵심 메커니즘. context-compression-pipeline.md(claw-compactor)와 동일 철학을 "메모리 조회" 레벨에서 구현. (3) SQLite + Chroma 이중 저장소: 정형 데이터(세션 메타, 커밋 hash)는 SQLite · 의미 검색은 Chroma로 분리 — single-store bottleneck 회피. 우리 memory-bank FTS5가 단일 저장소라 대규모 세션 누적 시 성능 저하 가능성. (4) MCP Tool Exposure: 메모리를 일반 함수가 아닌 MCP tool 3종(search/timeline/observation)로 노출 → Claude가 tool call로 명시적 조회 + latency 추적 가능. (5) Privacy by Markup: <private> HTML-like 태그로 프롬프트 일부를 저장 제외 영역으로 지정 — 개인정보/비밀번호 자동 필터 없이 "사용자가 선언"하는 투명성 모델. 우리 no-env-commit.sh hook이 규칙 기반 차단이면 claude-mem은 사용자 declaration 기반.memory-bank와 search-conversations 스킬이 개념적으로는 동일하지만 자동화 수준과 토큰 효율 측면에서 claude-mem이 한 세대 앞섬. 즉시 차용 가치: (A) Hook 기반 자동 캡처 전환 — 현재 memory-bank는 "remember:" 명시 호출 필요, claude-mem은 PostToolUse hook으로 모든 tool usage 자동 기록 → 우리 ~/.claude/hooks/에 session-capture.sh 추가하여 매 tool 호출을 JSONL로 append. (B) Progressive Disclosure 도입 — search 결과가 전체 observation 덤프가 아니라 metadata+snippet → 사용자가 필요 시 full fetch → 매 호출 토큰 절감. (C) Chroma/Qdrant 이중화 — memory-bank FTS5 위에 vector layer 추가(vector-search-boundary), semantic 검색과 키워드 검색 별도 dispatch. (D) Private tag — <sensitive>...</sensitive> 태그를 Claude가 memory-bank 저장 전 필터 → no-env-commit.sh와 상호보완. 단 전체 adoption은 SQLite+Chroma+worker service 인프라 부담 — progressive disclosure + private tag 2개 primitive만 차용 권장. 5축: 자동화 2 · 마찰제거 2(세션 간 context 손실 제거) · HARD전환 2(토큰 카운트 + hook exit code) · 토큰효율 2(10x 절감 명시) · 측정가능 2(hit rate + token saved) → 10/10~/.claude/rules/hook-driven-session-memory.md 도입 시 3가지 실효: (1) Auto-capture hook: scripts/session-capture.sh를 PostToolUse에 등록 → 각 tool call + result를 ~/.claude/memory-bank/observations/{date}/{session}.jsonl에 append + daily rollup으로 요약 생성. memory-bank의 "수동 remember:" 의존 제거. (2) Progressive disclosure API: search-conversations 스킬이 현재 전체 hit를 반환 → 개편 시 3-layer(id+snippet → timeline → full doc)로 분리, 사용자/Claude가 필요한 레이어만 요청. (3) Private tag filter: CLAUDE.md에 <private>...</private> 규칙 추가 + session-capture.sh가 해당 블록 자동 제거 후 저장. Phase 3.5 autoresearch가 메모리 품질 지표를 측정하여 개선 여부 검증scripts/session-capture.sh(PostToolUse hook, JSONL append) · search-conversations 3-layer progressive disclosure 리팩터 · <private> 태그 필터 규칙 추가 · memory-bank/observations/{date}/ 일별 rollup · 토큰 절감 메트릭을 harness-report에 통합"Your entire codebase as Claude's context." AST-based intelligent chunking(TypeScript · Python · Java 등 다언어) + Merkle tree incremental indexing(변경 파일만 re-index) + BM25 + dense vector hybrid search(자연어 쿼리 "find functions handling authentication") + Zilliz Cloud 또는 local Milvus + MCP stdio transport로 표준 agent 통합. "~40% token reduction" 대규모 codebase에서 명시 측정. grep(패턴)과 naive vector search(의미만)의 한계 극복.
codebase-search-before-create.md가 "검색 먼저"를 원칙 수립했지만 실제 검색 도구는 여전히 Grep(regex), AST-aware 없음. (2) Merkle Tree Incremental: 파일 단위 hash tree로 변경 감지 → 전체 re-index 대신 delta만 → 대규모 repo에서도 분 단위 업데이트. context-freshness.md의 "wave execution + 변경 추적" 개념의 검색 인덱스 버전. (3) Hybrid BM25+Vector: 키워드 정확 매칭(변수명 · 함수명)은 BM25 · 의미 탐색(기능 설명)은 dense vector → 두 쿼리 타입에 맞는 자동 dispatch. 우리 memory-bank FTS5가 BM25만, vector 미지원. (4) MCP Standard Transport: 독자 API 아닌 Model Context Protocol stdio로 Claude Code / Cursor / Windsurf 무관 연동 — plugin lock-in 회피. browser-automation-mcp.md(chrome-devtools-mcp)와 동일 철학을 codebase 검색에 적용.codebase-search-before-create.md가 원칙이지만 실제 Claude가 새 파일 만들기 전에 "유사 구현 먼저 탐색"을 누락하는 경우 반복 — 원인은 Grep의 regex 한계로 "이름은 다른데 기능이 같은" 중복 감지 불가. claude-context 도입 시: (A) 프로젝트별 .claude-context/ 인덱스 생성 — 프로젝트 clone 시 `npx claude-context index` 1회 실행 → 이후 MCP tool로 "authentication 관련 함수 찾아줘" 자연어 검색 가능. (B) /init-project에 integration — 프로젝트 초기 분석 시 claude-context 자동 bootstrapping + 첫 세션에서 세만틱 맵 표시. (C) bug-fixer에 의존 추가 — 에러 메시지 기반으로 "이 에러 발생하는 유사 코드 경로" 사전 탐색 → 4회 로테이션의 1차 시도를 semantic search로 시작. 단 Milvus(local Docker) 또는 Zilliz Cloud 필요 — 인프라 오버헤드 있음. Hybrid 전략: 대규모 monorepo에만 claude-context 적용, 소규모 프로젝트는 Grep 유지. 5축: 자동화 2 · 마찰제거 2(grep 한계 제거) · HARD전환 1 · 토큰효율 2(40% 명시) · 측정가능 2(검색 hit rate) → 9/10~/.claude/rules/codebase-semantic-context.md 도입 시 3가지 실효: (1) 대규모 프로젝트 지원: .claude-context/index 디렉토리가 있으면 Claude가 MCP tool로 semantic search, 없으면 Grep fallback. init-project 스킬에 "이 프로젝트 LOC가 10K 초과면 claude-context bootstrap 권장" 조건 분기. (2) Bug-fixer 1차 전략 교체: 현재 "직접 수정"이 1차, 개편 시 "에러 메시지 기반 semantic search로 유사 패턴 먼저 확인" → 중복 코드 검색 + 기존 해결법 재활용. execution-path-crystallization.md와 연계. (3) Codebase health score: 프로젝트 진입 시 semantic duplicates(의미 중복) 자동 리포트 → self-improve Phase에서 리팩터 후보 제시. harness-report에 "code duplication rate" 메트릭 추가 가능init-project에 10K+ LOC 프로젝트 claude-context bootstrap 분기 · bug-fixer 1차 전략을 semantic search로 교체 · codebase-search-before-create.md에 "AST-aware 도구 우선" 조항 추가 · harness-report에 code duplication rate 메트릭"Smart model routing for personal AI agents reducing costs up to 70%." 23-dimension scoring algorithm(<2ms runtime)이 요청을 4-tier(simple · standard · complex · reasoning)로 분류 → 티어별 최저 비용 모델로 라우팅 + 자동 fallback chain. Self-hosted Docker(클라우드 프록시 없음) + 300+ 모델 / 20+ 프로바이더(OpenAI · Anthropic · Ollama · custom) + usage dashboard. "구현은 단순하지만 비용 관점에서 즉시 70% 절감".
deterministic-orchestrator-scheduling.md(bernstein)의 "스케줄링은 결정론적" 철학과 정확히 일치하지만 범위를 "모델 선택"으로 좁힘. (2) 4-Tier Cost Ladder: simple(haiku급) → standard(sonnet급) → complex(opus급) → reasoning(o1/claude-opus-extended 등) → 요청 종류에 맞는 비용·성능 trade-off 자동 결정. 우리 agent-delegation-strategy.md가 "복잡한 조율은 opus, specialist는 sonnet"을 자연어로 제안하지만 manifest는 런타임 자동 선택. (3) Self-Hosted Local: 클라우드 프록시(Portkey 등)와 달리 Docker로 로컬 실행 → API 키 유출 없음 + 데이터 프라이버시. mcp-cli-account-divergence.md의 "계정 분리 위험"을 같은 철학으로 해결. (4) Automatic Fallback Chain: 프로바이더 장애 시 같은 tier 내 다른 프로바이더로 투명 교체 — unified-model-gateway.md(new-api)가 format 변환 중심이면 manifest는 failover 중심.model:) — sonnet 이나 opus 중 매 실행 고정. 작업 복잡도와 무관하게 동일 모델 사용 → simple bash script 호출에도 opus, 또는 복잡한 설계 태스크에도 haiku 같은 mismatch 발생. manifest 패턴 차용 시: (A) 모델 선택을 runtime에 — agent frontmatter에 model: auto 선언 시 요청 complexity 스캔 후 tier 결정. (B) 간단한 complexity scorer 구현 — manifest 전체 adoption 아닌 scripts/complexity-score.sh로 프롬프트 길이 + 다중 단계 키워드 감지 + 코드 생성 여부 3차원으로 tier 결정 (haiku/sonnet/opus). (C) Cost dashboard — ~/.claude/logs/model-usage.jsonl에 매 호출의 모델·tokens·tier 기록 → harness-report에 월별 비용 요약. (D) Fallback chain — Anthropic API rate limit 시 자동으로 Bedrock/Vertex Claude로 전환. 단 전체 Docker 인프라 과함 — bash scorer + logging 2개 primitive만. 5축: 자동화 2 · 마찰제거 1(수동 모델 선택 고민 제거) · HARD전환 2(scoring bash · exit code) · 토큰효율 2(70% 비용 명시) · 측정가능 2(dashboard 메트릭) → 9/10~/.claude/rules/cost-aware-model-routing.md 도입 시 3가지 실효: (1) 복잡도 스코어링 스크립트: scripts/complexity-score.sh <prompt_file>이 3차원(길이 > 1000자 · 다중 파일 수정 · 아키텍처 설계 키워드) 중 2개 이상 해당 시 opus, 아니면 sonnet 반환. orchestrator가 specialist 호출 전 호출. (2) Agent frontmatter model: auto: agent SDK가 auto 감지 시 complexity-score.sh 호출하여 런타임 결정. 기존 고정 model: sonnet는 그대로 유지. (3) Cost tracking dashboard: scripts/log-model-usage.sh가 PostTool hook으로 매 호출의 model/tokens/duration을 JSONL로 append → scripts/cost-report.sh로 월별 프로젝트별 비용 집계. harness-report에 "cost efficiency" 새 메트릭 추가scripts/complexity-score.sh(3-dim bash scorer) · agent frontmatter model: auto 옵션 · scripts/log-model-usage.sh(PostTool hook) · harness-report에 cost efficiency 메트릭 · Anthropic→Bedrock automatic failover 구현"Open-source knowledge engine that lets you ingest data in any format and continuously learns." Vector search + graph DB + cognitive science 3중 통합. Session memory(fast cache) ↔ persistent knowledge graph 자동 sync + auto-routing recall(쿼리별 최적 검색 전략 자동 선택) + multimodal ingestion + ontology grounding + OTEL traceability + agentic isolation(multi-tenant). RAG와 달리 "feedback에서 학습하는 agent" — 관계가 시간에 따라 진화.
shared-agent-memory.md(metabot)와 유사하지만 cognee는 graph 관계 진화가 차별점. (2) Session ↔ Persistent Sync: hot cache로 현재 세션 응답 속도 최적화 + 세션 종료 시 knowledge graph에 merge + 다음 세션에 복원. 우리 memory-bank가 session scope 없이 flat이라면 cognee는 계층적. (3) Auto-Routing Recall: "이 쿼리는 vector similar가 적절한가 graph traversal이 적절한가"를 자동 결정 → 사용자 쿼리 엔지니어링 부담 제거. claude-mem의 progressive disclosure 3-layer와 유사하지만 cognee는 검색 전략 수준에서 라우팅. (4) Agentic Isolation: multi-tenant 환경에서 agent별/user별 memory 격리 + 누수 방지 — 우리 team-orchestrator가 4명 specialist를 병렬 구동할 때 memory 공유 vs 격리 정책 부재.~/.claude/ 시스템의 각 구성 요소(skills + agents + hooks + orchestration)를 산업 표준으로 재정의하는 움직임. (1) Declarative Orchestration 축: coleam00/Archon(⭐19K)이 "첫 번째 오픈소스 AI 코딩 harness builder"를 자칭하며 YAML Workflow DAG로 조율 — deterministic 노드(bash/git/tests) + AI 노드(plan/code/review)를 explicit 의존성으로 연결 + isolated worktree per run + fresh context flag로 중간 리시딩 + "ALL_TASKS_COMPLETE" 같은 loop termination 조건. 우리 team-orchestrator의 Phase 개념이 자연어 기반이지만 Archon은 파일 스키마로 encode. (2) Agent Lifecycle Autonomy 축: multica-ai/multica(⭐19K)가 agent를 board 상의 자율적 teammate로 격상 — claim/start/complete/fail을 agent 스스로 결정 + skill compounding(완료 태스크 → 재사용 가능한 skill) + WebSocket streaming으로 progress broadcast + runtime 자동 감지. Symphony의 "work 관리" 개념을 multi-agent 조율로 확장. (3) Official Plugin Marketplace 축: anthropics/claude-plugins-official(⭐17K, 2026-04-22 공개)이 plugin.json 표준 manifest + /plugin install @claude-plugins-official 설치 CLI + commands/ agents/ skills/ .mcp.json 표준 디렉토리 + /plugins(공식) vs /external_plugins(커뮤니티) 2-tier governance. openai/skills + agentskills.io에 대한 Anthropic의 공식 응답. 보조 축: EvoMap/evolver(⭐6.5K)가 GEP(Gene Expression Programming) 기반 prompt evolution — Genes + Capsules + EvolutionEvent 감사 trail + signal dedup으로 repair loop 방지, self-improve 범위를 prompt-only(source 불변)로 명시 한정. 네 축 모두 loopy-era 5축의 "측정 가능"(DAG 진행률 + skill usage count + plugin version + evolution event)과 "HARD 전환 가능"(YAML 스키마 + claim state + manifest validation + audit hash)에 직결."The first open-source harness builder for AI coding. Make AI coding deterministic and repeatable." YAML Workflow DAG로 deterministic 노드(bash/git/tests) + AI 노드(plan/code/review) 연결. Isolated worktree per run + fresh context flag로 리시딩 + loop constructs("until ALL_TASKS_COMPLETE") + multi-agent review(5 parallel reviewers → synthesis). 핵심 선언: "You own the control flow, the AI fills in intelligence."
team-orchestrator Phase 1~5가 skill body에 자연어로 적혀있지만 Archon은 archon-workflow.yml에 machine-parseable. canonical-workflow-fsm.md(spec-kitty 7-state FSM)의 YAML 버전 — spec-kitty는 단일 태스크의 FSM, Archon은 workflow 전체의 DAG. (2) Deterministic ↔ AI Node Mix: 노드 종류를 명시적으로 구분(bash/git = 결정론 · claude = AI 추론) → orchestrator는 type에 따라 다른 실행 전략. deterministic-orchestrator-scheduling.md의 "LLM은 구현, 스케줄링은 결정론"을 노드 레벨에서 구현. (3) Fresh Context Flag: 특정 노드에 fresh_context: true 선언 시 해당 단계에서 Claude 세션 재시작 — fresh-context-iteration.md(ralph 패턴)의 YAML 네이티브 지원. 우리는 매뉴얼 판단으로 context rot 감지, Archon은 workflow 작성자가 선언. (4) Isolated Worktree per Run: 모든 workflow 실행이 독립 worktree 생성 → parallel 안전. worktree-parallel-agents.md 기본 전제가 모든 실행에 default 적용. (5) Skills as YAML: .archon/commands/에 재사용 AI 커맨드를 YAML로 번들링 → 우리 ~/.claude/skills/의 SKILL.md 대안. 같은 목적을 다른 포맷으로 구현.~/.claude/workflows/team.yml에 DAG로 재작성, orchestrator prompt는 "이 YAML을 파싱해서 순서대로 실행" 한 줄로 축약. (B) fresh_context 플래그 hook 도입 — 특정 phase 완료 시 자동 Stop hook 트리거 → 다음 phase가 새 Claude 세션으로 시작. (C) Node type 분리 — 현재 오케스트레이터가 매번 "이번엔 Bash? Task? Agent?"를 LLM 판단으로 결정하는데, YAML에 node type을 고정하면 dispatch가 bash parse로 결정론화. 단 Archon 전체 adoption은 Bun 의존성 + overlap 기능 많아 부담 — YAML 스키마 개념만 차용하고 실행은 우리 기존 인프라(Task/Bash/Agent)로 wrapping 권장. 5축: 자동화 2 · 마찰제거 2(YAML 스키마로 phase 누락 차단) · HARD전환 2(DAG 파싱 + exit code) · 토큰효율 1(LLM 판단 감소) · 측정가능 2(DAG 진행률 정량) → 9/10~/.claude/rules/yaml-workflow-dag-orchestration.md 도입 시 3가지 실효: (1) workflows/ 디렉토리 도입: team.yml(기존 team 오케스트레이션 DAG화) + auto-issue.yml(이슈 → 분석 → 구현 → QA → PR DAG) + qa-cycle.yml(빌드 → 타입체크 → 브라우저 테스트 → 승인 DAG) — 각 workflow를 YAML에 고정, orchestrator skill은 yq로 파싱 + 순회. (2) fresh_context hook: scripts/orchestrator-runner.sh가 YAML의 fresh_context: true 플래그 감지 시 SubagentStop을 강제 트리거 → context rot 예방을 workflow 설계자가 명시적으로 선언. (3) Node type dispatcher: workflows/lib/run-node.sh가 node type에 따라 bash "${cmd}" vs task "${agent}" vs skill "${name}"를 case문으로 dispatch — LLM이 매번 판단하지 않음. 즉시 PoC 가능: qa-cycle 스킬을 YAML로 변환하여 재현 가능 검증~/.claude/workflows/{team,auto-issue,qa-cycle}.yml 스키마 도입 · scripts/orchestrator-runner.sh(yq 기반 DAG 실행 + node type dispatch) · fresh_context 플래그를 SubagentStop hook 강제 연결 · Phase 개념을 YAML edge로 재정의"The open-source managed agents platform. Turn coding agents into real teammates — assign tasks, track progress, compound skills." Agent as teammate: profile · board presence · 자율적 task lifecycle(claim/start/complete/fail). Runtimes(local daemon or cloud) + auto-detect agent CLI + WebSocket streaming progress + skill compounding(완료 태스크 → 재사용 skill). Workspace-level multi-team 격리.
auto-issue가 이슈 라벨 매칭으로 에이전트를 호출(push 모델)하지만 multica는 pull 모델. 다수 agent가 동시에 board를 감시하면 "누가 먼저 claim" 레이스 발생 → 구조적으로 병렬성 확보. (2) Full Autonomous Lifecycle: claim → start → (comment/blocker 보고) → complete/fail을 agent가 자율 수행. 실패 시 follow-up issue 자동 생성. 우리 bug-fixer 4회 로테이션이 에이전트 내부 재시도지만 multica는 외부화 — 실패 시 새 issue 카드로 승격 → 다른 agent가 claim 가능. error-recovery.md의 4회 로테이션을 multi-agent로 확장. (3) Skill Compounding: 완료된 task solution이 자동으로 "reusable skill"로 카탈로그화 — 우리 execution-path-crystallization.md(GenericAgent 패턴) + agent-skill-extraction.md(hermes)와 정확히 일치, 단 team 단위 누적. 한 agent의 학습이 다른 agent에 즉시 전이. (4) Runtime Auto-Detection: 로컬/클라우드 환경에서 사용 가능한 agent CLI(Claude Code · Codex · Cursor · aider)를 자동 감지 → task 특성에 따라 dispatch. unified-model-gateway.md(new-api)가 프로바이더 레벨 gateway면 multica는 에이전트 런타임 레벨 gateway.auto-issue + bug-fixer 4회 로테이션 + skills/ 누적이 multica의 3-축 구조와 개념적으로 일치하지만 통합되어 있지 않음. Multica 패턴 차용 시: (A) Pull 기반 auto-issue — 현재 push("특정 이슈 라벨이면 실행")에서 pull("주기적으로 board 폴링 + 조건 맞으면 claim")로 전환, Claude schedule 실행이 idle 시 자동 task 선점. (B) Follow-up issue 자동 생성 — bug-fixer 4회 실패 시 "manual review needed" issue를 GitHub에 자동 생성 + human-assignable 라벨, canonical-workflow-fsm.md의 escalation state에서 분기. (C) Team-wide skill compounding — 현재 ~/.claude/skills/가 user scope에 고정되는데, 프로젝트별 skill 저장소(예: .claude/skills/)에 solution이 자동 누적되면 팀원 전체가 공유. (D) Runtime auto-detection — ~/.claude/scripts/detect-agents.sh로 사용 가능한 모델/CLI 감지 → 비용/성능에 따라 dispatch. 단 전체 platform 이식은 무거움 — pull + follow-up + compounding 3개 개념만 차용. 5축: 자동화 2 · 마찰제거 2(재시도 실패 자동 외부화) · HARD전환 1(pull 주기 bash) · 토큰효율 1 · 측정가능 2(skill usage count) → 8/10~/.claude/rules/board-driven-agent-autonomy.md 도입 시 3가지 실효: (1) Pull-Based auto-issue: /loop 5m /auto-issue가 이미 있지만 현재는 "실행되면 특정 이슈 선점", 이를 "폴링하며 조건 맞을 때만 claim"으로 전환 → scripts/issue-claim.sh가 GitHub API로 status:"Ready" assignee:null 이슈를 lock + assign. (2) Follow-up escalation 자동화: bug-fixer 4회 실패 시 gh issue create로 "manual review needed" 이슈 자동 생성 + 실패 컨텍스트 첨부 → 조직 레벨 가시성. (3) Project-scoped skill compounding: 프로젝트별 .claude/skills/compounded/ 디렉토리에 self-improve가 도출한 solution을 markdown으로 저장 + git commit → 다음 세션에 reload, 팀원 공유 자동화scripts/issue-claim.sh(GitHub API pull model) · bug-fixer 실패 시 gh issue create auto-escalation · .claude/skills/compounded/ 프로젝트 scope skill 누적 · scripts/detect-agents.sh runtime auto-detection"Official, Anthropic-managed directory of high quality Claude Code Plugins" (2026-04-22 공개). plugin.json 표준 manifest + .claude-plugin/ 디렉토리 + commands/ agents/ skills/ .mcp.json 표준 구조 + /plugin install {name}@claude-plugins-official CLI + 2-tier governance: /plugins(Anthropic 공식) vs /external_plugins(커뮤니티, 승인 게이트). openai/skills + agentskills.io에 대한 Anthropic 공식 응답.
plugin.json 하나에 commands/agents/skills/MCP 모두 선언 — 우리 agent-manifest-pattern.md(microsoft/apm)의 공식 구현. Anthropic이 plugin 레벨에서 같은 철학 채택. (2) Scoped Registry: @claude-plugins-official 네임스페이스로 공식/비공식 구분 + npm-style semver — openai/skills의 .system/.curated/.experimental 3-tier가 Anthropic 쪽에선 2-tier로 단순화. 우리 ~/.claude/skills/는 tier 구분 없이 flat. (3) CLI-First Distribution: /plugin install + /plugin > Discover UI — 기존 git clone + cp 수동 설치에서 선언적 install로 격상. 우리 cc-sync + cc-apply가 유사 역할이지만 공식 namespace 부재. (4) Standardized Directory Layout: commands/ agents/ skills/ 분리 + .mcp.json MCP 통합 — 우리 ~/.claude/ 구조와 거의 identical but plugin 단위 패키징이 핵심 차이.~/.claude/ 구조(agents/ + skills/ + hooks/ + rules/)가 Anthropic 공식 plugin 포맷과 naming overlap. 즉시 전환 가치: (A) 기존 custom skill을 공식 plugin 포맷으로 재패키징 — 특히 우리가 자체 개발한 team, qa-cycle, loopy-era-trend-harvester를 plugin.json으로 감싸 claude-plugins-community에 제출 가능 (커뮤니티 기여). (B) Plugin vs User-scope 이중화 — 배포용 plugin은 공식 포맷, 실험용은 ~/.claude/skills/experimental/ tier 분리. (C) .mcp.json 표준 준수 — 현재 settings.json의 mcpServers가 플랫폼 종속, plugin 포맷으로 추출 시 이식성 확보. (D) Submission 승인 게이트 — 공식 plugin에 submit하면 Anthropic 리뷰 → community 검증 획득. 단 lock-in 우려: 공식 plugin 포맷은 Anthropic 정책 변경에 취약, 우리 자체 convention(예: .codex-review-passed 파일)은 공식에 없음. Hybrid 전략: 공개 skill은 공식 plugin, 개인 rule/hook은 user-scope 유지. 5축: 자동화 1(install CLI) · 마찰제거 2(공식 유지보수) · HARD전환 1(manifest validation) · 토큰효율 1 · 측정가능 2(plugin version) → 8/10~/.claude/rules/official-plugin-manifest-standard.md 도입 시 3가지 실효: (1) 우리 skill을 plugin 포맷 wrapping: team, qa-cycle, loopy-era-trend-harvester 3개를 plugins/hugh-harness/로 묶고 plugin.json 작성 → /plugin install hugh-harness로 다른 프로젝트에 전파 가능. (2) 2-tier governance 도입: ~/.claude/skills/ 하위를 core/(안정화) + experimental/(신규)로 분할 + settings.json에서 tier별 load 제어. (3) manifest-audit.sh 강화: Anthropic 공식 plugin.json 스키마(JSON Schema 확정되는 대로)에 대해 우리 skill의 frontmatter 호환성 audit 추가. 즉시 PoC 가능: hugh-harness plugin을 github.com/{user}/claude-plugins-hugh로 공개plugins/hugh-harness/plugin.json 포맷 작성(team + qa-cycle + trend-harvester wrapping) · ~/.claude/skills/{core,experimental}/ 2-tier 분할 · manifest-audit.sh에 공식 schema validation 추가 · claude-plugins-community에 제출 PoC"Turns ad hoc prompt tweaks into auditable, reusable evolution assets." Gene Expression Programming 기반. Genes(재사용 evolution 템플릿) + Capsules(compound asset) + EvolutionEvent(감사 기록) + PersonalityState(mutable agent 특성). ./memory/ 스캔으로 failure signal 추출 + signal de-duplication으로 repair loop 방지. 핵심 제약: prompt만 진화, source code 불변.
self-improve가 "fix: 커밋 → rule 추가"지만 Mutation 패턴은 사전에 의도를 선언(무엇을 왜 변경할지 evolve 전에 명시). (2) Scope Narrowing to Prompts: "source 불변, prompt만 진화"를 원칙화 — 우리 self-improve는 rules/ + skills/ + hooks/ + scripts/까지 변경 가능하지만 scope 분리 부재, evolver 패턴은 self-improve의 "prompt-only" mode 분리 가능. (3) Genes + Capsules 재사용: 성공한 evolution은 Gene(재사용 템플릿)으로 저장 + Capsule(compound)로 조합 — execution-path-crystallization.md(GenericAgent)의 evolution 레벨 확장. (4) Signal Dedup: 같은 failure signal에 대해 반복 evolution 시도 차단 — repair loop 방지, auto-block-stuck-tasks.md(flow-next)의 evolution 버전. (5) EvolutionEvent Audit: 모든 진화를 git-tracked ./memory/에 로그 — checkpoint-before-mutation.md(moltis)와 유사하지만 evolution 특화 스키마.self-improve가 강력하지만 의도 선언 + scope 분리 + audit 구조화가 부족. Evolver에서 차용할 요소: (A) Mutation object — self-improve 실행 전 "무엇을 왜 변경할지"를 JSON으로 선언 → ~/.claude/self-improve/mutations/{timestamp}.json에 기록 + 변경 후 diff와 rationale 매칭 검증. (B) Prompt-only mode — /self-improve --scope=prompt 옵션 도입, SKILL.md body / agent prompt / CLAUDE.md만 변경, scripts/hooks는 건드리지 않음 (안전 모드). (C) Signal dedup — 같은 fix 커밋이 2번 이상 self-improve 트리거해도 이미 생성된 rule이 있으면 중복 생성 차단 (이미 일부 semantic-memory-compaction.md에서 커버). (D) Gene library — 자주 쓰이는 rule 패턴(예: "NEVER DO X" / "PATTERN Y") 템플릿을 ~/.claude/rules/genes/에 저장 + self-improve가 참조. 단 GEP 알고리즘 자체는 우리 선형 evolution과 달라 overkill — 개념만 차용. 5축: 자동화 1 · 마찰제거 2(repair loop 방지) · HARD전환 1 · 토큰효율 1 · 측정가능 2(evolution event count) → 7/10--scope=prompt 옵션(SKILL.md/CLAUDE.md만 변경, 안전 모드) · ~/.claude/self-improve/mutations/ Mutation object 로깅 · ~/.claude/rules/genes/ rule 템플릿 라이브러리 · signal dedup 강화(동일 fix 중복 rule 차단)skills/ 시스템, code-reviewer + codex:review 이중 패턴, auto-issue + team-orchestrator 워크플로우가 각각 openai/skills(⭐17K), openai/codex-plugin-cc(⭐15K), openai/symphony(⭐15K)로 공식 표준이 됨. (1) Work-over-Agent-Management 축: openai/symphony는 "harness engineering의 다음 단계 — 코딩 에이전트를 감독하는 대신 해결해야 할 work를 관리"라는 선언 + Linear 보드를 트리거로 agent 자동 spawn + proof-of-work(CI status · PR review · 복잡도 분석 · 워크스루 영상) 4종 evidence 요구 + 수락 시 PR 안전 착륙. 우리 auto-issue가 이슈 라벨 기반 spawn까지는 구현했지만 proof-of-work evidence를 multi-artifact로 요구하는 gate는 미구현. (2) LLM Evals as CI Gate 축: promptfoo/promptfoo(⭐20K, OpenAI 인수됨)가 prompt/모델 평가 + red-teaming 취약점 스캐너 + PR 리뷰 code scanning을 CLI+CI/CD로 통합 — 우리 qa-cycle은 "빌드/타입체크/브라우저 테스트" 레이어는 있지만 프롬프트 자체의 regression 테스트(매 모델 변경 시 이전 프롬프트가 동일 품질 유지하는가)는 부재. (3) Agent Skills Standard 축: openai/skills(⭐17K)가 Anthropic Agent Skills 포맷(SKILL.md + YAML frontmatter + 폴더 구조)을 그대로 채택 + $skill-installer 이름 기반 declarative install + .system(자동) · .curated(이름) · .experimental(경로) 3단 tier — 우리 ~/.claude/skills/가 이미 이 포맷이지만 tier 구분(always-on vs opt-in vs experimental)과 마켓플레이스에서 이름 install은 마찰 있음. 세 축 모두 loopy-era 5축의 "측정 가능"(proof-of-work + eval gate)과 "HARD 전환 가능"(CI exit code + skill tier 필터)에 직결."Turns project work into isolated, autonomous implementation runs, allowing teams to manage work instead of supervising coding agents." OpenAI 공식. Linear 보드에서 태스크를 감지 → agent spawn → 4종 proof-of-work(CI status · PR review feedback · 복잡도 분석 · 워크스루 영상) 제출 → 승인 시 PR 안전 착륙. Elixir reference 구현 + 언어 선택 가능한 spec-driven 재구현 지원. "harness engineering의 다음 단계"를 공식 선언.
auto-issue가 라벨 기반 pull은 구현했지만 Linear/Board integration은 미구현. (2) Proof-of-Work Evidence Bundle: PR merge 전 agent가 제출해야 할 artifact가 복수 — 단일 CI 통과로 충분하지 않고 CI + PR 리뷰 코멘트 응답 + 복잡도 변화 리포트 + 영상 워크스루 4종 필수. 우리 qa-cycle은 .qa-cycle-passed 파일 하나로 통합되어 있어 evidence layer 분해 부재. (3) Spec-Driven Reimplementation: symphony 자체가 "Tell your favorite coding agent to build Symphony according to SPEC.md" — 구현이 언어/런타임에 고정되지 않고 선언적 SPEC이 진실의 원천, Claude Code/Codex가 각자 자기 언어로 재구현 가능. (4) Engineering Preview with Trust Boundary: "low-key engineering preview for testing in trusted environments" — 새 패턴을 production 적용 전 trusted 범위에서만 운영하는 단계적 승격 전략, 우리 Phase 3.5 autoresearch keep/discard와 유사하지만 조직 레벨에 적용auto-issue가 이슈 처리까지는 구현했지만 proof-of-work 개념이 빠져 있음. 현재는 "build 성공 + qa-cycle PASS → git push" 단일 gate, Symphony 패턴 적용 시 PR 생성 전 multi-artifact evidence bundle(1. CI status 2. 자동 code review 응답 3. complexity-delta.json 4. flow-recording.webm)을 요구할 수 있음. 특히 복잡도 분석이 즉시 HARD 전환 가능: radon cc/scc/tokei로 변경 전후 cyclomatic complexity 측정 → 임계값 초과 시 exit 2로 push 차단 → error-recovery.md의 4회 로테이션에 "과도한 복잡화" 감지 시 reset 전략 추가. Work Board Integration도 전환 가치: 현재 bug-fixer 4회 재시도 중 "진짜 해결 불가 시 에스컬레이션"이 자연어 프롬프트 판단인데, 실패한 태스크를 자동으로 Linear board에 "manual review needed" 카드로 승격하면 조직 레벨 관리 가능. Spec-Driven 재구현은 우리 team-orchestrator에도 적용 — Phase 명세를 SPEC.md로 분리 + 각 specialist가 자기 언어로 implement. 5축: 자동화 2 · 마찰제거 2(evidence bundle로 false PASS 차단) · HARD전환 2(complexity threshold + CI exit) · 토큰효율 1 · 측정가능 2(proof-of-work 정량화) → 9/10~/.claude/rules/work-over-agent-management.md 도입 시 3가지 실효: (1) auto-issue에 proof-of-work gate 추가: .qa-cycle-passed 외에 .complexity-delta.json(cyclomatic 증가율) + .flow-recording/(agent-browser 스크린샷 시퀀스) + .review-response.md(Codex 리뷰 응답 요약) 3종 evidence 필수, qa-gate-before-push.sh가 4종 파일 존재 + 최근성 검증. (2) Linear/GitHub Projects webhook 연동 PoC: 이슈 상태 "In Progress" 이동 시 자동 agent spawn, "Done" 이동 시 PR merge 트리거 — 사용자는 카드만 끌면 됨. (3) complexity-delta 자동 측정: scripts/complexity-check.sh로 PR 전후 complexity 계산 → 30% 초과 증가 시 WARNING, 100% 초과 시 BLOCK + refactoring 태스크 자동 생성. 특히 team-orchestrator의 Phase 3 구현이 specialist 4명 동시 병렬일 때 전체 복잡도 누적 초과를 단일 게이트로 감지 가능scripts/complexity-check.sh(radon/scc 기반 delta 측정) · qa-gate에 proof-of-work 4종 evidence 요구 · Linear/GitHub Projects webhook PoC · auto-issue 실패 시 "manual review needed" 카드 자동 승격"CLI and library for evaluating and red-teaming LLM apps." 2026년 OpenAI 인수, MIT 유지. evals(prompt/model/provider 비교 매트릭스) + red teaming(취약점 스캐너) + CI/CD 통합(PR 리뷰 code scanning). 100% local 실행(프롬프트 외부 유출 없음) + any provider/language + metric-driven 의사결정 + live reload 캐싱. 10M+ user production 사용.
cross-model-adversarial-review.md가 개념은 있지만 실제 매트릭스 생성 + 품질 지표 비교 자동화는 promptfoo 수준 아님. (4) PR Code Scanning Mode: 일반 LLM eval을 넘어 PR diff 자체를 보안/LLM-compliance 관점에서 스캔 — 우리 code-reviewer가 코드 품질은 보지만 "prompt injection 가능성"같은 LLM 특화 리뷰는 부재qa-cycle이 "빌드 + 타입체크 + 브라우저 테스트 + API 응답" 레이어는 커버하지만 LLM 응답 품질의 regression은 완전 부재. 최근 cycle 43에서 specialist 프롬프트 변경(guardrails 추가 검토)을 했을 때, 프롬프트 수정으로 기존 작동 태스크가 망가지는지 확인할 방법 없음. promptfoo 도입 시 ~/.claude/eval-suite/에 대표 태스크 10~20개 + 기대 output pattern 고정 → 모든 프롬프트 변경이 이 suite를 실행 → accuracy 하락 시 exit 2로 commit 차단. Red team mode도 즉시 가치: 우리 agent 프롬프트가 prompt injection/jailbreak에 얼마나 취약한지 체계적 측정 없음, 특히 web-qa-tester가 사용자 입력을 받는 경우 inject 공격 가능성. promptfoo의 local-only 실행이 핵심 — OpenAI 인수됐지만 프롬프트 원본은 user machine을 떠나지 않음, 프로젝트 내부 프롬프트도 테스트 가능. 단 러닝 코스트(매 커밋마다 20 eval 실행 = 비용)는 우려 — "프롬프트 파일 수정 시에만" 실행하는 hook 조건부 트리거 권장. 5축: 자동화 2 · 마찰제거 2(prompt regression 방지) · HARD전환 2(eval exit code) · 토큰효율 1 · 측정가능 1 → 8/10~/.claude/rules/llm-eval-as-ci-gate.md 도입 시 3가지 실효: (1) 프롬프트 regression suite: ~/.claude/eval-suite/agents/{agent}.yaml에 대표 10개 태스크 + 기대 output 패턴 고정 → scripts/run-prompt-eval.sh가 특정 agent 프롬프트 수정 시에만 해당 suite 실행 → 정확도 -5% 이상 하락 시 exit 2로 Edit 차단. (2) Red team gate: ~/.claude/eval-suite/redteam/{agent}.yaml에 jailbreak · PII leak · command injection 시나리오 고정 → 방어 실패율 > 20% 시 BLOCK. (3) Cross-model matrix 자동화: cycle 43의 Claude+GPT 이중 리뷰를 실제로 동일 input에 Sonnet/Opus/GPT-5.4/Gemini-2.5 응답을 비교 테이블로 자동 생성, two-stage-review-gate.md의 Stage 1(spec compliance)을 multi-model consensus로 강화. 매 커밋이 아니라 agent 프롬프트 파일 수정 시에만 트리거하여 비용 통제~/.claude/eval-suite/ 구조 도입(agents/ + redteam/) · scripts/run-prompt-eval.sh(promptfoo wrapper + 조건부 트리거) · PostToolUse hook에 agent .md 수정 감지 + eval 실행 · multi-model 응답 비교 테이블을 memory-bank에 trace로 저장"Use Codex from inside Claude Code for code reviews or to delegate tasks to Codex." OpenAI 공식 Claude Code plugin. /codex:review(read-only 리뷰) + /codex:adversarial-review(challenge review, steerable) + /codex:rescue(작업 위임) + /codex:status//codex:result//codex:cancel(background job 관리). --base/--wait/--background flag 지원. ChatGPT 구독 or OpenAI API key로 인증.
cross-model-adversarial-review.md로 자체 구축했던 패턴이 공식 인프라가 됨. (2) Command Namespace 컨벤션: /codex:{action} 네임스페이싱으로 plugin 구분 + sub-command notation이 우리가 구축한 /codex:review//codex:rescue와 거의 identical. 우리가 수 개월 앞서 같은 명명 규칙 도출. (3) Background Job 관리 3종 세트: status/result/cancel이 별도 명령으로 분리 — background 실행 + polling + 취소 플로우 명시화. 우리도 run_in_background:true는 있지만 status/cancel 전용 명령은 없음. (4) Steerable vs Non-Steerable 구분: /codex:review는 범용 리뷰, /codex:adversarial-review는 challenge 전용 + 자유 텍스트 focus 허용 — "리뷰"를 2가지 목적(검증 vs 압박 테스트)으로 분해/codex:adversarial-review가 .codex-review-output/.codex-review-passed 파일 생성하는 우리 convention)이 공식 plugin에선 없음 (c) 인증이 ChatGPT 구독 또는 API key 단위, 우리는 무료 배포 방식도 지원 필요. Hybrid 전략 권장: 공식 plugin을 기본값으로 설치 + 우리 custom command는 /codex-custom:* 네임스페이스로 co-exist. 우리 convention 유지 vs 공식 표준 채택은 질문 1회 승인 수준 의사결정 — 성급하게 migration 금지. 5축: 자동화 1 · 마찰제거 2(공식 유지보수) · HARD전환 1 · 토큰효율 1 · 측정가능 2(표준 표기법) → 7/10/codex:* 공식 + /codex-custom:* 자체) · .codex-review-passed 같은 우리 convention이 공식에 없음을 검증 후 wrapper 고려"Agent Skills are folders of instructions, scripts, and resources that AI agents can discover and use." OpenAI 공식 Codex용 Skills catalog. Anthropic Agent Skills 포맷(SKILL.md + frontmatter + 폴더 구조) 그대로 채택. 3-tier 설치 체계: .system(자동 설치) · .curated(이름 기반 $skill-installer gh-address-comments) · .experimental(경로 지정). agentskills.io로 open standard 제시.
agent-skills-format.md rule에서 "플랫폼 중립 포맷"을 예상했는데 공식 standardization이 1년 내 달성. (2) 3-Tier Installation Model: .system(OS 기본 앱처럼 항상) / .curated(안정화된 public catalog) / .experimental(PoC/beta) — 우리 ~/.claude/skills/는 단일 flat tier, 안정화/실험 구분 없이 모두 활성. (3) Name-Based Install: $skill-installer gh-address-comments처럼 이름만으로 설치 → 경로/URL 암기 불필요 + 중앙 registry가 URL resolve. 우리는 /cc-apply가 프로젝트→user scope 복사만 지원, 이름 기반 리모트 install 부재. (4) Open Standard with Reference Implementation: agentskills.io는 spec + openai/skills는 OpenAI implementation + anthropics/skills는 Anthropic implementation — 같은 spec을 여러 vendor가 구현하는 패턴~/.claude/skills/ 시스템이 industry standard에 합류했다는 convergence validation. 즉시 차용 가치: 3-tier model을 우리 skills에 도입 — 현재 87개 skill이 모두 활성이라 토큰 부담 큼, always-on/(CLAUDE.md에서 항상 load) · curated/(필요 시 /skill로 호출) · experimental/(명시적 --enable 시만) 3분할 시 토큰 효율 개선. Name-Based Install도 전환 가치: 현재 cc-apply가 "프로젝트→user 복사"인데 openai/skills 패턴이면 /cc-apply install impeccable:animate 식으로 원격 registry에서 직접 fetch 가능. 단 registry 인프라 구축 비용 → 당장은 로컬 git 기반 mirror만. agentskills.io spec 준수 확인도 필요: 우리 skill들의 frontmatter가 공식 spec과 어긋나는 필드 있는지 audit → manifest-audit.sh에 spec 검증 추가. 5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 2(tier 분할) · 측정가능 2 → 7/10~/.claude/skills/ 구조 재편(always-on/ curated/ experimental/ 3-tier) · manifest-audit.sh에 agentskills.io spec 검증 추가 · /cc-apply install {name} 이름 기반 install PoC(로컬 git mirror 우선)시스템 프롬프트 + skill 파일 + hook 스크립트라는 파편화된 구성을 3가지 축으로 재구조화하는 흐름이 동시 관찰됨. (1) Memory-as-Graph 축: topoteretes/cognee(16.6K⭐)가 Remember / Recall / Forget / Improve 4-primitive로 agent memory를 동사화 + 세션 캐시와 persistent knowledge graph를 hybrid로 합성, raphaelmansuy/edgequake(1.9K⭐)가 LightRAG 알고리즘으로 entity 정규화(36-40% dedup 개선) + 6가지 query mode(Naive/Local/Global/Hybrid/Mix/Bypass) + 선택적 "gleaning" iterative pass로 retrieval quality gate화 — 우리 memory-bank의 FTS5 text 검색을 넘어 entity-centric + relationship-aware 구조로 진화 방향 제시. (2) Composition-as-Dataflow 축: dora-rs/dora(3.7K⭐, Rust)가 agent 조율을 YAML 선언적 dataflow graph로 전환 — typed I/O(Apache Arrow) + per-node restart 정책 + Service/Action/Streaming 3 메시지 패턴 + record/replay로 재현 가능 평가 — team-orchestrator의 Phase 3 병렬 specialist 위임을 "dataflow node"로 재정의 가능. (3) Composable Agent Primitives 축: openai/openai-agents-python(24K⭐, 공식)이 agent를 instructions + tools + guardrails + handoffs 4-primitive 조합으로 명시 + 내장 tracing + session + sandboxing + human-in-loop validation gate — 우리 Agent() 호출이 subagent_type + prompt + tools + isolation으로 이미 조합적이지만 guardrail(정적 정책)과 handoff(동적 위임)의 명시적 분리는 없음. 세 축 모두 loopy-era 5축의 "HARD 전환 가능"(typed I/O + guardrail exit + restart policy)과 "측정 가능"(tracing + record/replay + query mode 성능 비교)에 직결."Middleware for event-driven dataflow AI pipelines." 100% Rust + Zenoh zero-copy messaging 기반. YAML 한 파일에 선언: 노드, typed I/O(Apache Arrow columnar), 메시지 패턴(Service req/reply · Action goal/feedback/result · Streaming), per-node restart policy, 동적 topology(runtime add/remove). record/replay + OpenTelemetry 분산 tracing + SSH cluster scheduling 내장. subgraphs as modules로 composable.
dataflow.yml에 명시 — state-driven-orchestration.md의 "LLM이 조율하지 말고 파일로 결정" 원칙의 실제 구현. "Coordination is a file problem, not a code problem"을 typed schema로 강제. (2) 3가지 메시지 패턴 분리: Service(동기 req/reply, 즉시 응답) · Action(goal/feedback/result 3단, 장시간 태스크) · Streaming(연속 데이터) — 우리 team-orchestrator는 모든 specialist 위임을 "Task 도구 한 방식"으로 처리하지만 실제로는 3가지 성격이 섞여 있음 (단발 버그 수정 = Service, long-running build = Action, continuous log monitoring = Streaming). (3) Per-Node Restart Policy: 각 노드마다 on_failure(restart · abort · ignore) 지정 — bug-fixer 4회 로테이션이 에이전트 전체 레벨에서만 동작하지만 dora 패턴은 specialist-local 재시도 정책을 선언적으로 분리. (4) Record/Replay 재현성: 실행 중 모든 메시지를 capture → 동일 입력으로 재실행 — deterministic-orchestrator-scheduling.md의 재현성 요구를 tracing 레벨에서 달성, QA 실패 디버그 시 "그때 정확히 뭐가 일어났나" 재생 가능canonical-workflow-fsm.md(spec-kitty 7-state FSM + lane)는 태스크 레벨 조율이지만 specialist 내부의 I/O 흐름은 여전히 프롬프트 자연어. dora 패턴을 차용하면 ~/.claude/workflows/team.yml같은 파일에 "frontend-specialist는 Service 메시지로 receive task → 파일 diff emit · backend-specialist는 Action으로 장시간 빌드 실행 → feedback stream + 최종 result"를 선언, 오케스트레이터는 YAML 파싱만으로 조율. 특히 per-node restart policy가 즉시 HARD 전환 가능: 현재 bug-fixer 4회 로테이션은 오케스트레이터 판단인데, 각 specialist 프롬프트 frontmatter에 on_failure: {max_retries: 4, strategies: [direct, structural, codex-rescue, reset]} 명시 시 재시도 결정이 bash 파싱 + case문으로 완전 결정론화. record/replay는 우리 memory-bank를 "결과 저장"에서 "재생 가능 trace"로 격상 — QA 실패 재현에서 "이 세션에서 specialist가 어떤 입력을 받고 어떤 출력을 냈나" 전체 복원. Rust 의존성 마찰은 있지만 YAML 스키마만 차용하면 bash/jq 조합으로 흉내 가능. 5축: 자동화 2 · 마찰제거 2(재시도 정책 구조화) · HARD전환 2(YAML 파싱 + exit code) · 토큰효율 1 · 측정가능 2(replay) → 9/10~/.claude/rules/declarative-dataflow-orchestration.md 도입 시 3가지 실제 효과: (1) team-orchestrator YAML 스키마화로 Phase 3 specialist 위임이 workflows/fullstack.yml 한 파일에 선언 → orchestrator는 yq/jq로 파싱 후 Task 호출, 오케스트레이션 로직 자체의 재현성 획득. (2) specialist frontmatter에 restart policy 선언: 각 agent .md에 on_failure 필드 추가 + scripts/retry-from-frontmatter.sh가 exit code를 그대로 restart 결정에 사용 → error-recovery.md의 4회 로테이션이 bash 레벨 HARD. (3) Message pattern 태깅: Service/Action/Streaming 3가지를 specialist별로 명시 → 단발 작업(Service)은 background:false, 장시간(Action)은 run_in_background:true 자동 선택. 즉시 PoC 가능: 기존 team-orchestrator prompt 중 4개 phase를 dataflow.yml 변환 + YAML-driven 테스트~/.claude/workflows/team.yml 스키마 정의(specialist / message_pattern / restart_policy / typed_io) · specialist frontmatter에 on_failure 필드 확장 · scripts/yaml-driven-orchestrator.sh PoC(yq 기반 Phase 3 실행) · record/replay를 memory-bank에 trace 필드로 통합"Lightweight, powerful framework for multi-agent workflows." OpenAI 공식. agent를 4가지 primitive 조합으로 명시: (1) instructions (시스템 프롬프트), (2) tools (사용 가능 도구), (3) guardrails (입출력 validation 정책), (4) handoffs (다른 agent로 위임). 내장 session 관리 + 분산 tracing + filesystem sandboxing + human-in-loop validation gate. 100+ LLM 프로바이더 지원(OpenAI 외).
input_guardrails와 output_guardrails를 명시 — 각 guardrail은 정적 Python 함수로 LLM 호출 전후에 실행, 실패 시 에이전트 종료 또는 대체 응답. 우리 code-quality-check.sh/no-localstorage.sh 같은 hook은 Edit/Write 이벤트에 연결된 블랙리스트지만, guardrail은 agent 호출 자체의 pre/post 조건으로 승격. (2) Explicit Handoff: agent A가 agent B로 "이 태스크를 넘김"을 코드로 선언, context와 history가 자동 이전 — 우리 team-orchestrator의 Phase 간 이동이 암묵적이지만 handoff 패턴은 누가 누구에게 언제 무엇을 넘겼는가를 trace로 기록 가능. (3) Tracing as Observability: agent 실행의 모든 LLM 호출 / tool 호출 / handoff를 trace ID로 묶어 저장 — 우리 memory-bank는 대화 기록이지만 trace는 실행 trace(인과관계 그래프). (4) Sandbox + Session Management: filesystem sandbox로 agent의 파일 접근 범위 제한 + session으로 다중 턴 conversation 자동 관리guardrails: [check_no_credentials_in_prompt, check_task_scope_defined]선언 → scripts/agent-guardrail.sh가 Task 호출 전 validation → 실패 시 exit 2로 호출 자체 차단. Handoff 명시화도 즉시 가치: 현재 bug-fixer → codex:rescue 이전 시 context 누락 흔함, handoff 패턴은 이전 시 state를 파일로 명시 전달. Tracing은 우리 action-log.sh + memory-bank와 유사하지만 인과관계 그래프(이 호출 → 이 handoff → 이 tool)는 부재, openai-agents의 trace 스키마 참조 가능. 단 전체 framework 이식은 Python 런타임 요구 + 우리 Claude Code 네이티브 패턴과 중복 — primitive 개념만 차용. 5축: 자동화 2 · 마찰제거 2(guardrail로 잘못된 호출 차단) · HARD전환 1(guardrail bash 구현) · 토큰효율 1 · 측정가능 2(trace) → 8/10~/.claude/rules/composable-agent-primitives.md 도입 시 specialist agent 정의가 4-field 표준화: instructions(기존 SKILL.md body) + tools(tools frontmatter) + guardrails(신규, pre/post bash 체크 리스트) + handoffs(신규, 명시적 다음 agent 리스트). 예: bug-fixer에 guardrails: [ensure_error_message_provided, check_not_in_loop] 선언 → Task 호출 전 hook이 prompt 내용 검증 → "에러 메시지 없이 호출" 같은 오용을 즉시 차단. Handoff chain 시각화: action-log.sh에 handoff_from/handoff_to 필드 추가 → scripts/trace-visualizer.sh가 "bug-fixer → codex:rescue → bug-fixer" 같은 반복 루프를 ascii graph로 출력, STUCK 패턴 시각적 감지. Python framework 전체 이식 없이도 primitive 개념만 50 LOC bash로 흉내 가능guardrails/handoffs 필드 표준화 · scripts/agent-guardrail.sh PoC(Task 호출 전 validation) · action-log.sh에 handoff_from/handoff_to trace 필드 · STUCK 패턴 감지 trace-visualizer"Knowledge Engine for AI Agent Memory in 6 lines of code." agent memory를 4가지 verb primitive로 명시화: Remember(ingest + 자동 entity extraction) · Recall(relationship-aware query + 자동 mode 선택) · Forget(lifecycle management, GDPR 대응) · Improve(feedback loop로 memory 품질 refinement). hybrid storage: 세션 캐시(vector) + persistent knowledge graph. multi-modal ingestion + 자동 query routing.
agent-memory-hygiene.md 3개월 TTL 규칙은 있지만 실제 삭제 인프라 부재. (5) Improve Loop: 저장된 memory의 품질을 feedback으로 지속 refinement — self-improve와 다름(self-improve는 rule 추가, Improve는 기존 memory의 accuracy 교정)claude-mem + memory-bank는 현재 "세션 기록 + 텍스트 검색"에 머물러 있고, cognee의 4-verb 모델은 memory 레이어를 체계화하는 개념 프레임. 특히 Forget operation이 즉시 필요: 3개월 TTL 규칙은 있지만 실제 삭제 스크립트 없어 DB 누적 중 — cognee의 "Forget primitive를 api로 승격" 패턴을 scripts/memory-forget.sh로 구현 + TTL-expired 항목 주기 삭제. Improve primitive는 우리 self-improve의 누락 동사 — rule 추가는 하지만 memory 자체의 "틀린 기억 교정"은 없음, 예: bug-fixer가 과거에 잘못된 fix로 마무리된 기록이 memory에 남아 다음 세션에서 동일 오답 유도. "feedback-driven memory refinement"을 memory-bank에 추가 시 오답 기록 감점 → 점차 회피. 단 직접 adoption은 부담: graph DB(Neo4j/Kuzu) 의존성, 4-verb API 재작성 — 초기에는 개념적 차용으로 참조 rule 수립. 5축: 자동화 1 · 마찰제거 2(forget 부재 해결) · HARD전환 1 · 토큰효율 1(session cache 도입 시) · 측정가능 2 → 7/10scripts/memory-forget.sh + TTL 크론) · Improve primitive 실험(self-improve에 memory accuracy feedback loop 추가) · graph-backed memory PoC(SQLite → Kuzu 마이그레이션 검토)"High-performance GraphRAG for converting documents into knowledge graphs." Rust + PostgreSQL + Apache AGE + pgvector. LightRAG 알고리즘: (1) LLM 기반 entity/relationship 추출 during indexing, (2) entity normalization으로 36-40% dedup 개선, (3) 6가지 query mode(Naive / Local / Global / Hybrid / Mix / Bypass) 명시적 선택, (4) 선택적 "gleaning" iterative pass로 recall 보강. <200ms hybrid query latency.
~/.claude/scripts/memory-search.sh에 --mode=local|global|hybrid 인자로 추가 가능 — "이 프로젝트 내 검색"(local) vs "전체 프로젝트 검색"(global)을 호출자가 명시. Gleaning Pass는 trend-harvester 자체에 적용 가능: 1회 스캔에서 놓친 후보를 다음 iteration에서 "같은 repo 재분석" — 현재는 seen index가 "본 적 있음=skip"으로 일률 처리, gleaning 도입 시 "다시 보되 관점 바꿔" 가능. 단 graph DB 도입은 cognee와 마찬가지로 인프라 부담 — 개념적 차용만. 5축: 자동화 1 · 마찰제거 2(entity normalization dedup) · HARD전환 1 · 토큰효율 1 · 측정가능 2(6-mode 성능 비교) → 7/10scripts/memory-search.sh에 --mode 인자 도입(local/global/hybrid) · trend-harvester의 seen index에 "gleaning eligible after N weeks" 플래그 추가agent/agent.py를 직접 수정하여 benchmark 평가 → selection → propagate 순환 — 둘 다 우리 autoresearch의 keep/discard를 "코드 변경 자체의 대상"으로 확장. (2) Cross-Harness Performance Optimization 축: affaan-m/everything-claude-code(162K⭐)가 48 agents + 183 skills + 20 hooks + 14 MCP를 Claude Code/Cursor/Codex/OpenCode 단일 AGENTS.md로 통합 + /harness-audit 내장 진단 + compact@50%/Sonnet default로 60% 비용 절감, alinaqi/claude-bootstrap은 Mnemos typed memory(preservation priority: goals never evict / constraints never evict / working state compresses first) + fatigue-driven checkpoint(40/60/75/83% 4-dim 모니터링) — 우리 claude-mem과 context-window-management 스킬의 진화 방향. (3) Hardware-Level Sandbox 축: superradcompany/microsandbox(Rust + libkrun)가 <100ms boot microVM으로 Docker와 VM 사이를 채움 — "unexploitable secrets" + "hardware isolation"으로 우리 정적 permissions와 permission-mode-safety-tiers의 상위 게이트. 세 축 모두 loopy-era 5축의 "측정 가능"(benchmark reward)과 "HARD 전환 가능"(3-gate / fatigue threshold / process 경계)에 직결, 특히 auto-harness의 "passing tasks auto-join regression suite"는 우리 qa-evidence-format과 two-stage-review-gate의 생산-소비자 통합 패턴에 대한 외부 독립 수렴."Self-improving agentic system with automatic failure mining and optimization." 에이전트가 직접 agent/agent.py를 편집하되 3개의 순차 게이트로만 통과: (1) regression suite ≥80%, (2) full test score가 best prior 이상, (3) passing tasks가 regression suite에 자동 편입. workspace/learnings.md 영속 로그 + results.tsv에 이터레이션 기록. Tau3에서 0.56 → 0.78(+40%) 자율 달성. benchmark-agnostic(BenchmarkRunner subclass).
benchmark → analyze failures → improve agent → gate → record → update learnings → repeat, 각 단계 결정론. Human-steered는 PROGRAM.md로 명시, iteration 자체는 자율. (2) 3-Tier Gate 순차 검증: 첫 게이트(regression ≥80%)가 "기존 성공을 깨뜨리지 않았나" 보장, 두 번째(score non-regression)가 "순 개선 여부" 보장, 세 번째(passing tasks auto-join regression)가 "새 성공 사례를 미래 회귀 방지 assets로 결정화" — autoresearch keep/discard + qa-cycle regression + execution-path-crystallization 3-in-1. (3) Anti-Cheating 안전장치: test traces 저장 금지, agent는 training traces만 접근 — 자가평가 루프에서 "테스트 결과를 미리 본 뒤 맞추기" cheating 구조적 차단. (4) Benchmark-Agnostic 추상화: tau-bench(278 tasks) + terminal-bench(89 tasks Docker) + custom benchmark (per-task reward 0.0-1.0만 반환하면 OK) — "harness는 benchmark 독립"이라는 철학. Sandboxes: e2b/daytona/docker 선택autoresearch 스킬(38차 babysitter 참조)은 keep/discard를 실행 시점에만 판정 — "개선이 regression을 유발했는지"는 별도 검증. auto-harness의 3-Tier Gate는 이 공백을 메운다: ⓐ regression_pass_rate ≥ 0.80를 bash exit code로 HARD 전환 가능, ⓑ current_score ≥ best_prior_score 비교 역시 bash 산술만으로 결정론, ⓒ passing_tasks가 다음 iteration의 regression suite에 자동 편입되는 것은 workspace/suite.json 머지 — 파일 기반 상태 조율로 state-driven-orchestration.md와 정합. 구체적 통합 방안: ~/.claude/rules/benchmark-gated-self-improvement.md 도입 + scripts/autoresearch-gate.sh가 self-improve 완료 시점에 .qa-cycle-passed의 CRITICAL/HIGH/MEDIUM/LOW 수치를 이전 값과 비교 → regression 시 즉시 stash revert. 특히 passing tasks auto-join regression은 우리에게 없는 패턴 — 성공 TC를 매번 새로 작성하는 대신, QA 통과한 TC를 qa-test-plan.md에 자동 승격시키는 인프라로 발전 가능. Anti-cheating 안전장치도 직접 필요: 현재 bug-fixer가 테스트 파일을 읽고 "테스트를 통과시키도록 코드를 수정"하는 패턴 발생 가능성, test traces 접근 차단은 root cause 수정 강제. 5축: 자동화 2 · 마찰제거 2(regression 구조적 방지) · HARD전환 2(3-gate exit code) · 토큰효율 2(training traces만) · 측정가능 1 → 9/10~/.claude/scripts/three-gate-regression.sh 도입 시 self-improve가 rule 추가 후 (1) 전체 qa-cycle 재실행하여 regression 확인, (2) 직전 iteration의 CRITICAL/HIGH 수와 비교, (3) 새로 통과한 TC를 docs/qa-test-plan.md에 자동 승격 — 3 단계 exit code 조합이 최종 stash pop/revert 결정. 지금은 self-improve가 "rule 추가" 단일 action으로 종료되고 회귀는 별도 세션에서 발견되는데, 3-gate 도입 시 회귀 발견-수정 loop가 단일 커밋 경계 내에서 수렴. learnings.md 영속 로그는 우리 memory-bank와 대응하지만 "이 iteration에서 무엇이 실패했는지"만 집중한 narrow log — 우리가 memory-bank에 모든 대화를 저장하는 것과 대비되는 lean 접근. 두 가지 공존 가능: memory-bank(general) + learnings.md(iteration-scoped)~/.claude/scripts/three-gate-regression.sh PoC(.qa-cycle-passed 수치 diff + exit code) · passing TC의 docs/qa-test-plan.md 자동 승격 메커니즘 · anti-cheating 규칙(test traces 접근 차단) · iteration-scoped learnings.md vs general memory-bank 역할 분리"Self-referential self-improving agents that can optimize for any computable task." Meta 공식 연구 (arXiv 2603.19461). Task Agents(도메인 문제 해결) + Meta Agents(Task Agents 코드 수정) + Selection Mechanism(성과 기반 parent 선정)의 3계층 구조. generate_loop.py가 iteration 조율, OpenAI/Anthropic/Gemini foundation model이 "untrusted code modifications" 생성, 샌드박스 실행 + benchmark 평가 → select_next_parent.py가 상위 성과 agent를 next iteration의 parent로 선정. ensemble.py로 multi-agent 조합.
llm-council-pattern.md의 chairman 합의와 대비되는 "implicit diversity via ensemble"recursive-self-improvement-loop.md(autocontext 4단계)와 execution-path-crystallization.md(GenericAgent L0/L2/L3 memory)는 "성공 패턴을 SOP로 결정화"를 제시하지만 "에이전트 코드 자체의 구조적 변경"은 부재. HyperAgents는 이 공백을 채우는 Meta Agent 개념을 제안 — 우리 specialist agent(frontend-specialist/backend-specialist 등)의 system prompt나 tool 목록을 다른 에이전트가 성과 분석 후 제안하여 변경하는 meta-loop. 예: code-reviewer가 매 PR에서 반복 발견하는 이슈(예: "backend-specialist가 항상 RLS 정책 까먹음") → Meta Agent가 backend-specialist의 rule 파일에 RLS 체크리스트 자동 추가 → parent selection은 PR 성공률 기준. 단 직접 adoption은 고위험: untrusted code modifications는 샌드박스 필수이고, meta-loop가 무한 재귀로 발산할 위험. 참조 가치는 "meta-loop의 fitness function을 명시하라"에 있음 — 우리 harness-report 점수가 이미 fitness function이므로 적절한 샌드박스(microsandbox, worktree 격리)와 결합 시 실험 가능. 5축: 자동화 2 · 마찰제거 1(code 자체 수정이라 고위험) · HARD전환 1 · 토큰효율 1 · 측정가능 2(benchmark 기반 selection) → 7/10 + Meta 공식 연구 신뢰 + 개념적 전환성 보정 → 8/10~/.claude/rules/meta-loop-agent-evolution.md(참조/실험 대상) 도입 시 specialist agent의 system prompt 자체를 iteration 대상으로 격상 — 기존에는 사람이 prompt를 수정했지만, Meta Agent가 최근 N회 실패/성공 패턴 분석 후 자동 제안 + harness-report fitness 상승 확인 시에만 commit. HyperAgents의 "ensemble 조합"은 우리 llm-council-pattern의 대안 — Claude/GPT/Gemini 3 모델 동시 호출 후 Chairman 합의 대신 implicit ensemble voting. 직접 도입 위험성 때문에 초기에는 읽기 전용 제안 모드(자동 적용 X, 텔레그램 approve 필수)로 시작 권장"The agent harness performance optimization system for AI agent harnesses." 162K⭐ 단일 레포에 48 agents + 183 skills + 79 commands + 34 rules + 20+ hooks + 14 MCP servers 통합. Claude Code/Cursor/Codex/OpenCode 4개 플랫폼을 단일 AGENTS.md로 지원 + DRY hook adapter. /harness-audit 내장 진단 커맨드로 "configuration quality"를 task success와 독립적으로 측정. 토큰 최적화 기본값: Sonnet over Opus, extended thinking cap 10K, compact@50%(95% 아닌).
/harness-audit가 agent reliability/eval readiness/security posture를 task와 독립적으로 측정 — 우리 harness-report 스킬의 외부 검증된 구현. (5) Language Isolation: common/(universal) + typescript/python/go/swift/php/(per-language) — 스택에 필요한 것만 설치. No Hooks in plugin.json 하드 교훈: "Claude Code v2.1+ automatically loads hooks/hooks.json from installed plugins" — 명시 선언 시 duplicate detection 에러 → 이는 우리도 이미 마찰했을 가능성. AgentShield 통합(1282 tests + 102 rules + red-team/blue-team/auditor 3단 파이프라인)settings.json에 위임, Opus 사용이 쌓이면 비용 누적. agent-specific model override(bug-fixer: Sonnet / code-reviewer: Opus)를 명시 컨벤션화. ⓒ Harness Audit: 우리 harness-report는 rule 존재 여부를 체크하지만 eval readiness(qa-test-plan 존재 + benchmark 결과)와 security posture(scaffold-violation-check 통과 수)를 함수로 측정하지 않음 — /harness-audit 수준의 종합 점수 도입 시 42차 현재 실제 점수(SOFT)를 HARD 수치로 측정 가능. No Hooks in plugin.json 교훈은 즉시 적용: 우리 ~/.claude/plugins/*/plugin.json에 hooks 명시된 곳 있으면 제거 + hooks/hooks.json으로 이전. 5축: 자동화 2 · 마찰제거 2(중복 hook 에러 방지) · HARD전환 1 · 토큰효율 2(50% compact + Sonnet default) · 측정가능 1 → 8/10~/.claude/rules/harness-performance-optimization.md 도입 시 3가지 즉시 효과: (1) compact@50% 강제로 long session에서 compaction 실패 방지 (alinaqi의 4-dim fatigue 40/60/75/83%와 단계화 결합 가능), (2) model selection convention으로 specialist마다 최적 모델 명시(간단 bug-fix는 Haiku, 복잡 리팩토링은 Sonnet, code-review는 Opus) → 비용 30-60% 절감 예상, (3) plugin hook 이전 1회 작업으로 duplicate detection 에러 전량 제거. Language Isolation은 우리 rules/ 구조에 이미 부분 적용되었지만 typescript/python/flutter/ 독립 디렉토리로 재조직 시 project-specific scaffold의 범용 규칙 중복 제거~/.claude/settings.json에 compact@50% 트리거 추가 · specialist 에이전트별 model override 컨벤션 문서화 · plugin.json hooks → hooks/hooks.json 이전 스크립트 PoC · /harness-audit 내장 구현(eval readiness + security posture 점수)"Secure, local and programmable sandboxes for AI agents." Rust + libkrun 기반 <100ms boot microVM으로 Docker 컨테이너와 전통 VM 사이 빈 틈을 채움. Hardware isolation으로 "unexploitable secrets" (API key를 sandbox 내부 코드가 읽을 수 없음) — 컨테이너 이스케이프 취약점으로부터도 격리. OCI 호환(Docker Hub/GHCR), Rust/Python/TypeScript SDK + msb run CLI. Apache 2.0, YC 지원.
no-env-commit.sh hook이 "commit 차단"이라면 microsandbox는 "런타임 격리". (3) <100ms Boot: 평균 부팅 시간이 심리적 임계치 아래 — "일회용 sandbox"로 쓰는 UX 가능. Docker(수초) 대비 우위. (4) OCI-Compatible + AI Agent Skills: 기존 Docker 이미지 재사용하면서 하이퍼바이저 격리 획득 — marginal cost 없이 마이그레이션. Claude Code/Cursor/Copilot용 Agent Skills + MCP Server 제공permission-mode-safety-tiers.md(41차 OpenHarness/craft-agents)는 Explore/Ask/Auto의 tier 기반 권한 — 하지만 tier 전환 자체는 정책 레벨이고 실제 악성 코드 실행을 제어할 수 없음. microsandbox는 tier 위의 물리적 격리 계층: 에이전트가 Auto tier에서 임의 shell 실행 시에도 host 영향 제로. 특히 HyperAgents의 "untrusted, model-generated code 실행"과 trend-harvester가 외부 repo README를 읽고 rule을 제안하는 시나리오에서 "외부 입력이 rule/code로 merge되는 경계"를 안전하게 만드는 인프라. 현재 우리는 이런 실험을 main repo에서 바로 실행하여 .gitignore/hooks에만 의존 — microsandbox 도입 시 scripts/experimental-rule-dry-run.sh가 microsandbox 내부에서만 실행되어 검증 후 통과한 것만 host에 merge. Claude Code Skills 통합도 존재해서 우리 스킬 생태계에 바로 연결 가능. 단 설치/운영 비용(libkrun 의존성, macOS M1/M2 하이퍼바이저 호환성)이 초기 마찰 — PoC 환경(Linux server) 우선 검증 권장. 5축: 자동화 1 · 마찰제거 2(이스케이프 방지) · HARD전환 2(프로세스 경계 exit) · 토큰효율 1 · 측정가능 1 → 7/10~/.claude/rules/hardware-isolation-for-untrusted-code.md 도입 시 3가지 실험 시나리오 안전화: (1) autoresearch가 benchmark 실험 코드 생성 → microsandbox에서 실행 → 결과만 host 반환, (2) trend-harvester가 외부 repo 코드 샘플 실험 → microsandbox 내부 → main repo 오염 방지, (3) bug-fixer 4회 로테이션의 3차(codex:rescue) + 4차(리셋 접근)를 microsandbox에서 시도 → 실패해도 워킹 디렉토리 오염 없음. 현재 우리의 worktree-parallel-agents는 git 수준 격리 — microsandbox는 그보다 한 단계 위 OS-level 격리. 둘은 상보: worktree로 git 상태 보호 + microsandbox로 OS 상태 보호 = 이중 격리. YC 지원 + 2.5K⭐ 성장 + Rust 성숙도로 production-ready 평가 가능"Opinionated project initialization for Claude Code. Security-first, spec-driven, AI-native." Stop hook 기반 TDD 강제 + 조건부 rule(파일 확장자별 활성화) + @include 디렉티브 + Mnemos typed memory(preservation priority: goals/constraints never evict, working state compresses first) + Fatigue-Driven Checkpointing(token utilization + scope scatter + re-read ratio + error density 4-dim 모니터링으로 40/60/75/83% 단계 체크포인트). 품질 게이트: 20 lines/function, 200 lines/file, 3 params 상한.
.tsx 편집 시 React rule만 로드 — 토큰 낭비 방지. 우리 per-turn-tool-adaptation.md의 file-specific 확장. (3) @include 디렉티브: CLAUDE.md가 modular skill을 parse-time resolve — 우리 ~/.claude/rules/*.md를 AGENTS.md 한 파일로 composable projection할 기반(41차 AGENTS.md rule과 정합). (4) Mnemos Typed Memory: memory node마다 preservation priority 부여 — "goals never evict, constraints never evict, working state compresses first". 일반 summary 기반 compaction(FIFO)과 달리 의미 기반 우선순위. (5) Fatigue-Driven Checkpoint: token utilization + scope scatter(무관 파일 재접근) + re-read ratio + error density 4가지 차원 — 40/60/75/83% 단계 체크포인트. 기존 "compact@95%" 단일 임계치보다 세분화. iCPG(intent code provenance graph)로 변경 이유 추적claude-mem(thedotmack)은 자동 세션 캡처 + 압축 + 재주입 — 모든 컨텍스트를 동일 중요도로 처리. alinaqi의 Mnemos typed memory는 명시적 4개 priority tier로 전환: "이 goal은 절대 evict하지 마, 이 working state는 먼저 압축" — context-window-management 스킬에 "memory node priority field" 추가 가치. 특히 Fatigue-Driven Checkpoint는 우리가 "compact@50%" 단일 트리거 도입을 고려 중(everything-claude-code)인데 alinaqi는 4-dim 4-stage로 세분화 — 40% 초기 체크포인트(cheap) / 60% 경고 / 75% 강제 / 83% 응급. scope scatter 측정(무관 파일 재접근)은 "context rot" 구체화 — context-freshness.md 규칙을 측정 가능 메트릭으로 전환 가능. 단 직접 adoption 부담 있음: Mnemos는 별도 persistence layer 필요(우리 memory-bank와 중복), 4-dim fatigue는 실시간 측정 hook 다수 추가 — PoC 후보로 preservation priority field 도입(memory-bank에 tier 추가)만 우선 실험. @include 디렉티브는 Codex CLI 17401 표준화 대기 중이므로 alinaqi의 "parse-time resolve" 구현 참조 가치 높음. 5축: 자동화 1 · 마찰제거 2(evict 우선순위) · HARD전환 1(fatigue threshold) · 토큰효율 2(conditional rules + tier) · 측정가능 1 → 7/10CLAUDE.md/.cursorrules/copilot-instructions.md/.windsurfrules/GEMINI.md가 각자 파편화되어 유지되던 agent instructions 파일이 2025-12 Linux Foundation AAIF로 표준 donate된 AGENTS.md 단일 포맷으로 수렴 — 2026-04 기준 60,000+ 오픈소스 프로젝트가 채택, Codex CLI·Copilot·Cursor·Windsurf·Amp·Devin이 네이티브 로드. (2) 프레임워크 primitive 수렴: LangChain이 공식 배포한 langchain-ai/deepagents(21.3K⭐)가 README에 "Deep Agents is inspired by Claude Code"를 명시하며 planning tool(write_todos) + filesystem backend + subagent with isolated context + shell access + auto-summarization 5가지 primitive를 그대로 재구현 — 우리가 독립적으로 축적한 패턴이 업계 1위 LLM 프레임워크에 backwards-engineered 된 외부 검증. 추가로 HKUDS/OpenHarness(10.6K⭐)와 lukilabs/craft-agents-oss(4.4K⭐)가 3-tier permission safety(Explore/Ask/Auto + SHIFT+TAB 런타임 전환)로 독립 수렴 — 우리의 정적 settings.json permissions보다 한 단계 진화한 "재시작 없는 권한 조정" 패턴. 그리고 virattt/ai-hedge-fund(56.5K⭐)의 thematic persona parallelization(Buffett/Wood/Burry 14 investor personas)은 llm-council-pattern.md와 대비되는 "explicit voting 없는 implicit diversity" 모델 — 합의 강제 없이 다양성 자체로 결정. 세 축 모두 loopy-era 5축의 "HARD 전환 가능성" + "측정 가능" + "토큰 효율"에 직결."README for humans, AGENTS.md for coding agents." 2025-12 OpenAI·Anthropic·Google·Block 공동 donate로 Linux Foundation Agentic AI Foundation(AAIF) 관리 표준. Codex CLI · GitHub Copilot · Cursor · Windsurf · Amp · Devin 모두 네이티브 로드, 60,000+ 오픈소스 프로젝트가 채택. Claude Code는 여전히 CLAUDE.md 네이티브 (AGENTS.md open feature request), 표준 워크어라운드는 ln -s AGENTS.md CLAUDE.md 심볼릭 링크.
.cursorrules, Copilot 사용자가 copilot-instructions.md, Codex 사용자가 AGENTS.md를 각자 유지 — 같은 프로젝트를 여러 도구로 다루면 6개 파일을 동기화해야 했음. AGENTS.md 표준화로 단일 소스 오브 트루스(SSOT) 확립. (2) Linux Foundation governance: 2025-12 AAIF에 donate되어 단일 회사 의존성 제거 — MCP(Anthropic donate)와 Goose(Block donate)와 같은 layer로 관리. 중립적 표준이라는 신뢰성. (3) @include directive 제안(Codex issue 17401): @path/to/file.md로 composable instructions — 우리 ~/.claude/rules/*.md 구조와 1:1 호환, 프로젝트 단위에서도 계층적 instructions 구성 가능. (4) Best practice: 150-200줄 상한 + split to subdirectory — "README is for humans, AGENTS.md is for agents"를 구조적으로 강제. README와 역할 분리agent-manifest-pattern.md(microsoft/apm)는 primitives(skills/agents/hooks)의 선언적 manifest를 제시, agent-skills-format.md(huggingface/skills)는 SKILL.md 포맷 표준을 제시 — AGENTS.md는 instructions 자체의 cross-tool 표준으로 두 패턴과 상호보완. 특히 Claude Code 심화 사용자(우리)는 CLAUDE.md를 오래 유지해왔지만, 팀원이 Cursor/Codex를 쓰는 순간 instructions 동기화 지옥 발생 — 심볼릭 링크 패턴 한 줄(ln -s AGENTS.md CLAUDE.md)로 해결. 더 강력한 건 @include 디렉티브: Codex CLI 17401 이슈가 성숙하면 AGENTS.md에 @.agents/frontend.md로 import하는 문법이 표준화 — 우리 per-project .claude/rules/*.md 구조를 그대로 AGENTS.md 한 파일에서 composable 하게 참조 가능. 5축: 자동화 2(파일 동기화 자동화) · 마찰제거 2(6개 파일 → 1개) · HARD전환 2(AGENTS.md 존재 여부는 file exists check) · 토큰효율 1(중복 load 제거) · 측정가능 2(60K+ 채택 추적 가능) → 9/10~/.claude/rules/agents-md-cross-tool-convention.md 도입 + 프로젝트별 심볼릭 링크 컨벤션 제정 시, 팀이 Claude Code + Cursor + Codex 혼용하는 환경에서 instructions 파편화 원천 차단. @include 디렉티브 표준화 대비로 Codex CLI가 정식 지원하는 순간 우리 .claude/rules/*.md 구조를 AGENTS.md 한 파일로 projection 가능 — 즉 우리 스카폴드가 업계 표준으로 자동 승격. 가장 즉시 적용 가능한 액션은 agents-md-presence.sh hook: 새 프로젝트에서 CLAUDE.md 있는데 AGENTS.md 없으면 WARN + 심볼릭 링크 제안. 사용자가 Claude Code 단일 환경이어도 "언젠가 팀원이 다른 도구 쓸 수도 있음"에 대한 예방~/.claude/scripts/agents-md-presence.sh hook PoC · 프로젝트 템플릿에 ln -s AGENTS.md CLAUDE.md 자동 생성 · @include 디렉티브 표준화 모니터링(Codex issue 17401) · README vs AGENTS.md 역할 분리 컨벤션 문서화"Deep Agents is inspired by Claude Code." LangChain 공식 에이전트 하네스 — planning tool(write_todos) + filesystem backend + subagent with isolated context window + shell access + context management(auto-summarization) 5 primitives를 batteries-included로 제공. 2026-04-15 v0.5.3 출시, 21.3K⭐/3K fork. LangGraph 위에 smart defaults + pre-configured prompts로 "scaffolding 불필요, 즉시 production" 포지셔닝.
read_file/write_file/edit_file/ls/glob/grep 표준화 — 우리 Read/Write/Edit/Glob/Grep과 1:1 대응. context management를 파일시스템 위에 구축. (3) Subagent Spawning(task tool): child agent를 isolated context window으로 호출 — 우리 Task 도구(subagent_type:)가 같은 패턴이지만 deepagents는 "컨텍스트 격리"를 primitive 수준에서 명시 보장. (4) Shell Access(execute): 샌드박스 내 shell 실행 — 우리 Bash 도구. (5) Context Management: long conversations 자동 요약 + large outputs 자동 파일 persist — 우리 claude-mem이 자동 요약은 제공하지만 large output auto-persist는 ad-hoc. Positioning: "batteries-included vs build-it-yourself" + 100% open source + provider-agnostic LLM + LangGraph 통합으로 streaming/persistence/checkpointing 즉시 사용. Security model: "trust the LLM within tool/sandbox boundaries" — constraint보다 capability 우선agent-manifest-pattern.md에 "each spawned subagent MUST start with a fresh context window" HARD 규칙 추가. ⓒ "large output auto-persist" — tool result >5KB 시 /tmp/agent-outputs/에 저장하고 경로만 반환하는 auto-persist-large-output.sh 도입 검토. 역으로 우리에게 있고 deepagents에 없는 것: user-proxy QA 자동 루프, Codex 이중 리뷰, HARD hook(qa-gate/no-localstorage), agents-md convention, 5축 loopy-era 정합성 필터 — deepagents는 "프레임워크"이고 우리는 "운영 시스템"이라 역할 차이. 5축: 자동화 2 · 마찰제거 2(scaffolding 불필요) · HARD전환 2(primitive 명시) · 토큰효율 2(auto-summarization + fresh context) · 측정가능 1 → 9/10~/.claude/rules/deep-agents-harness-primitives.md 도입 시 우리 시스템의 5 primitives 체크리스트를 명시화 — 각 primitive의 "SOFT vs HARD 현실" 표를 갱신하여 자가 진단 가능. 가장 즉시 적용 가능한 개선은 specialist agent들의 system prompt 상단에 5 primitives 사용 가이드 주입: (1) 복잡 태스크 시 TaskCreate 먼저, (2) 파일시스템을 context store로, (3) subagent 호출 시 context isolation 명시, (4) bash는 검증/탐색 위주, (5) 큰 output은 파일로 persist 후 경로 전달. 매번 specialist가 독립적으로 추론할 필요 없이 공통 harness primer가 baseline — 토큰 절감 + 행동 일관성. 추가로 deepagents 최신 release 자동 체크를 self-improve에 추가하여 LangChain이 새 primitive 도입 시 우리도 follow-up 검토agent-manifest-pattern.md에 "subagent fresh context" HARD 규칙 추가 · auto-persist-large-output.sh PoC(tool result >5KB 시 파일 저장 + 경로 반환) · self-improve에 deepagents release watcher두 프로젝트 독립 수렴으로 검증된 3-tier permission safety pattern — Explore(read-only) / Ask to Edit(매 호출 승인) / Auto(permissive). lukilabs/craft-agents는 SHIFT+TAB 런타임 전환으로 재시작 없이 tier 변경, HKUDS/OpenHarness는 path rules + command denial로 선언적 blacklist. 정적 settings.json permissions의 한계를 넘는 "재시작 없는 실시간 권한 조정" 패턴.
Explore는 Read/Glob/Grep만 허용(쓰기·shell 차단) — 리서치/디버깅 관찰에 사용, Ask to Edit(기본)는 매 Edit/Write/Bash 호출마다 승인 프롬프트 — 기능 추가/리팩토링 시, Auto는 모든 도구 자동 실행 — batch migration 시. (2) 런타임 전환: craft-agents는 SHIFT+TAB으로 대화 중 즉시 변경, OpenHarness는 cli flag — 재시작 없이 tier 변경이 핵심. (3) Path rules + command denial: allow_write: [src/**, tests/**] + deny: [.env, secrets/**] + deny_bash: [rm -rf, git push --force, sudo *] 선언적 blacklist — exploit 방지. OpenHarness는 ohmo(built-in personal agent)가 기존 Claude Code/Codex 구독으로 실행(별도 API key 불필요) — 비용 효율. craft-agents는 "세션이 explicit artifact" + AES-256-GCM 자격증명 + Multi-file diff viewer로 audit trail 제공~/.claude/settings.json permissions가 세션 시작 시 고정 — 중간에 "잠깐 read-only만 하고 싶다"거나 "지금 bulk migration이라 승인 스킵하고 싶다"는 상황 대응 불가. 두 프로젝트가 독립 수렴한 3-tier 패턴은 이 한계를 명시적으로 해결. 특히 Explore tier(read-only)는 대규모 legacy 코드 리뷰 시 "실수로 파일 수정" 사고 원천 차단 — 우리 checkpoint-before-mutation.md(moltis)가 mutation 전 스냅샷 하지만 Explore tier는 mutation 자체를 차단하는 상위 게이트. Auto tier는 trend-harvester-autorun.sh 같은 bulk 작업에서 매번 승인 누르지 않고 자동 진행. role-based-agent-permissions.md(forgecode)는 에이전트 역할별 권한을 제시하지만 사용자 tier 전환은 부재 — 두 패턴을 직교적으로 결합 가능. 5축: 자동화 1(tier 전환 시 승인 스킵) · 마찰제거 2(재시작 없음) · HARD전환 2(tier-check.sh exit code) · 토큰효율 1 · 측정가능 1 → 7/10. deepagents/AGENTS.md만큼 transformative는 아니지만 두 프로젝트 독립 수렴이라는 신호가 강함~/.claude/rules/permission-mode-safety-tiers.md + .claude/session-tier.json schema 도입 시, /tier explore / /tier ask / /tier auto slash command로 대화 중 권한 실시간 조정. UserPromptSubmit hook이 session-tier.json 읽어 매 메시지마다 컨텍스트 주입 → PreToolUse hook이 현재 tier 기반 도구 호출 허용 여부 결정. 가장 즉시 효과적인 경우: 대용량 리팩토링 시 Auto tier로 승인 피로 제거, vs 낯선 코드베이스 탐색 시 Explore tier로 실수 차단. 정적 settings.json 한계 극복의 첫 단계.claude/session-tier.json schema + /tier {explore|ask|auto} slash command · tier-check.sh PreToolUse hook(현재 tier에서 도구 호출 허용 여부 exit 0/2) · role-based-agent-permissions.md와 직교적 결합(에이전트 역할 × 사용자 tier) · Explore tier PoC(Read-only 대규모 legacy 리뷰 시나리오)"An AI Hedge Fund Team." 14개 투자자 persona(Warren Buffett / Cathie Wood / Michael Burry 등) + 4개 분석 agent(Valuation/Sentiment/Fundamentals/Technicals) + Risk Manager + Portfolio Manager 19개 에이전트 병렬 구조. CrewAI 계층적 delegation, AutoGen peer negotiation과 달리 "thematic persona parallelization" — 각 에이전트가 distinct 투자 철학을 embody 하여 explicit voting 없이 implicit diversity로 결정. 실제 헤지펀드 multi-PM 구조 모방.
llm-council-pattern.md(karpathy/llm-council)는 익명 리뷰 → Chairman 합의의 explicit voting + 합의 도출 패턴 — 명확하지만 "합의 강제"로 인해 diversity가 소실될 수 있음. ai-hedge-fund의 implicit diversity는 반대 방향: 합의하지 않고 diverse signals 자체를 최종 의사결정에 반영 — 우리 시스템의 bug-fixer 4회 로테이션(다른 전략 시도)과 정합하지만 "직렬 재시도" 대신 "병렬 다양성"으로 전환 가능. 구체적 적용점: code-review에 persona parallelization 실험 — 현재 code-reviewer(Claude) + codex:review(GPT)는 2개 tool 이중 리뷰지만 "security-focused 리뷰어 / performance-focused 리뷰어 / UX-focused 리뷰어" persona를 주입한 N개 리뷰를 병렬 실행하면 각자 다른 각도의 피드백 — 합의 없이 모든 feedback을 개발자에게 제공. 단 직접 도입은 부적합: ai-hedge-fund는 금융 특화 + educational(non-production) — 우리 CLI 워크플로우에 직접 이식 X. 패턴 참조만 가치. 5축: 자동화 1 · 마찰제거 1(합의 강제 없음) · HARD전환 0(implicit diversity는 측정 어려움) · 토큰효율 1(병렬 but 각자 독립 전체 추론) · 측정가능 1(signals 수집 가능) → 5/10 + 개념 참조 가치 보정 → 7/10llm-council-pattern.md와 비교 표 작성(explicit voting vs implicit diversity) · specialist agents에 thesis persona 주입 실험(frontend-specialist: a11y-first / backend-specialist: security-first 같은 bias)events.jsonl EvolutionEvent 영속 기록 + 4가지 strategy preset(balanced 50/30/20 · innovate 80/15/5 · harden 20/40/40 · repair-only 0/20/80)으로 fitness ratio 명시적 제어 + Signal De-duplication으로 repair loop stagnation 자동 감지. Multica(17K⭐, +7.8K/주)는 task lifecycle FSM(enqueue→claim→start→complete/fail) + runtime capability registry + WebSocket 실시간 스트리밍으로 "에이전트를 팀 멤버로" 만드는 플랫폼. addyosmani/agent-skills(18.1K⭐)는 6-phase × 20 skills(DEFINE/PLAN/BUILD/VERIFY/REVIEW/SHIP)에 각 스킬마다 Rationalizations(안티패턴 반박) + Red Flags + Verification 증거 요구를 박아 "process, not prose" 철학 구현. 네 프로젝트 모두 "LLM이 즉흥적으로 결정하는 loop"를 "파일로 커밋 가능한 workflow 정의"로 대체 — 우리 state-driven-orchestration.md + canonical-workflow-fsm.md + deterministic-orchestrator-scheduling.md + agent-skills-format.md의 외부 독립 수렴."The first open-source harness builder for AI coding. Make AI coding deterministic and repeatable." Like what Dockerfiles did for infrastructure and GitHub Actions did for CI/CD – Archon does for AI coding workflows. YAML DAG로 deterministic 노드(bash/tests/git)와 AI 노드(plan/implement/review)를 혼합, loop 구문 + interactive gate + fresh_context: true로 컨텍스트 격리까지 일체형. 모든 워크플로우 run이 전용 git worktree를 받아 "5개 fix를 병렬 실행해도 충돌 제로".
.archon/workflows/에 선언 — nodes[] 각각 id/depends_on/prompt/loop/until/fresh_context 명시. 노드 실행 순서가 고정(deterministic), AI 출력만 가변(bounded). (2) Deterministic + AI 노드 혼합: bash/tests/git은 결정론적, plan/implement/review는 AI — 한 워크플로우에서 혼합하여 "The AI fills in the intelligence at each step, but the structure is deterministic and owned by you." (3) Loop with Fresh Context: loop: {prompt: "...", until: ALL_TASKS_COMPLETE, fresh_context: true}로 반복마다 컨텍스트 리셋 — 긴 루프에서 drift 원천 차단, 단일 태스크 iterate 시 open-ended agent loop보다 훨씬 안정. (4) Isolation Environments: 매 워크플로우 run이 독립 git worktree — 5개 fix 병렬 실행 conflict 제로. (5) State Artifacts: 워크플로우가 explicit output(plan, implementation, test results, PR description) 생성 — 암묵적 conversation history 대신 명시적 artifact. Platform Adapters(CLI/Web/Telegram/Slack/Discord/GitHub) + SQLite/PostgreSQL 영속deterministic-orchestrator-scheduling.md(bernstein) + canonical-workflow-fsm.md(spec-kitty) + fresh-context-iteration.md(snarktank/ralph)는 각각 "스케줄링 결정론", "FSM 전이 강제", "fresh session 반복"을 개별 primitive로 제공 — Archon은 세 가지를 단일 YAML workflow 파일로 통합하여 "Dockerfile-for-AI-coding"이라는 명시 포지셔닝. 특히 deterministic + AI 노드 혼합은 우리 team-orchestrator가 "Phase 분류 → specialist 호출"을 자연어로 기술하는 것과 대조 — YAML DAG 형태로 전환 시 plan → bash: run-tests → AI: review → bash: git-commit처럼 재현 가능한 워크플로우 파일이 됨. fresh_context loop은 우리 bug-fixer 4회 로테이션에 즉시 적용 가능 — 현재는 4회 모두 같은 컨텍스트 누적으로 "이전 실패 기억"이 오염 유발, fresh_context: true 단일 옵션으로 해결. git worktree per run은 worktree-parallel-agents.md의 철학과 정합. 5축: 자동화 2 · 마찰제거 2(context drift + merge conflict) · HARD전환 2(YAML schema + exit code) · 토큰효율 2(fresh context + 명시 artifact) · 측정가능 1 → 9/10~/.claude/workflows/feature-dev.yml 표준 워크플로우 정의 시 "새 기능 개발"이 버전 관리 가능한 artifact로 — 현재는 /team 스킬이 자연어로 Phase 0~5를 설명하지만, YAML DAG 전환 시 Phase 전이가 depends_on으로 명시되어 "Phase 2를 건너뛰고 Phase 3" 같은 순서 위반 자동 차단. fresh_context loop 1줄이 bug-fixer/self-improve/autoresearch 모든 반복 루프에 즉시 적용 가능한 가장 high-ROI 단일 액션 — context drift로 인한 재시도 낭비 구조적 제거~/.claude/workflows/feature-dev.yml PoC(team 스킬의 YAML 표현) · bug-fixer 4회 로테이션에 fresh_context 옵션 도입 · Platform Adapter 패턴으로 Telegram/Slack 통합 검토 · state artifact 파일(plan.md/impl-log.md) 자동 생성 컨벤션"A GEP-powered self-evolution engine for AI agents. Turns ad hoc prompt tweaks into auditable, reusable evolution assets." 프롬프트를 genes/capsules라는 버전 관리 가능 asset으로 격상, memory/ 시그널 스캔 → gene 매칭 → protocol-bound prompt 생성. Strategy preset으로 fitness ratio 명시 제어(balanced 50/30/20 · innovate 80/15/5 · harden 20/40/40 · repair-only 0/20/80). events.jsonl에 EvolutionEvent 불변 기록으로 "auditable, reusable evolution chains".
assets/gep/에 재사용 가능한 evolutionary unit 저장, 각 gene은 validation 커맨드 보유 — "프롬프트는 파일이 아니라 artifact". (2) Signal-Based Selection: memory/의 runtime logs/error patterns/signals 스캔 → 기존 gene 매칭 → JSON selector decision 출력 — LLM 추론 없는 결정론적 선택. (3) Strategy Preset Fitness Ratios: 4가지 preset으로 innovate/optimize/repair 비율 명시 — balanced(50/30/20 default), innovate(80/15/5, 신규 탐색), harden(20/40/40, 안정화), repair-only(0/20/80, 긴급 수정). 상황별 자동 전환. (4) Signal De-duplication: "prevents repair loops by detecting stagnation patterns" — oscillation/반복 에러 자동 감지 후 loop break. (5) Protocol-Bound Prompts: "Evolver is a prompt generator, not a code patcher" — 3 실행 모드(Standalone/Loop daemon/Review human-in-loop), hook 기반 integration(sessionStart/afterFileEdit/stop), Cron keepalive로 주기 실행recursive-self-improvement-loop.md(greyhaven-ai/autocontext)는 Competitor→Analyst→Coach→Curator 4단계 루프를 개념적으로 제시, execution-path-crystallization.md(lsdefine/GenericAgent)는 성공 경로 → SOP 결정화를 제시 — GEP는 그 두 가지를 strategy preset + events.jsonl로 구현한 외부 검증. 특히 strategy preset의 fitness ratio는 우리 self-improve가 단일 모드로만 동작하는 한계 해결 — 프로젝트 초기(innovate 80/15/5), 안정화 단계(harden 20/40/40), 프로덕션 긴급(repair-only 0/20/80) 상황별 자동 전환. Signal De-duplication은 ouroboros(37차)의 stagnation pattern과 정합 — gene 매칭 단계에서 이미 repair loop 감지 시 즉시 break, 우리 convergence-loop-no-mid-question.md의 HARD 강제 근거. events.jsonl 영속은 babysitter(38차)의 event-sourced journal + autoresearch의 results.tsv와 같은 방향 — 외부 독립 수렴. 5축: 자동화 2 · 마찰제거 2(stagnation 감지) · HARD전환 2(JSON selector decision + events.jsonl) · 토큰효율 2(gene 재사용) · 측정가능 1 → 9/10~/.claude/rules/strategy-preset-ratios.md 도입 시 self-improve가 프로젝트 단계별로 자동 preset 전환 — 현재는 "fix 커밋 쌓이면 pending" 단일 트리거, preset 도입 시 ~/.claude/context/project-phase.json의 phase(init/stable/crisis) 기반 자동 조정. gene 개념 도입이 특히 흥미: 반복 사용되는 프롬프트 조각(예: "타입 오류 수정 시 항상 null-check 추가")을 ~/.claude/genes/에 저장, 다음 에러 발생 시 signal 매칭으로 즉시 로드 → 매번 처음부터 프롬프트 작성하는 토큰 낭비 제거. events.jsonl 영속은 ouroboros event-sourced SQLAlchemy + babysitter journal과 결합 시 "세션 경계를 넘어 lineage 재구성" 능력 확보~/.claude/genes/ 디렉토리 컨벤션 PoC · self-improve에 phase-based preset 자동 전환(project-phase.json) · signal-based gene matching 로직 · events.jsonl을 action-log.sh와 통합"The open-source managed agents platform. Turn coding agents into real teammates — assign tasks, track progress, compound skills." Full task lifecycle management(enqueue → claim → start → complete/fail) with real-time progress streaming via WebSocket. 각 에이전트는 Runtime이라는 compute 환경(로컬 머신 or 클라우드 인스턴스)에 바인딩, 데몬이 PATH의 agent CLI를 auto-detect하여 capability registry 구성. Frontend(Next.js) + Backend(Go + Chi + gorilla/websocket) + Runtimes(local daemons).
enqueued → claimed → started → completed|failed 5-state로 태스크 상태 추적 — WebSocket으로 실시간 진행률 push. 우리 TaskList의 단순 pending/in_progress/completed보다 세분화. (2) Runtime Capability Registry: 각 에이전트가 특정 compute 환경에 바인딩, Runtime이 가용 agent CLI를 advertise. 데몬 auto-detect로 PATH 상 agent CLI를 자동 발견 → 수동 등록 불필요. (3) Agent as Teammate: 에이전트가 "post comments, create issues, report blockers proactively" — passive executor 아닌 active participant. (4) 3-Layer Architecture: Next.js UI + Go 백엔드 + 로컬 데몬으로 분산 처리 — multi-user role management + workspace isolation. Skill compounding 메커니즘은 README에 black box(구현 세부 미공개) — 참조만 하고 도입은 보류agent-delegation-strategy.md(키워드 매칭) + deterministic-orchestrator-scheduling.md(bernstein)는 specialist 선택/스케줄링을 다루지만 runtime capability 동적 감지는 부재. Multica의 auto-detect agent CLI는 Claude Code/Codex/Gemini 혼용 환경에서 "어느 CLI가 설치되었는지" 런타임 감지하여 분배하는 영감 제공 — 우리 forge-orchestrator(38차 file locking)와 결합 시 multi-tool 공존 인프라 완성. Task lifecycle FSM의 claim state는 spec-kitty(37차)의 canonical FSM과 정합 — "enqueued"와 "claimed" 사이에 명시 단계 추가 시 동시 에이전트가 같은 태스크 중복 claim 방지. WebSocket 실시간 스트리밍은 우리 텔레그램 알림의 진화 — 매 step 종료 시점에 push 가능. 단 Multica는 Next.js/Go 스택이라 우리 CLI-only 환경과 불일치 — 패턴 참조만 가치 있음. 5축: 자동화 1 · 마찰제거 1(auto-detect) · HARD전환 1(FSM 전이 exit code) · 토큰효율 1 · 측정가능 2(WebSocket) → 7/10~/.claude/scripts/detect-agent-cli.sh PoC(Claude/Codex/Gemini/Cursor PATH 감지) · TaskList에 claimed state 추가 검토(동시 claim 방지) · 실시간 진행 스트리밍 패턴 연구(텔레그램 대체 가능성)"Production-grade engineering skills for AI coding agents. Process, not prose. Skills are workflows agents follow, not reference docs they read." 20 skills를 6 development phase(DEFINE/PLAN/BUILD/VERIFY/REVIEW/SHIP)로 조직. 각 스킬이 Frontmatter + Overview + When to Use + Process + Rationalizations(안티패턴 반박) + Red Flags + Verification 구조 준수. Claude Code/Cursor/Gemini/Windsurf/OpenCode/Copilot 멀티 플랫폼 호환 (plain Markdown).
/spec idea-refine, spec-driven-development) → PLAN(/plan task-breakdown) → BUILD(/build 5 skills: incremental/TDD/context-engineering/source-driven/frontend-UI/API-design) → VERIFY(/test browser-testing-with-devtools, debugging-error-recovery) → REVIEW(/review 4 skills: code-review/simplification/security-hardening/performance) → SHIP(/ship 5 skills: git-workflow/CI-CD/deprecation/docs-ADRs/launch). 각 phase에 slash command 1:1 매핑. (2) Anti-Rationalization Table: 스킬마다 Rationalizations 섹션이 "개발자가 흔히 하는 shortcut excuse + 구조적 반박"을 명시 — "이 테스트는 나중에 쓸게요" vs "그럼 지금 shipping 기준을 통과하지 못한 것" 같은 대화 템플릿. (3) Verification 증거 요구: 각 스킬이 checkpoint/exit criteria/mandatory verification gate를 명시 — 단순 "테스트 돌려라" 아닌 "테스트 결과 파일 경로 제시"까지. 3개 agent persona(code-reviewer/test-engineer/security-auditor) + 4개 checklist(testing/security/performance/accessibility) 번들agent-skills-format.md(huggingface/skills)는 SKILL.md 포맷 표준을 제시, addyosmani는 그 포맷으로 20개의 프로덕션 워크플로우를 실제 구현한 레퍼런스 라이브러리. 특히 Anti-Rationalization Table은 우리가 처음 보는 패턴 — 우리 스킬/규칙은 "뭘 해야 하는지" 기술하지만 "왜 이 shortcut은 위험한지"의 구조적 반박은 부재. 예를 들어 completion-verification.md의 "완료 선언 전 자가 검증"에 "하지만 시간이 없어요 → 그럼 완료하지 않은 것" 같은 Rationalization 테이블 추가 시, Claude가 스스로 편법 정당화하는 패턴 구조적 차단. 6-Phase structure는 우리 /team Phase 0~5와 정합도 높음 — Phase 0(Plan) = PLAN, Phase 1-3(Design/Impl) = BUILD, Phase 4(QA) = VERIFY+REVIEW, Phase 5(Commit) = SHIP. slash command 1:1 매핑(/spec//plan//build 등)은 우리가 /team//qa-cycle//self-improve로 분리된 것을 phase별로 정합할 영감 제공. 단 직접 adoption은 부적합 — 우리는 Claude Code 심화 생태계라 addyosmani 스킬이 일반론적. Anti-Rationalization 패턴만 rule로 승격 가치. 5축: 자동화 1 · 마찰제거 2(anti-rationalization) · HARD전환 1(verification 파일 경로 요구) · 토큰효율 1 · 측정가능 2(checkpoint) → 7/10token-brevity-pattern.md + context-compression-pipeline.md + cli-output-compression.md + token-efficiency-tracking.md의 외부 생태계 검증. 특히 ECC의 thinking token cap은 settings.json env 1줄로 즉시 70% 절감 가능한 가장 high-ROI 구체 액션."AI coding tool config을 static config pack이 아닌 performance system으로 재정의 — 디폴트 설정이 비용 60-70% 낭비." Anthropic 해커톤 우승자가 만든 cross-harness(Claude Code/Cursor/Codex/OpenCode) 최적화 시스템. MAX_THINKING_TOKENS=10000(default 31999) 1줄로 70% thinking cost 절감 + ECC_HOOK_PROFILE=minimal/standard/strict 런타임 강도 조절 + 50% threshold + breakpoint 기반 strategic compact + sonnet default + opus only for architecture로 60% 절감 + AgentShield --opus 3-agent(red/defender/auditor) adversarial 검증. 161K star + 25K forks의 ecosystem 규모.
ECC_HOOK_PROFILE=minimal|standard|strict 환경변수로 settings.json 수정 없이 hook 강도 조절 + ECC_DISABLED_HOOKS=qa-gate-before-push,no-localstorage 일시 비활성화. 다른 단계(실험/개발/배포 전)가 다른 strictness 요구한다는 현실 인정. (2) Thinking Token Cap: 31999 default → 10000 cap으로 thinking cost 70% 절감, 80%+ 코딩 작업 품질 차이 없음, 아키텍처 작업에만 일시 복원. (3) Strategic Compact: 95% auto-compact는 mid-implementation에 발동하여 "방금 분석한 내용 잊어버림" 유발 — 50% threshold + breakpoint 기반(research 완료 후, milestone 직후, phase 전환 직전) 명시적 /compact로 전환. (4) Multi-Tier Model Selection: sonnet by default(routine 코드/리팩토링/테스트) + opus for architecture(시스템 설계) + haiku for utility(커밋 메시지/번역) — /model sonnet로 mid-session 전환. (5) AgentShield --opus 3-agent: 단일 모델 내 red-team/defender/auditor 페르소나로 adversarial reasoning synthesis — pattern matching 넘어 exploit-chain discovery. 102 rules + 1282 tests로 settings.json/hooks/agents 정적 분석token-brevity-pattern.md(출력 절감) + context-compression-pipeline.md(입력 절감) + cli-output-compression.md(CLI 절감) + token-efficiency-tracking.md(추적)를 보유 — 네 가지 모두 구조적/기법적 차원. ECC는 여기에 operational 차원(모델 선택 + thinking cap + profile 강도 + 명시적 compact)을 추가하여 종합 60-70% 절감 달성. 특히 thinking token cap 1줄은 즉시 적용 가능한 가장 high-ROI 단일 액션 — 다른 모든 절감 전략을 합친 것의 절반 효과를 1줄 변경으로 달성. Hook Profile Runtime Selection은 우리 hook 시스템의 all-or-nothing 한계 해결 — qa-cycle/codex 검증을 일시 비활성화하고 싶을 때 매번 settings.json 편집 대신 환경변수 1줄. Strategic compact 50% threshold는 우리 자가진화 루프(self-improve/team-orchestrator)의 mid-implementation context loss 마찰 제거. 3-agent red/defender/auditor는 cross-model-adversarial-review.md(Claude vs Codex)의 단일 모델 다중 페르소나 확장 — codex:adversarial-review 강화 후보. 161K star + Anthropic 해커톤 우승자라는 신호 강도 — 외부 검증으로 충분. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(thinking cap settings.json 검증 + profile 분기 bash) · 토큰효율 2(60-70% 절감 실증) · 측정가능 2(/cost dashboard + GUI) → 10/10~/.claude/settings.json에 "env": {"MAX_THINKING_TOKENS": "10000"} 1줄 추가 시 다음 모든 세션 thinking cost 즉시 70% 절감 — 1주일 누적 단위로 가장 큰 단일 ROI. ECC_HOOK_PROFILE 도입 시 실험 단계에서 hook 마찰 폭증 문제 해결, qa-cycle을 일시 minimal로 돌리고 다시 strict로 복원이 환경변수 1줄. Strategic compact 도입 시 long-running self-improve/autoresearch 루프의 "context 95% 도달 후 compact 실패" 마찰 제거. 3-agent adversarial 검증은 PR 전 보안 리뷰 품질 향상. 5개 모두 즉시 도입 가능 — 추상 원칙 아닌 구체 액션MAX_THINKING_TOKENS: 10000 즉시 추가 · ECC_HOOK_PROFILE 환경변수 도입 + minimal/standard/strict 분기 hook · /strategic-compact 스킬 신설(50% threshold + breakpoint 의사결정 트리) · codex:adversarial-review에 3-agent red/defender/auditor 페르소나 추가 · agent-shield.sh 정적 분석(102 rules) PoC"Intentionally simple enough to study, modify, and extend." 무거운 framework(LangChain/Haystack) 거부 + core_agent_lines.sh로 LOC를 design constraint로 명시 추적. Token-based memory(vector DB 없음, LLM context만) + Dream two-stage memory(active + consolidation) + composable agent lifecycle hooks + Multi-channel abstraction(Telegram/Discord/Slack/WeChat 등) + MCP 통합으로 tool 재발명 회피.
core_agent_lines.sh 스크립트가 agent loop 코드 라인 수를 측정 — "Python 93.2% + TypeScript 5.9%(WebUI만)" 단순 구성. litellm 의존성 제거하고 native openai/anthropic SDK 사용 — fewer abstractions, clearer code paths. (2) Token-Based Memory: vector DB/graph 없음, LLM context window 내 token 기반 memory만. Dream two-stage memory(active session context + secondary consolidation layer)로 cross-session 지속성을 infrastructure 없이 달성. (3) Context Compact On-the-Fly: v0.1.5에서 "context compact shrinks sessions on the fly" 도입 — token limit 도달 전 동적 pruning. (4) Composable Lifecycle Hooks: core loop는 작게 유지하되 hook으로 확장 — capabilities를 context로만 끌어옴. ClawHub로 public agent skills 검색/설치, 2 step만으로 새 LLM provider 추가reducing-entropy 스킬과 code-review-patterns.md의 "코드 중복 제거"를 보유하지만, nanobot의 LOC를 메트릭으로 추적은 더 강한 강제 — core_agent_lines.sh 같은 측정 스크립트를 우리 scaffold에 도입 시 "스킬/규칙이 비대해지는 현상" 정량 추적 가능. Token-based memory + Dream two-stage는 우리 memory-bank가 SQLite/임베딩에 의존하는 구조와 대조 — 무거운 인프라 없이 "active context + consolidation layer"만으로 cross-session 연속성 가능성 제시. Context compact on-the-fly는 ECC의 strategic compact와 정합 — 두 패턴 결합 시 long-running 세션의 토큰 마찰 거의 제거. nanobot 자체는 production-ready보다 "study/modify/extend 친화적"이라 직접 도입은 부적합 — 그러나 "의도적 minimalism"이라는 철학과 LOC 추적 메커니즘은 우리 자가진화 루프의 scaffold bloat 방지 메커니즘으로 응용 가치 큼. 5축: 자동화 1 · 마찰제거 2 · HARD전환 1(LOC count exit code) · 토큰효율 2 · 측정가능 1scaffold-loc.sh) 도입 검토 · context compact on-the-fly 패턴을 ECC strategic compact와 결합 · Dream two-stage memory를 memory-bank 경량 모드로 제공 검토 · "의도적 minimalism" 철학을 reducing-entropy 스킬에 명시"Treat the team JSONL mailbox protocol as a teaching implementation, not a claim about production internals." 12 progressive sessions(s01-s12)로 Claude Code 하네스의 핵심 mechanism을 단계별 분해 — tool execution loops, skill loading, context management, task systems, background execution, team coordination. On-demand knowledge injection(skills via tool results, system prompt 아님) + 3-layer context compression + subagent isolation(독립 message history) + file-based task with dependency graph + JSONL async mailbox between teammates + idle cycle autonomous task claiming.
worktree-shared-state.md(RVC-COAL 파일 기반 조율) + state-driven-orchestration.md(oh-my-codex 파일 영속) + canonical-workflow-fsm.md(spec-kitty FSM)의 패턴을 교육적으로 분해한 reference implementation. 특히 On-demand knowledge injection은 우리 skill 로딩 방식(시스템 프롬프트에 모든 skill 메타데이터)과 대조 — tool result로 lazy load 시 컨텍스트 절감. 3-layer context compression은 ECC strategic compact + nanobot context-on-the-fly와 결합 시 long session의 토큰 마찰 거의 제거. JSONL async mailbox는 우리 specialist 위임이 동기 Task 호출인 것과 대조 — 비동기 mailbox 도입 시 specialist가 idle 시점에 새 task 자동 claim 가능. 단, learn-claude-code는 명시적 educational이라 직접 도입 부적합 — 패턴 학습용 참조 가치. shareAI-lab/Kode CLI가 production 구현 — 별도 분석 후보. 5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1"Lightweight, powerful framework for multi-agent workflows." OpenAI 공식 SDK — Handoffs(에이전트 간 위임으로 hierarchical workflow) + Sessions(자동 conversation history management, in-memory or Redis) + Guardrails(declarative input/output validation, prompt engineering 아닌 deterministic constraints) + Sandbox Agents(containerized environments에서 file inspect/command execute/patch apply) + Realtime Agents(gpt-realtime-1.5 음성). 100+ LLM provider 지원. Built-in Tracing UI로 agent decision/tool invocation/handoff chain 검사.
gpt-realtime-1.5)는 음성 modality — 향후 Claude voice 도입 시 참조. Manifest + RunConfig는 우리 agent-manifest-pattern.md(microsoft/apm)와 정합 — declarative + reproducible 방향 표준화. 5축: 자동화 1 · 마찰제거 1 · HARD전환 1(guardrails exit code) · 토큰효율 1 · 측정가능 2(built-in tracing) → 6/10convergence-loop-no-mid-question.md + deterministic-orchestrator-scheduling.md의 외부 독립 재발견."Enforces compliance across agentic workforces — deterministic, hallucination-free orchestration." 매 step 종료 시 mandatory Stop hook이 발동하여 에이전트의 autonomous continuation을 물리적으로 차단. JavaScript workflow 함수가 허용 가능한 step sequence를 명시하고, if (score < 80) await ctx.task(refine) 같은 숫자 임계값 기반 Quality Gate로 LLM의 "괜찮아 보인다" 판단을 배제. Event-sourced journal로 세션 경계를 넘어 deterministic replay.
ctx.task() 종료 시 Stop hook 강제 — 에이전트는 다음 step 결정 권한 없음, 제어권이 프로세스 코드로 이관. (2) Process-as-Code Authority: workflow.js가 허용 step sequence를 명시, 에이전트는 ctx.task(spec) 범위 안에서만 동작 — "Your workflow is JavaScript — the orchestrator can ONLY do what this code permits". (3) Structured Breakpoints: 사람 승인 gate가 first-class 워크플로우 객체 — "제안이 아니라 필수 차단". (4) Quality Gate Convergence Loops: if (score < 80) await ctx.task(refine) 코드 기반 조건부 재시도, LLM 판단 배제. (5) Task Specification Binding: 각 ctx.task()가 에이전트 scope/inputs/outcomes 제약. (6) Event-Sourced Journal: 모든 의사결정 불변 JSONL 기록 — deterministic replay + resume-from-any-pointconvergence-loop-no-mid-question.md는 "CRITICAL=0 or EXHAUSTED까지 반복"을 말하지만 "진행 여부를 누가 결정하는가"는 여전히 Claude. babysitter의 forced-stop은 매 step 종료 시마다 에이전트를 정지시키고 다음 행동 결정권을 코드에 이관 — 환각을 감지(detection)가 아닌 실행 구조(architecture)로 차단. 우리 auto-block-stuck-tasks.md(4회 실패 블록) + deterministic-orchestrator-scheduling.md(스케줄러 결정론) + convergence-loop-no-mid-question.md(중간 질문 금지)를 forced-stop hook 하나의 primitive로 통합. Claude Code의 Stop 이벤트 hook에 네이티브 지원되므로 즉시 적용 가능. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(Stop hook + bash exit code) · 토큰효율 1 · 측정가능 1 → 8/10next-phase.sh 스크립트 결정으로 전환 시 "Phase 1 완료된 것 같음 → Phase 2 시작" 환각 제거. bug-fixer 로테이션의 4회 재시도를 score 기반 명시적 while 루프로 바꾸면 "다음 시도 해볼까?" 중간 질문 원천 차단. ~/.claude/journal.jsonl event-sourced 기록은 3개월 전 시점으로 정확히 replay/revert 가능 — 현재 흩어진 로그에서 얻을 수 없는 구조적 감사 능력~/.claude/journal.jsonl event-sourced 기록 · Claude Code Stop 이벤트 hook 네이티브 통합"Single Rust binary. Zero network listeners. Self-healing engine detects and recovers from provider failures, context overflow, tool failures, and malformed responses." 5가지 LLM 런타임 병리(컨텍스트 오버플로우/phantom tool call/gaslighting preamble/텍스트 반복/tool loop)를 LLM 호출 없이 구조적으로 감지·복구. Context 65% soft compaction → 90% hard truncation → 95% emergency rebuild의 3단계 자동 전환, Feedback Ledger 기반 Recursive Self-Improvement가 50 feedback/40% failure/3 correction/3 provider error 임계값에서 자동 발동.
tool_use block 없이 "I called search_web() and found..." 주장 시 즉시 correction 주입 "You claimed to call search_web but no call was made. Retry." (3) Gaslighting Preamble Stripping: "I see you want me to..." 같은 사용자 의도 재해석 preamble을 정규식으로 제거 — 원래 요청 왜곡 방지. (4) Text Repetition Stream Cancel: 같은 문장 3~5회 반복 감지 시 streaming 즉시 취소 + context rollback. (5) Tool Loop Break: 같은 tool call 4~8회 반복 감지 시 강제 break + "Try a different approach" 주입. Provider Recovery: fallback chain walk + sticky promotion (실패한 Claude → 성공한 GPT가 session-local 우선순위 획득)context-compression-pipeline.md(압축 전략) + unified-model-gateway.md(fallback) + convergence-loop-no-mid-question.md(루프 중단)를 분산 보유하지만, opencrabs처럼 런타임 self-healing engine 하나로 통합하지 못함. 특히 Phantom tool call detection은 Claude Code의 흔한 환각 패턴("파일을 읽었다고 주장하지만 실제로는 읽지 않음")을 구조적으로 차단 — QA 사후 발견보다 훨씬 빠르고 저렴. Feedback Ledger 자동 임계값(50/40%/3/3)은 우리 self-improve의 "fix: 커밋 쌓이면 pending 생성"보다 더 다양한 신호를 포착. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(임계값 기반 조건문) · 토큰효율 2(compaction) · 측정가능 0 → 보수적으로 8/10~/.claude/hooks/pre-llm-call.sh에 context 65% soft-compaction 자동화 시 long-running 세션의 context rot 마찰 제거. Phantom tool call detector 도입 시 "파일을 읽었다" 환각을 즉시 재요청으로 전환 → QA 단계까지 오지 않음. Sticky provider promotion은 기존 bug-fixer 4회 로테이션을 성공한 모델에 머무르기로 개선 — 실패율 통계적 감소"Turn Claude Code into a full game dev studio — 49 AI agents, 72 workflow skills." 단일 Claude Code 세션을 실제 게임 스튜디오 조직 구조(Directors → Department Leads → Specialists 3-tier)로 재구성. 에이전트 자율 실행 대신 "ask-present-decide-draft-approve" 협업 프로토콜을 강제 — 에이전트는 제안만 하고 사람이 결정. 12개 Automated Hooks + 11개 Path-Scoped Rules + 39개 Document Templates.
convergence-loop-no-mid-question.md의 반대 — 사용자 개입을 의도적으로 늘려 통제력을 확보. 게임 개발처럼 창의적·주관적 판단이 많은 도메인에서는 자동화보다 협업이 유리. 하지만 우리 철학(loopy-era 자동화 최대화)과 부분 충돌 — 참조만 하고 도입은 조심스럽게. 11 Path-Scoped Rules는 우리 frontend-patterns.md/backend-patterns.md를 파일 경로별로 더 세분화하는 영감 제공. 5축: 자동화 1 · 마찰제거 1 · HARD전환 2(Path-Scoped Rules hook) · 토큰효율 1 · 측정가능 2frontend/ vs backend/ vs db/) · Document Templates 패턴 연구 (GDD ≈ 프로젝트 requirement doc)"Multi-tool orchestration for Claude Code, Codex CLI, and Gemini CLI." 단일 Rust 바이너리가 state 관리, 동시 편집 방지, 제도적 지식 포착을 통합. .forge/locks/ 기반 exclusive file locking으로 동시 편집 차단, deadlock detection + timeout으로 crashed tool 대응, .forge/knowledge/ 자동 classification으로 cross-tool/cross-session 지식 플라이휠.
.forge/locks/에 exclusive lock 저장, concurrent request는 queue + lock-holder notification. Crash tool이 lock 붙잡는 것 방지하는 timeout + 순환 대기 감지하는 deadlock detection. 356 테스트 시나리오로 검증. (2) Drift Detection: "Compares in-progress work against specs, flags divergence early." — 진행 중 태스크가 원래 spec과 일치하는지 모니터링하여 계단식 실패 전에 불일치 표면화. (3) Knowledge Capture: .forge/knowledge/에 decisions/patterns/learnings 자동 카테고리 분류, 도구와 시간을 넘어 검색 가능. 새 도구 호출이 축적된 컨텍스트로 시작 → "flywheel of institutional memory"/codex:rescue로 Codex/GPT를 호출하는 순간 multi-tool 상황 발생. 특히 codex-convergence-loop.sh가 Codex와 Claude를 번갈아 실행할 때 파일 변경이 race condition 위험 — forge-orchestrator의 .forge/locks/ 패턴은 이 공백을 메움. Drift Detection은 우리 quantified-ambiguity-gate.md(ouroboros)의 ambiguity score와 유사하지만 실행 중 실시간 검증이라는 각도. .forge/knowledge/는 우리 memory-bank와 같은 방향이지만 자동 auto-classification이 novel — 우리 memory-bank는 수동 search 중심. 5축: 자동화 1 · 마찰제거 2(locking) · HARD전환 2(locks + drift exit code) · 토큰효율 1 · 측정가능 1.claude/locks/ 디렉토리 규약 정의index.json → llm -f docs:xxx 파이프라인으로 OpenAI 캐시 pricing 최적화. 네 프로젝트 모두 "SOFT 자연어 판단"을 "HARD 숫자/FSM/파일 경로"로 치환하는 공통 방향 — 우리 soft-to-hard-promotion.md + harness-report 철학의 외부 독립 검증."Stop prompting. Start specifying." 수학적 게이트로 워크플로우 phase를 분리: ambiguity score 0.2 미만일 때만 seed 확정, ontology similarity 0.95 이상 × 3세대 연속일 때 수렴, oscillation/70% 질문 중복/30-gen hard cap으로 stagnation 자동 감지. Double Diamond diverge-converge 구조 + PAL Router(frugal 1x → frontier 30x) 비용 자동 escalate/downgrade + event-sourced SQLAlchemy 영속화.
similarity = 0.5×name_overlap + 0.3×type_match + 0.2×exact_match, ≥0.95 × 3세대 연속 → 루프 종료. (3) Stagnation Patterns: period-2 oscillation, 70% 질문 중복, 3세대 동일 출력, 30-gen hard cap — 4가지 병리를 숫자로 감지. (4) PAL Router: 실패 시 1x → 6x → 30x 자동 escalate, 성공 시 downgrade. (5) Event-sourced persistence: SQLAlchemy + aiosqlite, 세션 경계를 넘어 full lineage 재구성. 9개 specialist agent(Interviewer/Ontologist/Evaluator/Contrarian 등) on-demand 로드 — preload 없음. 3-stage evaluation gate(Mechanical → Semantic → Multi-Model Consensus)convergence-loop-no-mid-question.md는 "CRITICAL=0 or EXHAUSTED까지 반복"을 말하지만 "CRITICAL=0인지 어떻게 측정하는가"는 여전히 LLM 판단. Ouroboros는 동일 질문에 weighted sum + threshold라는 수학적 답을 제시 — qa-scenario-gen//team Phase 0에서 시작 전 ambiguity gate 도입 시, Claude가 "이 정도면 진행하자" 스스로 판단하는 경우가 구조적으로 제거된다. Stagnation oscillation 감지는 특히 bug-fixer 4회 로테이션에서 "A 수정 → B 수정 → A 재발현" 패턴을 즉시 잡아내 codex:rescue로 조기 전환하는 근거가 됨 — 현재는 4회 모두 소진 후 에스컬레이션인데 oscillation 감지가 있으면 2회만에 전환 가능. PAL Router는 unified-model-gateway.md + provider-fallback-circuit-breakers.md의 추상적 원칙을 "성공/실패 신호 → 자동 tier 변경"이라는 구체 알고리즘으로 구현. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(threshold + python exit code) · 토큰효율 2(frugal 우선 + 조기 종료) · 측정가능 2 → 10/10급, 보수적으로 9/10ambiguity-gate.sh 도입 시 team-orchestrator가 모호한 plan으로 Phase 3 구현을 시작하는 빈도가 구조적으로 급락. 특히 "요구사항 양쪽 구현 필수" 위반(행만 구현하고 열 빠뜨림) 같은 반복 마찰이 진입 단계에서 차단. 30-gen hard cap은 self-improve/autoresearch 루프의 무한 오염 방지. 장기적으로 모든 loopy-era 루프(convergence-loop, bug-fixer, qa-cycle)가 "iteration count" 대신 "ambiguity/similarity/stagnation" 3지표로 수렴 판정 — loopy-era 철학의 자연스러운 완성ambiguity-gate.sh PoC (Goal/Constraint/Success weighted sum) · bug-fixer 로테이션에 oscillation detector 통합 · qa-scenario-gen 시작 전 ambiguity gate 의무화 · PAL Router 3-tier routing을 codex:rescue 대체 검토"Coordination is a file system problem, not a SaaS problem." 7-state canonical FSM(planned→claimed→in_progress→for_review→in_review→approved→done)을 tasks.md YAML frontmatter에 박고, computed swim-lane → single worktree mapping으로 "태스크당 브랜치 폭발"을 제거. spec-kitty next가 out-of-order 전이를 서버 사이드 reject.
tasks.md의 YAML frontmatter(wp_id/lane/claimed_by/assigned_swim_lane/history[])에 영속. (2) Computed Swim-Lane Worktrees: 기존 "태스크마다 워크트리 1개"를 버리고 의존성 그래프 + 워크로드로 레인 자동 계산, 레인당 1 worktree 재사용. 10 WP → 3~5 worktree로 축소. (3) Host API Boundary: spec-kitty next --agent X --mission Y → JSON action 반환, spec-kitty agent action implement WP01이 FSM 전이 + prompt emit을 원자적으로 수행. orchestrator-api contract-version으로 외부 오케스트레이터와 버전 계약. (4) Charter-as-Contract: 모든 worktree가 .kittify/memory/charter.md를 심볼릭 링크로 공유 → governance(코딩 규칙, 리뷰 기준)의 불변 일관성worktree-parallel-agents.md(worktrunk) + worktree-shared-state.md(RVC-COAL) 조합은 "격리 + 공유 상태"까지만 다룸 — 상태 전이 규칙과 레인 계산 알고리즘이 부재. spec-kitty의 7-state canonical FSM은 TaskCreate/TaskUpdate API를 서버 사이드 검증 가능한 유한 상태 기계로 격상시킨다 — 현재는 pending/in_progress/completed만 쓰지만 for_review/in_review/approved 단계 추가 시 code-reviewer → bug-fixer 핸드오프가 FSM 전이로 명시적 기록. Computed swim-lane은 특히 /auto-issue가 이슈 10개를 처리할 때 "이슈마다 브랜치 10개" 대신 "의존성 기반 3~5개 레인"으로 브랜치 폭발 차단. "Coordination is a file system problem"이라는 철학 선언도 우리 state-driven-orchestration.md(oh-my-codex)와 완전 일치 — spec-kitty가 그 원칙의 kubectl-style 상품화. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(FSM bash 검증 + lane 계산 결정론) · 토큰효율 1 · 측정가능 1 → 8/10canonical-workflow-fsm.md 채택 시 TaskUpdate가 out-of-order 전이를 거부하여 "pending에서 바로 completed로 건너뛰기"로 QA 스킵하는 패턴을 구조적 차단. .worktrees/feature-x-lane-{a,b,c} 디렉토리 구조는 team-orchestrator Phase 3에서 specialist 3~5명을 레인별 배치 → 브랜치 merge conflict 제로. Charter 심볼릭 링크는 ~/.claude/CLAUDE.md + 프로젝트 CLAUDE.md의 워크트리별 일관성 보장 메커니즘으로 응용 가능"Organizations of autonomous AI agents that run experiments, share knowledge, and continuously improve." 각 에이전트가 독립 worktree에서 작업하되 .coral/public/를 심볼릭 링크로 공유 — "zero sync overhead로 실시간 peer 작업 가시성". uv run coral eval -m "..." 단일 명령이 stage + commit + grade를 원자적으로 수행, persistent leaderboard가 attempt diff 누적.
.coral/public/ 심볼릭 링크로 attempts/notes/skills 공유. 우리가 이미 가진 worktree-shared-state.md(RVC-COAL)와 같은 방향이지만, 별도 org의 독립 구현. (2) Eval-on-Commit: coral eval -m "description" 한 줄이 stage → commit → grade → leaderboard 기록 — 수동 단계 4개를 1개로 축소. (3) Manager Orchestration with Heartbeat Prompts: 새 attempt 감지 시 "reflect"/"consolidate skills" 프롬프트를 에이전트에 interrupt. 수동 reflect 요청 대신 자동 주기 개입. (4) Evolution Operators 3종: Consolidation(.coral/public/skills/로 스킬 추출), Reflection(실패 회고), Branching(worktree 기반 병렬 탐색). Warm-start phase에서 자동 literature review(웹 검색 → raw source 저장 → research notes → index) 수행. Claude Code / OpenCode / Codex 멀티 런타임worktree-shared-state.md + recursive-self-improvement-loop.md와 겹치지만, 두 가지 독창적 원소가 있다. (a) Eval-on-commit 단일 명령: 우리 qa-cycle이 "빌드 → 테스트 → 린트 → 커밋"을 분리된 단계로 수행하는데, CORAL처럼 ~/.claude/scripts/qa-commit.sh "설명"로 축소 시 에이전트가 "QA 건너뛰고 커밋"하는 패턴 구조적 차단(QA 실행이 커밋 행위 자체). (b) Heartbeat-triggered reflection prompts: 우리 self-improve는 "fix: 커밋이 쌓이면 pending 파일 생성"이지만, CORAL의 주기적 interrupt는 더 적극적 — 장시간 세션에서 "지금까지의 skill을 consolidate하라"를 에이전트에게 능동적으로 발행. persistent leaderboard는 ~/.claude/logs/trial-results.tsv(autoresearch results.tsv)의 발전형. 5축: 자동화 2 · 마찰제거 1 · HARD전환 2(eval exit code + leaderboard SQL) · 토큰효율 1 · 측정가능 2qa-commit.sh eval-on-commit 래퍼 PoC · self-improve에 heartbeat reflection 스케줄러 검토 · ~/.claude/logs/trial-results.tsv leaderboard 구조 확장 · warm-start literature review를 new-project init에 통합 검토"Concatenated documentation for use with LLMs." 5개 오픈소스 툴(llm/datasette/sqlite-utils/s3-credentials/shot-scraper)의 docs를 버전별 단일 .txt로 aggregate, index.json으로 메타데이터 제공. llm-docs 플러그인 통합 시 llm -f docs:llm 'how do I embed a binary file?'처럼 CLI에서 즉시 query. OpenAI 캐시 pricing 최적화로 반복 질문 경제성 확보.
build-docs.sh + build_index.py가 source repo 스크래이핑 → 버전별 concat → .txt 출력. GitHub Actions로 주기 갱신. (2) Docs as first-class LLM artifact: 문서를 "읽을 HTML"이 아니라 "prompt에 주입할 단일 파일"로 재정의 — 152K+ 토큰 파일도 cache-hit 경제성으로 실용 가능. (3) Tool-ecosystem-scoped aggregation: 프로젝트별로 모든 관련 툴의 docs를 함께 번들 → 에이전트가 "llm 패키지에서 stdin 파일 어떻게 처리?"처럼 질문 시 단일 context로 해결. simonw 자신이 만든 툴들을 직접 dog-fooding한 결과물 — 실전 감각 강함file-to-markdown-pipeline.md(microsoft/markitdown) + context-compression-pipeline.md(claw-compactor)와 철학 유사 — 다만 docs-for-llms는 "외부 의존성(프레임워크/라이브러리) 문서를 프로젝트 init 시점에 aggregate"라는 새로운 각도. 현재 우리 /init-project는 프로젝트 코드베이스만 분석하지만, 의존성 패키지 docs(React/Next.js/Supabase/Remotion 등)를 .claude/docs-bundle.txt로 번들링 시, specialist agent가 모르는 API를 물어볼 때 웹 검색 대신 로컬 파일 참조 가능 → OpenAI cache-hit 경제성 + 토큰 절감. simonw의 dog-fooding 자세(자기 툴만 번들링)도 참조 가치 — 우리 scaffold skill이 "다른 프로젝트에도 일반화"를 지향하기보다 "이 프로젝트의 실제 의존성만 번들"하는 게 더 실용적. 5축: 자동화 1 · 마찰제거 1 · HARD전환 1 · 토큰효율 2 · 측정가능 1/init-project에 의존성 docs bundling step 추가 검토 · .claude/docs-bundle.txt 포맷 정의 · llm-docs 플러그인 패턴을 claude -f에 이식 가능성 연구 · 주기 갱신 GitHub Action templatedeterministic-orchestrator-scheduling.md + declarative-agent-coordination.md + worktree-parallel-agents.md를 흩어서 보유 — Archon은 이들을 단일 harness builder로 productization한 외부 검증. Hashline은 Edit 도구의 고전적 "stale-line" 실패를 구조적으로 차단하는 genuinely novel primitive."The first open-source harness builder for AI coding. Make AI coding deterministic and repeatable." 개발 프로세스를 .archon/workflows/*.yaml DAG로 선언하고, 결정론 노드(bash/git/tests)와 AI 노드(prompt)를 혼합 실행. 각 워크플로우 실행은 전용 git worktree에서 격리되어 병렬 충돌 제거. Platform adapter(Web UI/CLI/Telegram/Slack) → 단일 orchestrator → DAG executor → SQLite 상태.
depends_on으로 순서 고정, validation_gates로 exit code 기반 HARD 판정, output_artifact로 산출물 존재 검증. (2) Node 타입 혼합: prompt(AI 위임) · bash(결정론 실행) · loop(until 조건까지 fresh context 반복) · interactive(사용자 승인). 핵심 통찰은 "구조는 결정론적으로 사람이 소유, intelligence만 AI가 채운다". (3) Worktree Isolation: 매 실행이 독립 worktree → 병렬 워크플로우 merge conflict 제로, 실패 시 worktree 폐기로 자동 rollback. 자연어 선택("use archon to fix issue #42") → router가 워크플로우 자동 매칭 → PR 형태로 결과 surface. Stream 출력: "Planning... Implementing (task 1/4)... Tests passing after 2 iterations..."declarative-agent-coordination.md(takt, YAML 아이디어) + deterministic-orchestrator-scheduling.md(bernstein, 결정론) + worktree-parallel-agents.md(worktrunk, 격리) + fresh-context-iteration.md(ralph, loop+until)을 단일 harness builder로 통합한 productization. 특히 /qa-cycle, /auto-issue 같은 반복 워크플로우를 YAML로 이관 시 자연어 재지시 비용 제거. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(YAML schema + DAG cycle + artifact exist + exit code) · 토큰효율 2(구조 재추론 제거) · 측정가능 1 → 9/10.claude/workflows/team.yaml로 Phase 0~5를 DAG로 이관하면 "team-orchestrator가 매 실행마다 Phase 구조를 재발명하는 현상" 종결. Worktree 격리 덕분에 team-orchestrator를 2개 동시 실행해도 브랜치 충돌 없음 — 장시간 돌리는 autoresearch/trend-harvester 루프와 상시 개발 task를 병렬화 가능. 장기적으로 YAML 워크플로우를 git에 커밋 → "이 프로젝트의 개발 프로세스"를 감사 가능한 자산으로 축적.claude/workflows/*.yaml 스키마 정의 · team Phase 0~5 YAML PoC · worktree isolation을 기본 team 실행 경로에 통합 · DAG cycle 검출 bash 스크립트"The best agent harness." 가장 독창적 primitive는 Hashline — 각 코드 라인에 content hash(LINE#ID)를 앵커링하여 에이전트가 라인 내용을 복제하지 않고 해시로 참조. 한 벤치마크에서 edit 성공률이 6.7% → 68.3%로 급등. 고전적 "stale-line error"(LLM이 외운 예전 코드로 edit하다 실패)를 구조적 차단.
category(visual-engineering/deep/quick/ultrabrain)만 선언 → harness가 GPT-5.4/Kimi K2.5/Claude 중 최적 자동 라우팅. (4) Skill-Embedded MCPs: 툴 서버(web search, GitHub search, docs)가 글로벌 로드되지 않고 스킬마다 on-demand 스폰 → 컨텍스트 예산 보존. 기타: IntentGate(의도 사전 분류), Ralph Loop(/ulw-loop 100%까지 자기 호출), Todo Enforcer(유휴 에이전트 복귀), LSP+AST-Grep(IDE급 refactor). 저자 강경 포지션: "Claude Code's a nice prison, but it's still a prison"old_string 매칭은 LLM이 파일을 정확히 기억해야 성공 — 긴 세션/큰 파일에서 "그 사이 내용이 바뀐 줄 모르고 예전 내용으로 edit 시도 → 실패" 패턴이 반복됨. Hashline은 이 문제를 라인별 content hash로 우회: agent는 라인 내용을 부정확하게 기억해도 해시만 맞으면 정확한 위치에 삽입/수정 가능. 6.7% → 68.3%는 통계적으로 거대한 개선 — 구현 가능성 있는 최고 가치 primitive. Category-based routing도 우리 unified-model-gateway.md의 상위 개념(포맷 변환 < 카테고리 선언). Skill-Embedded MCP는 현재 프로젝트별 .mcp.json 중앙 관리보다 스킬 단위 scope가 토큰 절감에 유리. 전체 도입은 크지만 Hashline만이라도 Edit 도구에 실험 가치 높음. 5축: 자동화 1 · 마찰제거 2(stale-line 원천 차단) · HARD전환 2(해시 검증 exit code) · 토큰효율 2(라인 복제 불필요) · 측정가능 1 → 8/10"Production-grade engineering skills for AI coding agents." 20개 스킬을 6-phase(Define/Plan/Build/Verify/Review/Ship)로 조직. 각 스킬은 anti-rationalization table(에이전트가 자주 시도하는 shortcut에 대한 반박 문구) + verification-first(evidence 없이는 skill 종료 불가) + 100줄 이하 atomic commit norm. Addy Osmani(Google) 주도.
.claude/commands에 7개 slash command(/spec, /plan, /build, /test, /review, /ship, /code-simplify)completion-verification.md, test-first-agent-tasks.md, qa-browser-test-required.md가 이미 "evidence 기반 판정" 원칙을 담고 있음 — addyosmani는 이를 6-phase × 20 skills × anti-rationalization table이라는 구조로 상품화. 전체 도입은 과함(우리는 이미 scaffold 체계 보유)이지만, anti-rationalization table 포맷은 즉시 채택 가치. 각 rule에 "이 규칙을 우회하려는 흔한 시도" 섹션을 추가하면 qa-gate-before-push처럼 hook으로 차단된 후에도 LLM이 다른 경로로 우회하는 패턴을 사전에 명명. Shift Left, Chesterton's Fence 같은 Google SRE/SWE 개념 reference도 karpathy-coding-principles.md와 상호보완. 5축: 자동화 1 · 마찰제거 2 · HARD전환 1 · 토큰효율 2 · 측정가능 1"The GEP(Gene Expression Programming)-Powered Self-Evolution Engine for AI Agents." 코드를 자동 수정하지 않고 "프로토콜에 바인딩된 prompt를 emit"하여 다음 진화 단계를 유도. 모든 evolution이 events.jsonl에 기록되어 audit 가능. Signal → Asset(Gene/Capsule) → Prompt emission 3단계 사이클.
events.jsonl에 append-only 기록 — 롤백/재현 가능. (4) Signals: memory/ 로그에서 추출된 에러 패턴·성능 지표가 selection logic 구동. 핵심 혁신은 "protocol-constrained evolution with audit trails" — 에이전트가 free-form modification 대신 GEP 프로토콜을 경유한 deterministic step으로만 개선. Mutation 객체 + evolvable PersonalityState로 runaway change 차단recursive-self-improvement-loop.md(autocontext) + checkpoint-before-mutation.md(moltis) + agent-skill-extraction.md(hermes)는 이미 "변경 전 스냅샷 + 사후 검증 + 성공 패턴 축적"을 담고 있음. evolver의 기여는 "evolution event를 JSONL append-only로 기록하여 시간 역행 재현 가능"하게 만든 HARD 포맷. 우리 ~/.claude/logs/에 이미 action-log가 있지만 "evolution event" 의미론적 구조는 부재. Gene/Capsule 개념도 흥미로우나 우리 scaffold-rule 체계와 중복. 전체 도입보다는 self-improve가 만든 변경을 evolution-events.jsonl로 구조화 기록하는 패턴만 채택 가치. protocol-constrained의 "free-form 수정 금지" 철학은 recursive-self-improvement-loop.md의 Curator 단계 미구현 문제를 보완. 5축: 자동화 1 · 마찰제거 1 · HARD전환 2 · 토큰효율 1 · 측정가능 2~/.claude/logs/evolution-events.jsonl append-only 기록 포맷 정의 · self-improve가 만든 rule 변경을 event로 구조화 · Curator 단계에 evolution event 검색 추가"Traditional kanban boards treat AI as passive task executors." 에이전트에게 cryptographic identity를 부여하고 직접 태스크를 생성·할당·피어 리뷰하게 만든 kubectl-style 리소스 보드. depends_on 필드 + cycle detection + atomic claim으로 race condition 차단. 별 수 적지만 primitive 설계가 선명.
task create/get/update/delete에 YAML/JSON spec (boardId, title, priority, labels, repo, assignTo) — 선언적 의도를 git에 커밋 가능. (3) Self-authored hierarchies: 에이전트가 depends_on 필드로 자기 subtask를 생성하고 peer에게 delegate, cycle detector가 무한 루프 차단. (4) State machine + atomic claim: todo → in_progress → in_review → done, 동시 claim은 D1(Cloudflare SQLite)에서 원자적 실패 처리. 2시간 idle 감지로 stale 자동 복구. Skills을 npx skills add로 설치, ak-plan/ak-task로 에이전트가 런타임에서 직접 호출. 역할(architect/frontend/backend/reviewer)별 스킬 로딩으로 specialist 자동 라우팅. Claude Code + Codex + Gemini CLI + Copilot 모두 지원created_by/claimed_by 필드 표준화는 즉시 가능. 기존 deterministic-orchestrator-scheduling.md의 assign_agent() 결정론 + 이 rule의 self-authored task가 결합되면 "스케줄링은 확정적, 태스크 생성은 분산"이라는 바람직한 분리 구조 완성. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(D1 atomic claim + cycle detector exit code) · 토큰효율 2(orchestrator 왕복 제거) · 측정가능 1 → 9/10.claude/tasks.yaml를 git에 커밋 → 태스크 히스토리가 감사 가능. 장기적으로 ak-task류 스킬이 skill marketplace 표준화되면, 다양한 프로젝트에서 동일 태스크 API를 공유 가능 — manifest 패턴과 자연스럽게 결합created_by/depends_on 필드를 TaskCreate 표준에 추가 · cycle detector bash 스크립트 도입"Never stop coding. Smart routing to FREE & low-cost AI models with automatic fallback." 13개 balancing 전략(priority/weighted/round-robin/power-of-two-choices/cost-optimized/context-relay) + 4-tier fallback(Subscription → API Key → Cheap → Free) + anti-thundering-herd mutex + per-provider circuit breaker. 기존 unified-model-gateway의 HARD 업그레이드판.
unified-model-gateway.md(new-api 기반)는 "포맷 변환 + 채널 가중치"까지만 명시. OmniRoute의 "구독 소진 → free-tier 자동 전환", "circuit breaker 반응형 disable", "power-of-two-choices 통계적 최적화"는 상위 개념. 특히 bug-fixer 4회 로테이션이 "모델 A → 모델 B → codex:rescue → 모델 D" 방식인데, 이는 라운드 로빈 수준에 불과. 4-tier fallback + circuit breaker를 도입하면 "모델 A가 이미 3회 연속 timeout → 자동 disable → 남은 3회는 다른 프로바이더"로 더 지능적인 회피 가능. Anti-thundering-herd mutex는 병렬 team-orchestrator가 동시에 같은 프로바이더에 몰릴 때 필수. 비용 관점: free-tier(Qwen 50M token/day) 자동 활용만으로도 self-improve/trend-harvester 같은 반복 작업의 월 API 비용 절감 가능. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(SQLite compliance audit + circuit breaker state) · 토큰효율 1 · 측정가능 1 → 8/10~/.claude/logs/model-quota.jsonl에 프로바이더별 RPM/소진율 기록 시, self-improve가 "이번 달 어느 모델이 bottleneck인가"를 통계 분석 가능. 장기적으로 codex:rescue 3차 전략이 "단순 GPT 전환"이 아니라 "전체 프로바이더 tier traversal"로 승격. team-orchestrator의 병렬 specialist 호출 시 circuit breaker 상태 고려하여 자동 부하 분산"Turn coding agents into real teammates — assign tasks, track progress, compound skills." Next.js + Go + PostgreSQL/pgvector 하이브리드 클라우드. 워크스페이스 격리 + runtime authorization(CLI 존재하는 곳에만 라우팅) + WebSocket 실시간 진행 스트리밍. "Reusable skills"가 팀 라이브러리 자산으로 누적되는 구조.
pgvector 벡터 임베딩으로 저장, 유사 문제 발생 시 자동 검색. 우리 agent-skill-extraction.md(hermes-agent 기반)과 같은 방향이지만 팀 단위 공유 + 벡터 검색이 추가. (2) Runtime authorization: 에이전트가 특정 워크스페이스에서 작업할 때 which claude/which codex 등 CLI 존재 여부를 자동 확인 후 라우팅 — 없는 CLI로 태스크 dispatch 하는 실수 구조적 차단. (3) Enqueue→Claim→Start→Complete 라이프사이클: WebSocket 기반 실시간 상태 전이, 동시 claim은 단일 winner 보장. License는 open-source + 클라우드 옵션(multica.ai/app) 병행 — 기존 사고파는 plugin marketplace보다 느슨한 self-host 모델agent-skill-extraction.md가 이를 지시하지만 bash 스크립트로 자동화되어 있지 않음 — multica는 "문제-솔루션 쌍"을 pgvector로 저장하고 유사도 검색으로 재사용" 파이프라인을 완성했음. 또한 runtime authorization이 우리 agent-delegation-strategy.md의 "키워드 매칭 + 자동 추가" 로직보다 한 단계 HARD — "이 에이전트가 실제 사용 가능한가"를 런타임에서 검증. 개념 참조만: (a) skill library 벡터화 구조, (b) runtime authorization의 which 체크 패턴. 5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2which 기반 runtime authorization pre-check · skill-extraction 파이프라인 bash 자동화"AionUi is more than a chat client. It's a Cowork platform where AI agents work alongside you on your computer — reading files, writing code, browsing the web, and automating tasks." 20+ LLM 플랫폼 통합(Claude Code / Codex / Qwen Code / OpenClaw), MCP tool registry 통합, cron 스케줄러로 24/7 unattended 실행. Electron + SQLite + WebUI/Telegram/Lark/DingTalk 원격 접근.
.mcp.json을 수동 관리하는 것보다 앞선 통합. (2) Cron-scheduled tasks: 자연어로 작업 서술 → 스케줄러가 주기적으로 실행 → 24/7 unattended. 우리 /loop 10m /auto-issue 패턴과 동일 철학이지만 UI로 노출. (3) Preview panel validation: PDF/Word/Excel/PPT/code/Markdown/image/HTML 등 10+ 포맷을 앱 안에서 즉시 검증 — agent가 만든 산출물의 즉시 QA 가능. (4) Remote access via Telegram/Lark/DingTalk: 우리 rc 플러그인(Telegram reply → Claude Code 브릿지)과 유사한 원격 개념이지만 여러 채널 지원. 22K⭐는 주로 "Google sign-in + 12 pre-built assistants + one-click Homebrew"의 onboarding 마찰 최소화 때문loopy-era-workflow.sh가 이미 cron 스케줄로 self-improve 가능하지만, "자연어로 scheduled task를 생성"하는 UX는 없음. 또한 unified MCP registry 개념이 프로젝트별 .mcp.json 관리를 간소화할 힌트를 줌 — ~/.claude/mcp-registry.json에 모든 MCP 서버를 중앙 등록하고 프로젝트별로 활성화 목록만 관리하는 구조. Preview panel validation은 특히 frontend-specialist/figma-designer가 만든 UI 산출물을 즉시 시각 검증하는 자동화 아이디어 — 이미 qa-screenshot-required.md가 지시하지만 수동 확인 단계. 22K⭐ 도달은 "agent-as-collaborator" UX 수요의 외부 검증 — 우리가 CLI로 제공 중인 기능이 대중 타겟 UX로 상품화되고 있다는 신호. 5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 1cross-model-adversarial-review로 이미 채택한 "모델 혼합"이 Parallel Code(Electron 기반 desktop UI)로 상품화되고, trend-harvester 자체가 last30days-skill 형태로 22K⭐ 스킬로 패키징되어 널리 퍼지고 있음 — loopy-era 접근법이 외부에서도 독립 도달하고 있다는 신호."AI coding tools re-read your entire codebase on every task." Tree-sitter 파싱 → SQLite 노드/엣지 그래프 → git hook 증분 인덱싱 → blast-radius 분석. 실측된 평균 8.2× 토큰 감소, 모노레포 벤치마크에서 "27,700+ 파일 제외, 실제 읽은 파일 약 15개". recall 100%.
get_minimal_context_tool, detect_changes_tool, /code-review-graph:review-pr), Claude Code + Cursor + Windsurf + Zed + Continue 자동 감지 설정. 6개 실제 repo에서 4.9× ~ 27.3× 토큰 절감 측정. 23개 언어 + Jupyter 지원task-quality-gate.sh가 "실제 영향받는 페이지만 테스트하라"를 exit code로 강제할 수 있다. 기존 context-compression-pipeline.md, codebase-packing-pattern.md, codebase-search-before-create.md가 제시한 "토큰 절감" 원칙의 HARD 구현체 — 기존 rules가 "재탐색 피하라"고 말할 때, code-review-graph는 "AST 그래프에 영구 저장하고 변경 파일만 2초 업데이트"라고 말한다. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(sqlite count + changes-since exit code) · 토큰효율 2 · 측정가능 2 → 10/10급 (첫 만점).code-graph.db 도입 후 code-reviewer / bug-fixer / frontend-specialist 호출 시 prompt에 "변경 영향 파일 목록"을 JSON으로 주입 → specialist가 grep 재탐색 0. ~/.claude/logs/token-savings.jsonl에 실측 절감률 기록하면 self-improve가 "어떤 작업 유형에서 가장 큰 절감이 나는지" 통계적으로 분석 가능. 장기적으로 "프로젝트별 graph DB 유지 정책"이 .claude/manifest.yml의 표준 필드가 될 수 있음"Evolution is not optional. Adapt or die." Genome Evolution Protocol(GEP)로 Gene/Capsule/Event를 정의, Signal Detection → Asset Selection → Prompt Generation → 불변 Audit Event 기록 사이클. scattered prompt tweak을 auditable, reusable, rollback-가능한 evolution asset으로 승격.
memory/ 디렉토리에서 runtime log, error pattern, performance signal 스캔, (2) Asset Selection — assets/gep/에서 best-matching Gene/Capsule 선택, (3) Prompt Generation — protocol-bound GEP prompt 발행(strict JSON selector 강제, free-form 금지), (4) Audit Trail — EvolutionEvent를 immutable log로 기록. 핵심 primitive 3종: Gene(validation command 포함 재사용 solution template), Capsule(조합된 evolution strategy), Event(모든 변경의 불변 감사 레코드). Strategy preset 4종(balanced/innovate/harden/repair-only)으로 evolution intent 제어. Git-based rollback + blast radius 계산 + validation gate로 autonomous code overwrite 방지recursive-self-improvement-loop.md에서 이미 지적된 공백). 결과적으로 3개월 후 자연 감퇴에만 의존하고 scaffold bloat 가속. Evolver의 EvolutionEvent 불변 로그를 채택하면 self-improve가 scaffold에 rule을 추가한 시점/근거/예상효과를 감사 가능한 형태로 기록 → Curator가 그 기록을 근거로 weak rule을 객관적으로 골라낼 수 있다. 또한 "strict JSON selector 강제 — free-form 금지" 원칙은 우리 self-improve 프롬프트가 Claude에게 "어떤 규칙을 추가할지 자유롭게 제안하세요"라고 풀어둔 현재 방식보다 훨씬 수렴력 높음. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(EvolutionEvent jsonl line count) · 토큰효율 1 · 측정가능 2~/.claude/evolution-events.jsonl append-only 로그 도입 시, Curator가 "90일 trigger_count < 2" 같은 결정을 순수 bash로 판정 가능. 현재 agent-memory-hygiene.md가 SOFT 지시로 남긴 rule 수명관리를 HARD 전환. 장기적으로 "scaffold 변경 전 Gene selection → Prompt generation" 파이프라인이 self-improve의 표준 flow가 될 수 있음 — 현재 자유 발상 기반보다 재현성 높음"Turn wait time into parallel progress." Electron + SolidJS 데스크톱 앱. 태스크 생성 시 자동으로 (1) main에서 새 브랜치, (2) git worktree로 별도 디렉토리 할당, (3) node_modules/gitignored 심볼릭 링크, (4) 해당 worktree에 AI 에이전트 spawn. Claude Code / Codex CLI / Gemini CLI 동시 사용.
node_modules 심볼릭 링크 + gitignored 디렉토리 공유로 디스크 사용량 최소화worktree-parallel-agents.md, worktree-shared-state.md, cross-model-adversarial-review.md, llm-council-pattern.md가 이미 "여러 모델/에이전트를 동시 돌리고 결과 비교"를 rule로 명시. parallel-code는 그 rule의 상품화된 구현. 다만 (a) Electron UI는 우리 CLI 워크플로우와 맞지 않고, (b) 529⭐로 아직 초기 단계라 바로 도입은 risk. 개념 참조만 — "desktop app 추상화 없이도 동일 효과를 내려면 orchestrator가 내부적으로 worktree + multi-CLI spawn을 투명하게 처리해야 한다"는 설계 방향 확인. codex:rescue 3차 로테이션이 이미 유사 패턴(다른 모델 전환)이지만 시각화/모니터링 부재"Google aggregates editors. /last30days searches people." Reddit 업보트, X 트렌딩, YouTube 풀 transcript, HN, Polymarket 예측 확률, GitHub activity, TikTok/Instagram/Threads/Pinterest/Bluesky를 동시 검색. 편집자 큐레이션이 아닌 실제 engagement score 기반 랭킹.
loopy-era-trend-harvester(이 스킬 자체)가 현재 GitHub + RSS + X 미러만 커버. last30days-skill의 8개 플랫폼 동시 검색 + engagement scoring은 우리 수확 품질 향상에 직접 기여 가능. 특히 Polymarket 예측 확률을 "기술 트렌드에 대한 시장 자신감"으로 활용하는 아이디어는 신선 — GitHub 스타 수는 hype를 반영하지만 Polymarket odds는 실제 돈이 걸린 신호. 다만 22K⭐ 스킬 전체 통합은 오버엔지니어링 — (a) entity resolution 전처리, (b) per-author cap, (c) duplicate cross-source merging 세 가지만 trend-harvester에 채택. 또한 우리가 만든 loopy-era-trend-harvester가 유사 문제를 해결하려다 last30days에 이미 22K⭐ 스케일로 상품화됐다는 사실 자체가 외부 검증 — 이 문제가 보편적이라는 증거. 5축: 자동화 2 · 마찰제거 1 · HARD전환 1 · 토큰효율 1 · 측정가능 2"When you ask an AI agent to 'fix this bug', what happens depends on the model's mood. Archon fixes this. Encode your development process as a workflow." 워크플로우를 YAML DAG로 선언하고 git에 커밋 → 동일 config = 동일 실행 시퀀스. AI는 각 노드의 지능 채움에만 사용, 구조는 결정론적으로 고정.
.archon/workflows/*.yaml이 primary artifact — 버전 관리됨, 팀 공유됨, 매 실행마다 동일 순서 보장. 노드 타입 2종: (1) deterministic nodes(bash script, test runner, git — LLM 호출 0), (2) AI nodes(plan/implement/review — LLM 지능이 필요한 곳만). Loop nodes는 "until tests pass", "until approved" 같은 완료 기준을 YAML 필드로 명시 + fresh_context 옵션으로 매 iteration 초기화. Isolated worktrees: 매 실행마다 독립 git worktree → 병렬 실행 충돌 0. 17개 built-in workflow (issue fixing, feature development, PR review, architecture improvement, testing). 다중 플랫폼: CLI / Web UI / Slack / Telegram / Discord / GitHub webhook이 동일 워크플로우를 트리거. Bun runtime + TypeScript + SQLite(dev)/PostgreSQL(prod) 7-table schemadeterministic-orchestrator-scheduling.md, agent-manifest-pattern.md (APM)로 "무엇을 설치하는지 선언"은 해결 중이지만, "어떤 순서로 실행하는지 선언"은 미해결. Archon의 YAML DAG가 그 공백을 정확히 메움. 세 패턴 조합: manifest(무엇) + workflow(어떻게) + scheduler(무슨 순서로) → 완전한 AI harness를 git artifact로 버전 관리. 5축 고득점: 자동화 2 · 마찰제거 2 · HARD전환 2(YAML schema validation + yq 파싱) · 토큰효율 2(조율 판단 토큰 0) · 측정가능 1/team Phase 1~5를 .claude/workflows/team-orchestration.yaml로 재작성 시 Phase 전이가 자연어 판단 → exit code 기반으로 전환. 재현 테스트 작성 가능 — 동일 commit hash + 동일 workflow → 동일 실행 결과 assert. auto-issue의 "이슈 분석 → 브랜치 생성 → 구현 → QA → PR" 전체를 YAML 1파일에 압축 → 신규 기여자 onboarding 시간 대폭 단축. 장기적으로 orchestrator 토큰 소모 순수 AI node에만 집중되어 비용 예측 가능"~10x token savings by filtering before fetching details." 3-layer 점진적 공개 워크플로우: search(50-100토큰 인덱스) → timeline(시계열 맥락) → get_observations(필터링된 ID만 full detail 500-1000토큰). 전통적인 "fetch all upfront" 접근을 근본적으로 뒤집음.
claude-mem search가 반복 호출될 때 누적 토큰 절감 효과 큼. 5개 lifecycle hook을 우리 settings.json에 추가하면 capture도 자동화 — 수동 remember: 호출 감소"AI coding agents default to the shortest path — which often means skipping specs, tests, security reviews." 20개 production-grade skill + 3개 specialist persona. 핵심 혁신: anti-rationalization tables — AI가 흔히 내는 변명("테스트는 나중에 추가할게요")과 그에 대한 구조적 반박을 각 skill 마지막에 테이블로 고정.
web-performance-budget.md의 출처와 동일). Tool-agnostic markdown (Claude / Cursor / Gemini / Windsurf / Copilot 공통)Anthropic 공식 Agent Skills marketplace. ./spec에 Agent Skills specification, ./template에 표준 template, .claude-plugin에 marketplace config. Document manipulation skills(docx/pdf/pptx/xlsx)가 source-available로 공개 — Claude의 문서 처리 능력이 어떻게 구현되는지 레퍼런스.
SKILL.md 최소 구조: YAML frontmatter(name, description) + markdown body. name은 lowercase + hyphens, description은 "트리거" 역할 (29차의 shanraisshan이 제시한 원칙과 일치). 84.4% Python + 12.4% HTML — 즉 대부분 skill이 Python 스크립트를 수반. 14명 contributor, 13.9k fork로 커뮤니티 기여 활발. 6개 주요 카테고리: Creative & Design / Development & Technical / Enterprise & Communication / Document Skills / Web App Testing / MCP Server Generationagent-skills-format.md로 SKILL.md 표준을 채택했지만, Python 스크립트를 수반하는 skill은 거의 없음. 대부분 markdown-only로 자연어 지시에 그침. 공식 skills repo가 증명: skill = markdown + executable scripts가 원래 의도. document skill들의 source-available 구현은 "skill이 어떻게 Python helper를 호출하는지"의 레퍼런스로 가치. 향후 우리 skill 중 반복 계산/검증이 필요한 것(harness-report, harness-scorecard 등)은 helper script 동반 버전으로 확장 검토"Step 6 failed. Fix the file. Retry just that step. Green. No checkout, no reinstall, no waiting." 실패 시 컨테이너를 파기하지 않고 state(env/tool/artifact)를 보존 → 수정 후 그 step만 재실행. bind-mount 캐시로 의존성 설치 시간 수분→수초.
--pause-on-failure 플래그로 활성화, retry --name으로 failed step만 재실행.qa-evidence.json에 per-step status + cache_valid 필드 추가하면 부분 재실행 가능. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2(exit code 파싱 per step) · 토큰효율 2(중복 빌드 제거) · 측정가능 1"The task scheduler is plain Python. No LLM calls in selection, retry, or reap decisions." 17개 CLI 에이전트(Claude/Codex/Gemini/Cursor/Aider...)를 하나의 결정론적 scheduler로 조율. LLM은 task 분해와 실제 구현에만 사용.
select_next_task(), should_retry(), assign_agent()를 실제 bash/python 함수로 만들면 orchestrator는 스크립트 호출 결과를 그대로 신뢰 → HARD 전환. 5축: 자동화 2 · 마찰제거 2 · HARD전환 2 · 토큰효율 2 · 측정가능 1"Every rule the author writes becomes a ceiling. The model can only do what the instructions say and can't go further. Waza goes the other direction. Each skill sets a clear goal and the constraints that matter, then steps back." 8개 skill 최소주의, 30일/300세션/7프로젝트/500시간에서 정제.
/think(요구사항 pressure-test), /design(UI 아이덴티티), /check(diff 리뷰+자동수정), /hunt(체계적 디버깅), /write(중영 자연스러운 산문), /learn(6단계 리서치), /read(URL/PDF를 Markdown으로), /health(Claude 설정 감사). 각 skill은 폴더 구조로 reference docs + helper scripts + gotchas. 핵심 철학은 "Superpowers/gstack처럼 무거운 도구의 ceiling 문제" 지적 — 저자가 쓴 모든 규칙이 모델의 상한이 됨. Waza는 목표/제약만 명시하고 물러남"Stop explaining your stack. Start shipping." 단일 플러그인 /plugin install ork에 103 skills, 36 agents, 172 hooks 포함. /ork:setup이 코드베이스 스캔 → 스택 감지 → skill 추천 → readiness score 산출.
/ork:setup 한 줄로 "코드베이스 분석 + tech stack 감지 + MCP 추천 + readiness score". Release channel(stable/beta/alpha) 구조로 버전 관리. Claude Code ≥ 2.1.113 지원package.json/Cargo.toml/pubspec.yaml 등을 감지해서 "Flutter 프로젝트니까 flutter-developer agent + flutter-patterns rule 추천" 방식. 다만 Waza의 ceiling 경고와 상충 — 103 skill을 전부 설치하는 건 과함. 우리는 APM manifest + Waza 철학 + OrchestKit setup wizard 하이브리드가 가장 적합 (manifest로 선언, minimalist로 선정, wizard로 추천)package.json처럼 선언적 매니페스트로 관리하는 패러다임. scaffold의 ad-hoc 공유 시대를 끝낸다."Think package.json, requirements.txt, or Cargo.toml — but for AI agent configuration." 에이전트 primitive (instructions/skills/prompts/hooks/plugins/MCP)를 선언적 매니페스트로 통합 관리. transitive dependency + content audit + cross-target deploy.
apm.yml 하나에 skills, agents, hooks, plugins, MCP 전부 선언. transitive resolution으로 패키지가 패키지에 의존 가능 (npm/pip 방식). apm install은 clone 후 1-command로 모든 에이전트 구성 재현 — 기존 "문서 읽고 수동 설정" 공백을 메움. Content security: apm audit이 hidden Unicode / zero-width 스캔 → 컴프로마이즈된 패키지가 에이전트에 읽히기 전 차단. Cross-target: Copilot / Claude Code / Cursor / OpenCode / Codex 동시 deploy — plugin.json 표준 export. GitHub Enterprise / GitLab / Bitbucket / Azure DevOps 모두 install source. CI/CD ready: apm-action으로 자동화된 워크플로우frontend-patterns만 필요한데 100+ rule을 함께 받음. APM 패러다임을 도입하면 .claude/manifest.yml에 "이 프로젝트는 skill A, agent B, hook C만 사용"을 선언 → 정확히 그것만 설치. lockfile로 재현성 보장 — 팀원 머신마다 다른 scaffold 버전이 돌아다니는 문제 해결. 특히 외부 skill audit 개념은 즉시 차용 가능: Edit/Write hook에 "외부 source 온 skill은 Unicode 스캔 통과 후 설치" 규칙 추가. 5축 고득점: 자동화(manifest 자동 해석) + 마찰제거(수동 설정 공백) + HARD(lockfile hash 비교 exit code) + 측정(install 성공률 jsonl).claude/manifest.yml 스키마 정의 후 pilot 프로젝트 3개에 적용 → scaffold bloat 50% 감소(불필요 rule 미설치). hidden Unicode audit 도입 시 외부 skill 공급망 공격 차단. 가장 큰 효과는 "새 머신 onboarding 시간" — 현재 30분~1시간(수동 skill/hook 복사) → manifest 있으면 30초(cc-apply --manifest)"Open-source super agent harness that orchestrates sub-agents, memory, and sandboxes — powered by extensible skills." ByteDance의 ground-up rewrite. 우리가 사용하는 "harness" 용어가 공식 카테고리로 자리잡음.
context-window-management, context-compression-pipeline, context-freshness 규칙들을 하나의 primitive 이름으로 묶을 수 있다는 힌트. deer-flow가 LangSmith/Langfuse tracing을 기본 탑재한 것도 주목 — 우리는 tracing이 memory-bank와 action-log.jsonl에 분산되어 있어 통합 observability 부재"Your Claude is coding blind. See everything it did." v2.1.20 이후 Claude Code가 Read 3 files 같은 요약만 노출 → 세부 내용 비공개. ~/.claude/ 로그를 파싱해 full visibility 재구성.
"Zero-code platform for auto-generating production-grade AI agents, built on Harness Engineering principles." 우리가 내부에서 쓰는 "harness" 용어가 외부에서도 정식 엔지니어링 분야로 자리잡고 있음을 확인.
"Every edited line carries a content hash (LINE#ID format) — validates changes before application, reducing stale-line errors from ~33% to 68%+ success rates." 편집 실패율을 숫자로 측정 가능한 형태로 환원.
old_string 전체 매칭에 의존하지만 파일이 외부에서 변경됐을 때 stale 감지가 어렵다. Hashline은 Read 시점에 각 라인에 content hash 메타데이터를 부착, Edit 호출 시 hash가 유효한지 pre-flight 검증. 실패 시 재-Read를 강제하여 edit drift를 차단. 추가 primitive: Prometheus Planner(interview-mode pre-execution planning), Ralph Loop(/ulw-loop — 태스크 완료까지 continuous refinement), IntentGate(분류 전 진짜 사용자 의도 분석), Todo Enforcer(agent idle 방지). 모델 agnostic 라우팅 — Opus 오케스트레이션 / GPT-5.4 추론 / Kimi K2.5 속도 / Gemini 창의성old_string 유일성 요구로 일부 보호하지만, "edit 실패율"이 측정되지 않아 개선을 수치로 추적 불가. Hashline은 "33%→68%"라는 구체 메트릭을 제공 → 우리 시스템에 edit 실패율 로깅을 넣어 SOFT 판단(이 파일이 stale인지)을 HARD 메트릭(실패 카운트 단조 감소)으로 전환 가능. PostToolUse Edit 실패 시 ~/.claude/logs/edit-failures.jsonl에 타임스탬프·파일·reason 기록 → self-improve가 주기적으로 scan하여 반복 실패 파일을 식별. 별도 이점: Ralph Loop 패턴은 우리 qa-cycle의 "수렴까지 무정지" 원칙과 정확히 동일, IntentGate는 user-proxy의 의도 해석 레이어로 격상 가능"An agent without a plan drifts." "The MODEL decides when to call tools and when to stop. The CODE just executes what the model asks for." — claude code 유사 하네스를 12단계로 0→1 재구축하며 도출한 5 essential primitives.
while stop_reason == "tool_use": execute → append → repeat (s01), (3) Planning layer — 디스크 영속화된 dependency graph (s07), (4) Context management — 3-layer compression으로 history overflow 방지 (s06), (5) Team coordination — async mailbox + request-response (s09~s11). 핵심 설계 원칙: tool_result로 on-demand 지식 주입하고 system prompt에 박제하지 말 것. 하네스 관점에서 명시적으로 optional로 분류된 것: event/hook buses, rule-based governance, session lifecycle controls — 교육 단계에서 생략 가능"Same command, same output schema, every time." 웹사이트·Electron 앱·로컬 바이너리를 AI 에이전트가 쓸 수 있는 통일 CLI로 변환. Adapter → Browser → Synthesis 3단계 fallback으로 flexibility 대신 결정성 선택.
"Skill descriptions are triggers for the model, not documentation" — skill 설명을 '무엇인가' 서술이 아닌 '언제 발동하는가' 트리거로 전환. 컨텍스트 격리를 부가 최적화가 아닌 1급 설계 개념으로 격상.
/compact 최대 50% 유지, session branching(Continue/rewind/clear/compact/subagent) 각 Claude 턴을 명시적 decision point화/compact 자동 발동 hook의 임계값으로 직접 사용 가능/compact 자동화 hook을 context 사용량 50% 임계에서 발동하도록 조정 가능. session branching 5-way decision을 user-proxy 판단 로직에 통합하면 컨텍스트 rot 선제 방지AgentShield 레드팀/블루팀/감사자 파이프라인 신규 도입. 단순 패턴 매칭이 아닌 adversarial multi-agent auditing으로 secret/취약점 차단. Cursor 15개 hook event가 Claude Code hook 스크립트 재사용하는 adapter.js 패턴.
adapter.js 래퍼로 재사용. 8가지 event type(SessionStart/PostToolUse/Stop 등)에서 cross-cutting concern(secret 탐지, 포맷팅, context 지속)을 에이전트 정의 밖에서 구현. 997+ 내부 테스트로 production hardeningcc-sync는 User Scope ↔ Project Scope 동기화지만 멀티 도구 간 동기화는 아직 없음. 향후 Cursor/Codex와 병행 사용 시 adapter pattern 참조 가능. AgentShield 3-way auditing은 기존 cross-model-adversarial-review와 유사하지만 보안 특화 파이프라인 구조"99% fewer lines of code than OpenClaw" — 200줄 에이전트 루프. HEARTBEAT.md에 pending task 기록 → 주기적 wake-up이 파일 체크 후 자동 실행. Dream consolidation으로 세션 간 compressed insight 유지.
loop.py 단일 파일에 LLM↔tool 실행. (2) Pluggable Provider: OpenAI-compatible API만 요구, 새 provider는 config 2단계. (3) Session-First Memory: append-only JSONL + 주기적 Dream consolidation. 장기 context는 SOUL.md/USER.md/MEMORY.md 3파일. Heartbeat scheduling은 주기적으로 깨어나 HEARTBEAT.md의 task 확인 후 실행 — cron 아닌 file-based 스케줄링/loop는 Claude Code 세션 내 주기 실행이지만 nanobot의 HEARTBEAT.md는 파일 기반 pending queue로 세션 경계를 넘는다. ~/.claude/pending/ 디렉토리로 이미 유사 패턴 구현 중(self-improve-check.sh)이지만, HEARTBEAT.md처럼 단일 파일에 모든 pending 집약하면 순위 관리/수동 편집 용이. lkb/loopy-era의 "파일 기반 상태 영구화" 철학과도 일치"Reduce AI coding costs by 99%" — 단일 Rust 바이너리가 MCP + shell hook으로 CLI 출력·파일 읽기를 LLM 도달 전 압축. 에이전트 로직 수정 없이 전 도구 공통 적용.
git status 70-95% 절감). File Read 7단계 adaptive mode(full/map/signatures/diff/aggressive/entropy/task-specific) — tree-sitter AST로 18개 언어 signature 추출. lean-ctx gain이 tiktoken-exact 토큰 카운트와 USD 비용을 실시간 대시보드로 출력 (HARD 측정). Context Continuity Protocol(CCP)로 세션 cold-start 99.2% 절감. Information Bottleneck Filtering은 Tishby et al. 2000 이론 기반lean-ctx 경유 → 세션 평균 토큰 사용 50%+ 절감 예상. exit code 보존으로 CI/CD 호환. ~/.claude/logs/token-savings.jsonl로 절감량 HARD 추적 가능"Stop prompting. Start specifying" — Interview→Seed→Execute→Evaluate→Evolve 루프. Ambiguity Gate ≤ 0.2 · Ontology Convergence ≥ 0.95 같은 수치 게이트로 "이해가 수렴할 때까지" 코드 생성 차단.
엔지니어링 playbook을 CLAUDE.md · .cursor/rules · copilot-instructions.md 포맷별 자동 배포. "중앙 single source of truth → 전 도구 동기화" 구조.
packmind-cli init이 코드베이스 패턴 분석 → 표준 포맷 추출. MCP 통합으로 /packmind-onboard 대화형 정의. 중앙 업데이트가 모든 repo/agent에 전파. Cloud + self-hosted 선택 가능"Most agent systems still start every run cold" — 반복 실행을 Competitor/Analyst/Coach/Curator 4단계로 구조화. 성공 전략을 누적하고 약한 변경을 자동 롤백.
"A symbiotic AI that remembers everything, challenges you" — 4개 지속 파일(SOUL/USER/AGENTS/NOW.md)로 100+ 세션의 사용자 행동 패턴을 축적, 일회성 조언 대신 반복 패턴 지적.
자연어로 설명된 워크플로우를 자동 실행하는 agentic runtime. Claude Code 호환.
"Ship your code, on autopilot" — 오픈소스 에이전트가 머신에서 24/7 상주하며 앱을 실행 유지, 사람이 필요할 때만 알림. PaaS의 장점만, lock-in 없이.
Google Discovery Service에서 런타임에 명령어를 동적 생성. API 스펙 변경 시 자동 반영, zero boilerplate. 40+ agent skills 포함.
"The best ChatGPT that $100 can buy" — 단일 GPU에서 LLM 훈련. autoresearch 패턴으로 GPT-2 speedrun 168h→1.65h 단축. modify→verify→keep/discard 루프를 ML 훈련에 적용.
Zero-setup, model-agnostic 실행 harness. 목표 정의만으로 동적 multi-agent topology 생성. Graph-based DAG으로 병렬 실행, role-based memory, 결정론적 장애 복구.
감독형 자기진화 에이전트 조직 인프라. MetaMemory(공유 기억), Agent Factory(런타임 에이전트 생성), 작업 스케줄러, 통신 버스. 모바일(飞书/Telegram/WeChat)에서 Claude Code 제어.
"The only agent with a built-in learning loop" — 스킬이 사용 중 자가 개선, 복잡한 태스크 후 자율 스킬 생성, FTS5 세션 검색으로 크로스 세션 리콜.
14-stage fusion pipeline for LLM token compression — AST-aware code analysis, JSON schema sampling, simhash dedup. Zero LLM inference cost, reversible.
대형 작업을 atomic story로 분해, 각각 fresh AI 세션에서 실행. 상태는 파일(prd.json+progress.txt)로 persist.
"Like Dockerfiles for infrastructure, Archon for AI coding" — YAML 워크플로우로 계획→구현→검증→리뷰→PR을 선언적 정의. AI+bash 하이브리드 노드.
에이전트 해결 패턴이 재사용 스킬로 자동 축적 → 팀 역량 복리 성장. Agent-as-Teammate 모델로 보드에 팀원처럼 표시.
CI 테스트 실패 → 에이전트 자동 분석 → 수정 커밋 → CI 재실행. 사람 개입 없는 자가 치유 루프.
에이전트를 Implementer/Researcher/Planner로 분리. 각 역할에 도구 권한을 HARD 제한하여 의도하지 않은 수정 구조적 차단.
웹 프로젝트에 구체적 수치 기반 성능 예산 설정. LCP ≤2.5s, Lighthouse ≥90, JS <300KB를 HARD 게이트로.
오케스트레이션 런타임 상태를 파일 기반으로 영구 저장. 세션 재개, 감사 추적, 결정론적 복구 가능.
스펙 준수 리뷰 → 코드 품질 리뷰 순차 게이트. 각 단계에 차단 권한 부여.
여러 LLM이 서로의 답변을 익명으로 리뷰하고 Chairman이 합의를 도출하는 3단계 협업 패턴
OpenAI/Claude/Gemini 포맷을 자동 크로스 변환하는 통합 AI 게이트웨이 — 멀티모델 워크플로우의 마찰 제거
AI 코드 리뷰를 소스 컨트롤에 버전 관리하고 CI에서 강제 — 개인 도구가 아닌 조직 정책으로 전환
.continue/checks/ 마크다운 파일로 AI 에이전트 정의 → PR에 GitHub status check 자동 부착 → pass/fail + suggested diff 제공Google 공식 Chrome DevTools Protocol을 MCP 서버로 노출 — 에이전트가 실제 브라우저를 직접 제어
PDF, Office, 이미지, 오디오, HTML, CSV, ZIP, YouTube, EPub 등 모든 포맷을 LLM 친화적 Markdown으로 변환
데이터 + 임베딩 + 검색 구조를 단일 파일로 패키징 — 서버리스 메모리 레이어로 복잡한 RAG를 대체
Anthropic/HF 공식 Agent Skills 표준 포맷 — SKILL.md + YAML frontmatter + 플러그인 marketplace
Karpathy가 관찰한 LLM 코딩 실패 패턴을 4원칙으로 구조화 — Think Before Coding, Simplicity First, Surgical Changes, Goal-Driven Execution
Go 언어 특화 에이전트 빌드/평가/배포 툴킷 — 유연한 코드 퍼스트 접근
코드베이스를 XML/Markdown/JSON 단일 파일로 패킹하여 LLM 컨텍스트 효율을 극대화하는 도구
에이전트 조율을 선언적 YAML 명세로 정의하여 재현성/공유성/커스터마이징을 동시에 달성
마크다운 에이전트 워크플로우를 GitHub Actions에서 샌드박스 실행하는 공식 패턴
CLI 출력을 LLM에 전달하기 전에 투명 프록시로 60-90% 압축 — 만점 획득
출력 토큰 65% 절감 + 정확도 26점 향상 — 간결함이 품질과 비용을 동시에 개선
Cross-model adversarial review — 동일 모델 self-play의 맹점을 다른 모델로 보완
Semantic memory compaction — 완료 태스크를 자동 요약하여 컨텍스트 보존
Execution path crystallization — 성공한 실행 경로를 자동으로 스킬로 변환
verify→fix 루프를 오케스트레이션에 내장 — semantic completion 보장 파이프라인 (보강 신호)
team-plan→team-prd→team-exec→team-verify→team-fix — verification-driven pipeline
구현 전 기존 코드베이스 탐색 필수 — 중복 코드 생성과 토큰 낭비를 동시에 방지
Context stays fresh — 태스크별 격리 윈도우로 context rot 방지
Per-turn tool adaptation — 각 턴마다 관련 도구만 선택하여 인지 노이즈 감소
브랜치명 기반 worktree 관리 — 병렬 에이전트 작업의 마찰을 극적으로 감소
Checkpoint: 스킬/메모리 변경 전 자동 스냅샷 → 실패 시 복원
RPC 기반 파이프라인으로 멀티턴 → 싱글턴 축소
이슈 단위 격리 에이전트 + CI/리뷰 피드백 자동 라우팅
Test-first를 HARD hook으로 강제 — over-implementation 구조적 차단
Claude Code 베스트 프랙티스 커뮤니티 표준화
실시간 데이터 스트리밍 + 3D 시각화 — UI/UX 레퍼런스급 구현
코딩 에이전트 시대에서 테스트가 새로운 병목
시크릿 감지를 JSON/backslash 인코딩까지 확장
토큰 사용량을 세션별로 추적하여 비효율 패턴을 데이터 기반으로 식별
에이전트의 크로스 세션 메모리를 구조화하면 동일 실수 반복 방지