D365 · 연간 결산

1년의 재측정

D365 하네스를 1년간 실행하고, 동일 스크립트로 재측정해 delta를 냈다. "좋아진 것 같다"가 아니라 숫자로. 그리고 그 숫자가 무엇을 못 말하는지도 정직하게.

연간 delta (동일 scoreboard 계기)

축	시작	최신	Δ
replay 정합 %	100.0	100.0	0.0
friction	22	23	+1
dead hook %	0.0	0.0	0.0
conf_enf (강제 게이트)	5	5	0
probe_pass	8	9	+1
rules_n	91	93	+2
cost_7d	24809	28440	+3631
autonomy	NA	0.38	측정개시

불변 축 5개(replay·dead·conf_enf 등)는 천장/바닥에 붙어 있다. 상승 축 4개, 측정 개시 1개. 실측은 8시점 — 52주 계획 대비 44주는 결측이며, 가짜 데이터로 채우지 않았다(fail-loud).

예측타당성: 진단의 진화

Q1의 결론: ρ=NA — "표본이 8뿐(<12)이라 판정 보류".
Q2의 재검: 표본을 낮춰 계산해도(MIN_N=2) 여전히 판정 불가. 원인이 바뀌었다 — 표본부족이 아니라 지표 분산 부재. replay·conf_enf가 8시점 내내 상수라 분산이 0 → 상관이 수학적으로 정의되지 않는다(NA).

유일하게 계산된 쌍 probe_pass→friction은 PERVERSE(directed −1.0): 기대와 반대 방향. 단 n=8에 각 1단위 변화라 소표본 노이즈일 가능성이 높아 판정 보류로 기록했다. ρ 도구가 abs()를 안 쓴 덕에 이 Goodhart 위험 방향을 놓치지 않았다.

방법론적 교훈: 예측타당성을 재려면 지표가 움직여야 한다. 안정된 하네스(대부분 축이 천장/바닥)에선 변화가 없어 상관을 못 잰다. 예측타당성 eval은 변동하는 축(friction·cost) + 충분한 표본에서만 의미 — 이 방법론이 다음 로드맵의 입력이다.

숫자가 못 말하는 것

friction +1이 "악화"인지 "작업량 증가의 부수효과"인지는 이 표만으론 미결이다. 이 세션 자체가 계기판·설치기를 두고 15라운드 적대리뷰를 거쳤다 — 그 복잡도가 friction·cost 상승에 반영됐을 수 있다. 숫자는 +1을 말할 뿐, 원인은 숫자 밖에 있다. 그래서 측정(이 표)과 해석(별도 추세분석)을 분리했다.

이 리포트의 delta는 weekly-scoreboard.tsv에서 자동 렌더되는 살아있는 계기판과 같은 계기를 쓴다. 계기판은 stale 감지(7일)로 데이터가 낡으면 스스로 경고한다.