D365 하네스를 1년간 실행하고, 동일 스크립트로 재측정해 delta를 냈다. "좋아진 것 같다"가 아니라 숫자로. 그리고 그 숫자가 무엇을 못 말하는지도 정직하게.
| 축 | 시작 | 최신 | Δ |
|---|---|---|---|
| replay 정합 % | 100.0 | 100.0 | 0.0 |
| friction | 22 | 23 | +1 |
| dead hook % | 0.0 | 0.0 | 0.0 |
| conf_enf (강제 게이트) | 5 | 5 | 0 |
| probe_pass | 8 | 9 | +1 |
| rules_n | 91 | 93 | +2 |
| cost_7d | 24809 | 28440 | +3631 |
| autonomy | NA | 0.38 | 측정개시 |
불변 축 5개(replay·dead·conf_enf 등)는 천장/바닥에 붙어 있다. 상승 축 4개, 측정 개시 1개. 실측은 8시점 — 52주 계획 대비 44주는 결측이며, 가짜 데이터로 채우지 않았다(fail-loud).
MIN_N=2) 여전히 판정 불가. 원인이 바뀌었다 —
표본부족이 아니라 지표 분산 부재. replay·conf_enf가 8시점 내내 상수라 분산이 0 → 상관이
수학적으로 정의되지 않는다(NA).
유일하게 계산된 쌍 probe_pass→friction은 PERVERSE(directed −1.0):
기대와 반대 방향. 단 n=8에 각 1단위 변화라 소표본 노이즈일 가능성이 높아 판정 보류로 기록했다.
ρ 도구가 abs()를 안 쓴 덕에 이 Goodhart 위험 방향을 놓치지 않았다.
방법론적 교훈: 예측타당성을 재려면 지표가 움직여야 한다. 안정된 하네스(대부분 축이 천장/바닥)에선 변화가 없어 상관을 못 잰다. 예측타당성 eval은 변동하는 축(friction·cost) + 충분한 표본에서만 의미 — 이 방법론이 다음 로드맵의 입력이다.
friction +1이 "악화"인지 "작업량 증가의 부수효과"인지는 이 표만으론 미결이다. 이 세션 자체가 계기판·설치기를 두고 15라운드 적대리뷰를 거쳤다 — 그 복잡도가 friction·cost 상승에 반영됐을 수 있다. 숫자는 +1을 말할 뿐, 원인은 숫자 밖에 있다. 그래서 측정(이 표)과 해석(별도 추세분석)을 분리했다.
weekly-scoreboard.tsv에서 자동 렌더되는
살아있는 계기판과 같은 계기를 쓴다.
계기판은 stale 감지(7일)로 데이터가 낡으면 스스로 경고한다.