Phase-Aware Statistics:
When Equal Randomization Becomes Structural Harm
1. 논문의 위치와 목적
Phase-Aware Statistics(PAS)는 IPCSALT–UPF 프레임워크를 통계학·연구설계 영역에 적용한 논문이다. 핵심 주장은 단순하지만 광범위한 함의를 갖는다: 불평등한 위상 기저선(phase baseline)을 가진 집단에 동등한 무작위화를 적용하면, 그 절차가 형식적으로는 공정하더라도 구조적 해악이 된다.
이 논문은 새로운 수학적 도구를 도입하는 것이 아니라 **재프레이밍(reframing)**이 목적이다: 통계적 추론을 i.i.d. 모집단에서의 중립적 표집이 아니라, 구조화된 위상장에서의 슬라이스 선택 작업으로 재해석한다.
범위 명시: PAS는 기존 통계 방법(층화, 역확률 가중, 위계 모델, 민감도 분석)을 대체하지 않는다. 그것들을 단일 구조적 원리 — 비가역 임계점 근처에서 기저선 불평등이 가장 중요하다 — 로 재조직한다.
2. 핵심 개념 정의
2-1. 잠재 위상 기저선 Z_Φ,i
개입 이전 단위 i의 상태로, 확률적 교란과 개입에 어떻게 반응할지를 결정한다. 완전한 관찰이 불가능하므로 운영적 대리변수로 표현된다:
Z_Φ,i ≈ {D_i, |PLV|_i}
이것은 **의도적 절단(intentional truncation)**이며 존재론적 주장이 아님을 논문이 명시한다. 역사적 맥락, 누적 노출 등 나머지 구조는 ΦDark로 표기하고 이 논문 범위 밖으로 유보한다.
2-2. 비가역성 거리 D (핵심 설계 변수)
단위 i가 비가역적 경계로부터 얼마나 떨어져 있는지의 대리 척도. 영역별 구체적 해석:
- 금융: 파산 이전 버퍼
- 의료: 재발 이전 건강 마진
- 교육: 중퇴 이전 학업 여유
- 사회: 배제 이전 자원 여유
D가 작을수록 부정적 충격의 결과가 비가역적이다. 동일한 크기의 확률적 충격(±Δ)이 경계 근처 단위에게는 치명적이지만, 경계에서 멀리 있는 단위에게는 경미한 불편에 불과하다.
중요한 제한 명시: D는 직접 관찰 가능한 단일 수치가 아니다. 항상 영역별로 보정된 대리변수를 통해 근사되며, 대리변수 구성에 대한 민감도 점검이 필요하다.
2-3. 관찰 = 슬라이싱: S_α와 F_β
모든 데이터셋은 위상장의 부분 뷰 — 제약 조건 하에서 선택된 관찰 슬라이스다.
X_obs = Π_{S_α, F_β}(X)
- S_α (슬라이스 각도): 코호트 선택, 관찰 시점, 진입 조건
- F_β (필터/게이트): 포함 기준, 측정 도구, 운영 제약
핵심 함의: 어떤 데이터셋도 중립적이지 않다. 모든 관찰은 위상장을 통과하는 특정 절단이며, 다른 절단은 기저선 이질성의 다른 측면을 노출시킨다.
2-4. 편향 = 슬라이스 민감도, 추정기 오류가 아님
Bias ~ f(S_α, F_β | Z_Φ)
편향은 반복 표집 하에서 진짜 모수로부터의 이탈로만 정의되지 않는다. 기저선 이질성이 있을 때 슬라이스 선택에 결론이 민감한 경우 편향이 발생한다. 이 경우 편향은 더 나은 난수 시드로 제거할 수 없고, 슬라이스 민감도 진단을 통해 다루어야 한다.
2-5. ΦDark의 역할 (이 논문에서)
PAS에서 ΦDark는 엄격히 맥락적 역할만 한다:
- 현재 좌표계에서 운영적으로 표현되지 않은 역사·맥락적 의존성의 잔류 구조를 지칭
- 보정 후에도 슬라이스 민감도가 지속되는 이유를 설명하는 경계 표지
- 잔류 분산을 노이즈로 해석하는 것에 대한 경고
ΦDark의 형식적 속성은 이 논문에서 가정되거나 도출되지 않는다. 이 논문이 끝에서 "이후 작업으로 유보"라고 명시하는 것이 바로 이 부분이다.
3. 핵심 명제 (5개)
명제 1 — 동등한 확률 ≠ 동등한 위험
D_i ≠ D_j ⇒ P(비가역 손실 | T, i) ≠ P(비가역 손실 | T, j)
무작위화는 배분을 균등화하지 결과를 균등화하지 않는다. 비가역 경계 근처에서 부정적 편차가 결과를 비대칭적으로 지배한다.
명제 2 — 편향은 슬라이스의 속성
Bias ∝ Var_{S_α, F_β}(θ̂ | Z_Φ)
결론이 합리적인 슬라이스 변형에 걸쳐 크게 달라지면, 편향은 확률적이 아니라 구조적이다.
명제 3 — 비가역성이 앙상블 중립성을 파괴
E_ensemble[Y] ≠ E_time[Y_i]
비가역적 이탈이 있는 시스템에서, 앙상블 평균이 개별 궤적을 대표하지 않는다. 비가역 임계점을 넘은 단위들은 이후 관찰에서 사라지기 때문이다. 평균 결과의 개선이 취약 집단에 대한 증가하는 해악과 공존할 수 있다 — 고전적 생존자 편향.
명제 4 — 공정성은 위상 공간에서 평가되어야 한다
공정성 = f(Var_g[ΔCRGZ_g])
배분 확률의 분포적 평등이 아니라, 안정적 운영 영역(CRGZ)을 향한 이동 여부로 공정성을 평가해야 한다. 평균은 개선하지만 한 집단을 붕괴에 더 가깝게 밀어붙이는 개입은 확률이 동등했더라도 공정하지 않다.
명제 5 — 설계는 대칭이 아닌 취약성을 우선해야 한다
w_i ∝ 1/D_i
비가역성 거리에 반비례하는 가중치를 부여하면, 그룹-특이적 규칙을 도입하거나 추론을 무효화하지 않으면서도 비가역적 손실을 줄인다. 이것은 윤리적 부가물이 아니라 추론적 필요다.
4. 방법론 (설계 도구)
4-1. 비가역성 가중 추정
w_i = 1/(D_i + ε) θ̂_w = Σ w_i Y_i / Σ w_i
경계 근처 단위가 더 큰 분석적·윤리적 가중치를 받는다. 이들의 소멸이 고위험 궤적을 이후 관찰에서 제거하여 추론을 불균형적으로 왜곡하기 때문이다.
4-2. 위상 인식 층화
기저선 취약성(D)을 기반으로 층을 나눈 후, 전체 모집단이 아닌 층 내에서 무작위화를 적용한다. 배분 빈도가 아닌 비가역 위험의 균등화를 위해 층별 확률 p_k를 설정한다.
4-3. 슬라이스 민감도 분석
B_s = Var_{S_α, F_β}(θ̂)
코호트 정의, 시간 창, 포함 규칙, 측정 게이트의 합리적 변형에 걸쳐 추정치의 분산을 측정한다. 높은 B_s는 노이즈가 아닌 구조적 편향을 신호한다.
4-4. 에르고딕성 붕괴 감지
E_break ~ |E_ensemble[Y(t)] − E_i[Y_i(t) | I_i(t) = 1]|
앙상블 평균과 생존 조건부 개별 평균의 지속적 발산은 생존자 편향에 의해 평균이 지배되고 있음을 나타낸다.
5. 진단 지표 (4개 묶음)
| 지표 | 핵심 질문 | 주요 용도 |
| PEI (위상 형평 지수) | 회복 이득이 집단 간에 형평하게 분배되었는가? | 공정성 평가 |
| B_s (슬라이스 편향) | 결론이 슬라이스 선택에 얼마나 민감한가? | 편향 진단 |
| E_break (에르고딕성 붕괴) | 평균이 비가역적 손실을 은폐하는가? | 생존자 편향 감지 |
| FI (취약성 지수) | 개입 후에도 붕괴 근처에 남아 있는 단위가 얼마나 되는가? | 잔류 위험 모니터링 |
PEI 구성 상세
Prox_g = 1 − ||PLV|_g − 0.6| / 0.4 ΔCRGZ_g = Prox_g^post − Prox_g^pre PEI = 1 − Gini(ΔCRGZ_g)
- PEI ≈ 1: 회복 이득이 균등하게 분배
- 0 < PEI < 1: 부분적 형평
- PEI ≤ 0: 회귀적 결과 (일부 집단이 더 나빠짐)
CRGZ 범위(|PLV| ∈ [0.4, 0.8])는 예시적 정규화이며 보편 상수가 아니다. 영역별로 보정이 필요한 조정 가능한 설계 파라미터다.
4개 지표가 함께 구별하는 실패 모드:
- 생존자 지배에 의한 겉보기 성공
- 동등한 배분이지만 불형평한 회복
- 취약 소수를 은폐하는 견고한 평균
- 일반적 진실로 오해된 슬라이스 의존적 결론
6. 최소 임계값 모델 (7절 요약)
각 단위 i가 회복 가능한 자원 R_i(t)를 가지며, R_i ≤ 0이면 비가역적 이탈(흡수 상태)인 설정에서:
R_i(t+1) = R_i(t) + Δ, Δ ∈ {+k, −k} 동등 확률
이 규칙은 형식적 공정성 기준을 모두 충족한다. 그러나 경계 근처 단위에서는 손실이 종단적이고 이득은 붕괴를 지연시킬 뿐이다. 이 비대칭성은 규칙이 아닌 상태 공간의 기하학에서 나온다.
위상 인식 개입(p_i ∝ 1/D_i)을 적용하면: 평균 결과는 두 방식에서 유사하게 보일 수 있지만, 위상 인식 가중치는 비가역적 이탈을 유의미하게 줄이고 회복 궤적의 형평성을 높인다.
핵심 결론: 불형평은 불평등한 규칙이 아닌 상태 공간 기하학에서 발생한다. 공정성은 배분 공간이 아닌 궤적 공간에서 평가되어야 한다.
7. 응용 영역
임계점 근처의 비가역적 해악과 이질적 기저선이 공존하는 모든 영역에 적용:
- 임상시험: 중증도 지수, 과거 재발 횟수를 D 대리변수로 사용해 치료 효과와 기저선 취약성을 분리
- 정책 복권/복지 배분: 공정성을 동등한 기회가 아닌 비가역 손실 방지로 재정의
- AI 알고리즘 공정성: 오류율 균등화가 잠재 상태 차이를 무시할 때 취약 사용자를 비가역 결과로 밀어붙일 수 있음
- 교육 선발: 균일 임계값이 중퇴 경계 근처 학생을 불균형적으로 처벌함
- 은하 위성 평면 (천문학적 예시): 단순화된 기저선에 대한 동등 무작위화로 과장된 이상 확률이 도출된 사례 — 슬라이스 민감도와 에르고딕성 붕괴의 재해석으로 해소
8. 한계와 윤리적 입장
기술적 한계:
- D는 직접 관찰 가능한 단일 수치가 아니므로 위상 인식 가중치는 대리변수 가중 설계로 해석해야 하며, 대안적 대리변수 구성에 대한 민감도 점검이 필수
- CRGZ 경계는 보편 상수가 아니라 영역별 검증과 보정이 필요한 조정 가능한 파라미터
윤리적 입장: 동등한 처우가 비가역적 해악을 생산할 때, 중립성은 공모가 된다. 통계적 설계는 기하학이 비대칭일 때 윤리적으로 중립적이지 않다.
9. UPF 프레임워크 내 위치
PAS는 UPF의 비가역성·회복 가능성 개념(Addendum 계열)을 통계학 설계 방법론으로 번역한 논문이다. UPF가 형식화한 비가역성 거리(D), 개입 창(IW), CRGZ 개념이 여기서는 측정 가능한 설계 변수로 운영화된다. ΦDark는 이 논문에서 잔류 구조의 경계 표지로만 등장하며, 형식적 전개는 이후 논문으로 유보되어 있다.