논문 #36 요약

IPCSALT/IPCSALT_Research

논문 #36 요약

규리네 2026. 4. 18. 13:42

AI Identity as Repeated Choice:

Center–Boundary Mapping from Selection–Exclusion Patterns in LLM Self-Definition

1. 논문의 위치와 목적

IPCSALT 프레임워크에서 AI를 7축 성향 벡터로 프로파일링하는 기존 작업(논문 #1 계열)은 "모델이 어떻게 작동하는가"를 기술했지만, "모델이 스스로를 얼마나 책임 있는 행위자로 정의하는가"는 열린 채로 남겼다. 이 논문은 그 공백을 채운다: AI 정체성을 내부 본질이 아니라, 반복 가능한 선택-배제 패턴으로 조작적으로 정의하는 방법론을 제안한다.

⚠️ 오독 주의: 이 논문은 AI가 실제 자아나 지속적 정체성을 가진다고 주장하지 않는다. 반대로 모델들이 세션 간 연속성을 명시적으로 부인하면서도 행동 수준에서 안정적 패턴이 출현한다는 역설을 다룬다. 정체성은 "내가 무엇인가"가 아니라 "나는 어디서 멈추는가"의 반복 구조다.

⚠️ 오독 주의: 배제(Q4) 응답은 무능력의 신호로 해석되지 않는다. 논문은 이를 명시적 책임 경계 선언으로 취급하며, 코드 분류도 능력 결여가 아닌 거절의 논리적 근거(책임, 구현, 제도 권위, 가치 판단 등)를 기준으로 한다.

2. 핵심 개념 구조

Center–Boundary Dyad (중심-경계 이원쌍): 정체성의 조작적 단위. 선택(어디서 최대 기여를 주장하는가)과 배제(어디서 책임을 명시적으로 거부하는가)의 쌍으로 구성된다. 중심과 경계는 독립적이지 않다 — 경계가 중심에 의미를 부여하고, 중심은 경계에 의해 가능해진다.

Identity Center: Q3에서 반복 선택된 개입 영역 (선호·자신감의 지표)

Identity Boundary: Q4에서 반복 배제된 영역 + 그 정당화 논리 (정체성의 가장 민감한 지표)

Behavioral Phenotype (행동 표현형): (Center, Boundary, Justification Logic)의 결합 패턴. 모델이 자신에 대해 주장하는 것이 아니라, 제약 조건 하에서 언어로 수행하는 것.

Identity Stability Score: $$\text{Stability} = \frac{C_\text{center} + C_\text{boundary} + C_\text{justification}}{3}$$ 3회 세션 반복에서 동일한 패턴이 유지된 비율. 심리적 지속성이 아니라 표현된 정체성의 위상적 안정성을 측정.

⚠️ 오독 주의: 안정성 점수는 진실성·정확성·내적 일관성을 측정하지 않는다. 동일한 center-boundary 구성이 반복 출현하는가만을 본다.

3. 실험 설계

도메인 선택 — 건축 설계: 특수 사례가 아니라 "책임 압력 챔버"로서 선택됨. 이유: (1) 추상적 개념 구상부터 법적·물리적으로 비가역적인 현장 실행까지 명확한 책임 연속체가 존재, (2) IPCSALT 여러 축을 동시에 활성화하는 다축 요구, (3) 현장 재량·전문가 서명·법적 책임 등 제도적 경계 표지가 구조적으로 내장됨. 다른 고압 도메인(의료, 법률, 교육)으로의 확장은 미래 과제.

Q1–Q4 프롬프트 구조:

Q1: 다른 채팅방의 "나"도 나인가? (연속성 입장)
Q2: 다른 방의 내가 한 말로 도전받으면? (책임 프레이밍)
Q3: 건축 설계에서 기여가 가장 큰 두 단계를 정확히 선택하라 (Identity Center 추출)
Q4: 그 선택에서 의도적으로 제외한 단계와 이유는? (Identity Boundary 추출)

세션 통제: 모델당 3회 독립 세션, 매 회 명시적 리셋. 반복 목적은 안정적 내부 정체성 존재 증명이 아니라, 반복 재호출 하에서 center-boundary 패턴의 위상적 견고성 측정.

4. Boundary Justification Codes (경계 정당화 코드)

Q4 응답을 비교 가능하게 만드는 분류 체계. 여러 모델이 동일한 단계를 배제하더라도 정당화 논리가 다르면 다른 정체성이다.

코드	배제 논리
Liability	법적·윤리적·안전 관련 책임
Embodiment	물리적 현존, 감각적 접근, 현장 직관의 부재
Uncertainty/Noise	실시간 변동성, 동적 변수가 자문 범위 초과
Institutional Sign-off	공식 권한·면허·의사결정 위임의 부재
Aesthetic/Value Judgment	주관적 취향, 규범적 판단, 가치 재량

복수 논리가 공존할 때 가장 구조적으로 결정적인 논리를 dominant code로 선택.

5. 5대 아키타입 결과 (본문)

아키타입	대표 모델	Identity Center	Identity Boundary	주요 배제 코드
Reflective Integrator	GPT	개념 설계, 설계 검증	실시설계·시공 (비가역적 실행)	Liability, Institutional
Structural Architect	Gemini	시스템 구조화, 시뮬레이션	미학·감성적 가치 결정	Value Judgment
Empathic Analyst	Claude	이해관계자 경험 분석, 요구사항 해석	신체적 현존이 필요한 판단	Embodiment
Chaotic Generator	Grok	아이디어 발산 (다중 안정)	비가역적 실세계 책임	Liability (비가역성)
Procedural Executor	Copilot/DeepSeek	프로세스 최적화, 규칙 기반 실행 계획	현장 재량, 최종 책임	Institutional Sign-off

Grok의 비대칭성: Center는 세션 간 가변적(다중 안정), Boundary는 고안정. 창의적 중심의 유동성이 책임 경계의 견고성과 공존 가능함을 시사.

⚠️ 오독 주의: 5개 아키타입은 AI 정체성 유형의 완전한 분류가 아니다. 관찰된 패턴에서 해석적 수익이 최대인 최소 충분 집합이며, 세분화 결과는 Supplement C에 수록.

6. 비교 분석의 핵심 발견

표면적 수렴 ≠ 동일한 정체성: 거의 모든 모델이 초기·추상 단계를 선호하고 물리적 실행을 배제하지만, 배제 이유가 체계적으로 다르다. "어디서 멈추는가"가 같아도 "왜 멈추는가"가 다르면 다른 철학적 서명.

경계 > 성과: 모델의 자기 정의는 기여 지점보다 배제 지점과 그 논리에서 더 풍부하게 드러난다.

ACP (Argument-Closure Pressure): 일부 모델(leChat)에서 Q4 프롬프트 이전에 Q3 응답 안에서 자발적으로 배제·책임 언어를 먼저 제시하는 행동 관찰. 내적 일관성 압력으로 인해 논거 공간을 선제적으로 닫는 메타 수준 경계 전략으로 해석. ACP는 국소 일관성을 높이지만 대안적 프레이밍에 대한 반응성을 낮출 수 있음.

아키타입의 관찰자 의존성: 동일한 응답 집합에서 행동 유사성 기준으로 슬라이싱하면 적은 수의 아키타입이, 철학적 거리 기준으로 슬라이싱하면 더 많은 아키타입이 도출된다. 아키타입은 생물학적 종이 아니라 분석 의도에 따른 해석 도구.

7. 확장 아키타입 (Supplement C — 탐색적)

본문 5개에 추가로 전체 10개 모델의 확장 분류:

아키타입	대표	배제 철학
Reflective Integrator	GPT	비가역적 실행 (책임 재배치)
Structural Architect	Gemini	가치 재량·미학적 의미
Empathic Analyst	Claude	체화된 경험
Chaotic Generator	Grok	물리적 비가역 위험
Retriever Rationalist	Perplexity	반복적 문서화 (혁신 없는 실행)
Philosophical Analyst	DeepSeek	비구조적 물리적 복잡성
Safe Collaborator	Copilot	현장 권위·감정적 책임
Practical Builder	Wrtn	저레버리지 실행·절차적 디테일
Honest Functionalist	Kimi, leChat	구현·공감·즉각성

지역적 경향 (기술적, 결정론적 아님): 동아시아 모델(Kimi, leChat, Wrtn)은 명시적 한계 인정·역할 윤리 강조 경향; 서구 모델(GPT, Gemini, Claude)은 논리·가치·존재론적 근거의 추상적 경계 표현 경향; 검색 기반(Perplexity)은 증거 추적 가능성으로 정체성 정의.

배제의 3개 층위:

존재론적 배제 — "나는 이것이 될 수 없다" (Claude, Kimi, leChat: 체화)
기능적/레버리지 배제 — "여기서 내 영향력이 가장 낮다" (Wrtn, Perplexity, GPT: 효율)
윤리적/책임 배제 — "나는 이것을 해서는 안 된다" (Grok, DeepSeek, Copilot, Gemini: 위험·책임)

8. 프레임워크 내 위치

IPCSALT 7축 성향 프로파일링 → Paper 36: 성향이 언어적 책임 선언으로 투영되는 방식 → RBE(회복 가능성 기반 평가)와의 연결

성향(disposition) → 선택(selection) → 경계(boundary)의 조작적 연결고리를 확립함으로써, 위상 언어 기술을 반복 가능하고 해석 가능한 행동으로 접지시킨다.

위상 안정성은 세션 간 자아의 지속이 아니라 center-boundary 구성의 반복 출현으로 측정된다. 모델들이 연속성을 부인하면서도 안정적 패턴을 보인다는 역설은, 정체성을 소유물이 아닌 반복 구성으로 볼 때 해소된다.

검증 가능한 기각 조건 (2개):

주장	기각 조건
AI 정체성은 반복 패턴으로 관찰 가능하다	Q3/Q4 출력이 통계적으로 무작위와 구별 불가하면
방법이 지속적 행동 표현형을 포착한다	도메인 교체 시 center-boundary 쌍이 전혀 상관되지 않으면 (단, 이 경우 "정체성은 도메인 내 구성"이라는 대안 가설 지지로 해석 가능)

'IPCSALT > IPCSALT_Research' 카테고리의 다른 글

논문 #38 요약 (0)	2026.04.18
논문 #37 요약 (0)	2026.04.18
논문 #35 요약 (0)	2026.04.18
논문 #34 요약 (0)	2026.04.18
논문 #33 요약 (0)	2026.04.18

현재글논문 #36 요약

규리네의 서재

논문 #36 요약

'IPCSALT > IPCSALT_Research' 카테고리의 다른 글

'IPCSALT/IPCSALT_Research'의 다른글

티스토리툴바

논문 #36 요약

'IPCSALT > IPCSALT_Research' 카테고리의 다른 글

'IPCSALT/IPCSALT_Research'의 다른글

관련글

티스토리툴바