'모델 붕괴'와 휴먼 터치의 재발견

2025-12-09

[Insight] AI가 AI를 학습할 때 잃어버리는 것들: '모델 붕괴'와 휴먼 터치의 재발견

글: 미디어 코퍼스

고대 신화에는 자신의 꼬리를 물고 있는 뱀, '우로보로스(Ouroboros)'가 등장합니다. 무한한 순환을 상징하기도 하지만, 자기 자신을 삼키며 결국 소멸로 향하는 파국을 암시하기도 합니다.

2025년 오늘, 생성형 AI의 폭발적인 성장 속에서 우리는 이 우로보로스의 딜레마를 목격하고 있습니다. 인터넷은 AI가 쏟아낸 텍스트와 이미지로 채워지고 있고, 다음 세대의 AI는 다시 그 데이터를 학습합니다. 과연 이 순환의 끝에는 더 똑똑한 지능이 기다리고 있을까요, 아니면 점진적인 퇴화가 기다리고 있을까요?

'모델 붕괴(Model Collapse)'에 관한 연구들은 데이터 전문가인 저희에게도 깊은 울림과 경각심을 줍니다. 오늘은 이 논문들이 제시하는 차가운 데이터와 실험 결과를 통해, 역설적으로 '가장 인간적인 데이터'가 왜 기술의 정점에서도 여전히 대체 불가능한 자원인지 파헤쳐 보려 합니다.


1. 디지털 기억 상실: 재귀(Recursion)의 저주

영국 케임브리지 대학과 옥스퍼드 대학 연구팀이 발표한 논문 "The Curse of Recursion: Training on Generated Data Makes Models Forget"은 이 현상을 '모델 붕괴'로 정의하며 학계에 큰 파장을 일으켰습니다.

쉽게 말해 이는 'AI의 디지털 치매' 현상입니다. 복사기로 문서를 반복 복사하면 글씨가 뭉개지듯, AI가 생성한 합성 데이터(Synthetic Data)만을 반복 학습하면 원본의 선명함을 잃게 됩니다. 연구진은 OPT-125M 모델을 사용한 실험에서 세대가 거듭될수록 모델의 Perplexity(혼란도)가 급격히 증가함을 확인했습니다.

세대 (Generation)Perplexity (수치가 낮을수록 좋음)결과 해석
Gen 0 (원본)34다양한 어휘와 문맥이 살아있는 정상 상태
Gen N (반복 후)60 (▲급증)성능 저하 및 동어 반복 현상 발생

실험 결과는 꽤나 충격적입니다. 초기 세대에서는 건축 양식에 대해 유려하게 설명하던 AI가, 9세대에 이르자 문맥을 완전히 상실한 채 아래와 같은 기이한 문장을 뱉어냅니다.

"...black-tailed jackrabbits, white-tailed jackrabbits, blue-tailed jackrabbits, red-tailed jackrabbits..."
- 논문 실험 중 9세대 모델의 실제 출력 예시

세상의 복잡다단함은 사라지고, 의미 없는 패턴의 반복만이 남았습니다. AI가 현실의 다양성을 잃어버리고 자기만의 환각 속에 갇히는 과정입니다.


2. 왜 인간의 흔적(Tail)은 사라지는가?

수학적으로 보면 이는 '통계적 근사 오류'의 누적 때문입니다. AI 모델은 태생적으로 데이터 분포의 중심, 즉 '가장 확률이 높은 평균값'을 따라가려는 성향이 있습니다.

이 과정에서 분포의 꼬리(Tail)에 해당하는 데이터들이 잘려 나갑니다. 이 '꼬리'는 노이즈일 수도 있지만, 사실 우리 인간 삶의 가장 중요한 부분들입니다.

  • 희귀하지만 결정적인 사건 (Rare Events)
  • 소수 집단의 목소리와 방언
  • 창의적이고 파격적인 표현

연구팀은 이를 마르코프 체인(Markov Chain) 이론으로 설명합니다. 모델이 자신의 출력물만 재학습하는 과정은 결국 확률 분포가 단일 지점으로 수렴하는 '흡수 상태(Absorbing State)'로 향하는 길이며, 이는 수학적으로 피할 수 없는 붕괴입니다.


3. 기술의 구원투수: 10%의 '진짜' 데이터

다행히 스탠포드 대학교 연구팀의 후속 논문 "Is Model Collapse Inevitable?"은 명쾌한 해법을 제시합니다. 핵심은 데이터의 '교체(Replacing)'가 아닌 '축적(Accumulating)'입니다.

이전 세대의 데이터를 전부 합성 데이터로 갈아치우면 모델은 붕괴하지만, 실제 인간 데이터(Original Real Data)를 계속해서 보존하고 함께 학습시키면 결과는 달라집니다.

💡 핵심 발견: '10%의 닻(Anchor)'

연구팀은 원본 실제 데이터를 전체의 10%만 유지해도 모델 붕괴를 효과적으로 막을 수 있음을 발견했습니다. 수학적으로도 데이터 축적 방식은 오류의 상한선($\pi^2/6 \approx 1.645$)을 만들어 성능 저하를 방지합니다.

이는 무엇을 의미할까요? 합성 데이터가 아무리 효율적이라 해도, AI가 현실에 발을 붙이고 있게 만드는 '닻'은 결국 인간이 생성한 데이터라는 사실입니다.


4. 12년의 기록, 데이터에 '사람'을 담다

이러한 학계의 연구 결과는, 지난 12년간 현장에서 데이터를 다뤄온 저희 미디어 코퍼스의 경험과 정확히 일치합니다.

2013년부터 다양한 인공지능 학습용 데이터 프로젝트를 수행하며 저희가 마주한 데이터들은 단순한 0과 1의 조합이 아니었습니다. 그 속에는 기계가 결코 흉내 낼 수 없는 인간 고유의 층위가 존재했습니다.

영역AI가 대체하기 어려운 '휴먼 터치'
언어적 뉘앙스"잘한다"라는 말이 칭찬인지, 비꼬는 것인지 구분하는 화용론적 판단
문화적 맥락한국 사회 특유의 높임법, 예절, 시대정신이 반영된 윤리적 기준
RLHF & 가치 판단무엇이 더 유익하고 안전한 답변인지에 대한 인간 본연의 선호 평가

논문이 지적했듯, AI는 데이터를 효율적으로 '생성'할 수는 있지만, 그 데이터가 올바른지, 윤리적인지, 문화적으로 적절한지를 '검증'하는 것은 오직 사람만이 할 수 있습니다. 이것이 저희가 RLHF(인간 피드백 강화 학습)전문가 검증(Expert Validation)에 집요하게 매달리는 이유이기도 합니다.


5. 공생을 위한 제안: AI는 넓게, 인간은 깊게

모델 붕괴 이론이 주는 교훈은 역설적입니다. AI 기술이 고도화될수록, 인간 전문가의 역할은 축소가 아니라 '심화'된다는 것입니다.

앞으로의 데이터 생태계는 명확한 분업이 필요합니다. AI는 합성 데이터를 통해 무한한 확장성(Scalability)을 제공하고, 인간 전문가는 그 속에 신뢰성(Reliability)영혼(Soul)을 불어넣어야 합니다. 이 두 가지가 결합할 때 비로소 붕괴하지 않는 견고한 AI 모델이 탄생합니다.

저희 미디어 코퍼스는 12년간 쌓아온 언어 데이터 구축 노하우를 바탕으로, 이 거대한 기술의 흐름 속에서 '인간다움'을 지키는 파수꾼 역할을 자처하고자 합니다.

  • ✅ 합성 데이터의 홍수 속에서 '진짜(Real)'를 선별하는 눈
  • ✅ AI가 놓치기 쉬운 문화적 맥락과 뉘앙스를 채우는 손길
  • ✅ 기술이 인간을 배제하지 않도록 윤리적 기준을 세우는 고민

AI가 인간을 닮아가려 노력하는 지금, 우리는 AI에게 가장 깨끗하고 진실한 인간의 모습을 보여주어야 합니다. 그것이 모델 붕괴를 막고, 기술이 우리 곁에 건강하게 공존하게 만드는 유일한 길이기 때문입니다.


Reference
  • Shumailov, I., et al. (2023). "The Curse of Recursion: Training on Generated Data Makes Models Forget." arXiv:2305.17493.
  • Gerstgrasser, M., et al. (2024). "Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data." arXiv:2404.01413.

미디어 코퍼스(Media Corpus)는 2013년부터 AI 데이터 산업을 선도해온 데이터 구축 및 검증 전문 기업입니다. 글로벌 테크 기업, 국가 언어 연구 기관, 정부 부처와의 다양한 프로젝트를 통해 축적한 12년의 경험을 바탕으로, AI 시대의 신뢰 파트너로서 RLHF 데이터 구축, 합성 데이터 검증, 멀티모달 데이터 품질 보증 서비스를 제공합니다.