AI 시대, 인류의 마지막 시험: Humanity’s Last Exam이 던지는 진짜 질문
점수가 아니라 ‘질문’이 방향을 정한다. 데이터가 해야 할 일과, 그것을 만드는 사람의 역할.
프롤로그: 우리는 왜 시험을 치를까?
시험의 목적은 단순히 정답을 맞히는 게 아니라, 지금 우리의 위치를 객관적으로 확인하는 데 있습니다. 이제 그 시험지가 인간을 넘어 AI의 손에 쥐어지고 있습니다. 최신 모델들이 놀라울 만큼 많은 과제를 해결하는 시대, 우리는 자연스럽게 묻게 됩니다. “정말로 AI가 인간이 푸는 문제 대부분을 풀 수 있을까?”
이 질문에 답하기 위해 탄생한 것이 Humanity’s Last Exam(HLE)입니다. 이름은 도발적이지만, 의도는 명확합니다. AI가 아직 이해하지 못하는 지점을 정확하게 보여주는 고난도 벤치마크죠.
배경: 기존 벤치마크가 ‘만점자 클럽’이 된 이유
지식·코딩·추론 능력을 평가하는 다양한 벤치마크(MMLU, 코딩 챌린지 등)는 AI 발전에 큰 역할을 했습니다. 하지만 최근 들어 최상위 모델들이 90% 이상을 기록하며 “더 이상 변별력이 없다”는 한계가 드러났습니다. 시험이 쉬워진 게 아니라, 시험이 가리키는 능력의 상한에 도달했기 때문입니다. 이제 필요한 건, 검색이나 암기로는 풀 수 없는 문제들입니다. 이해·추론·맥락 결합이 필수인 문제들 말이죠.
HLE의 설계 철학: “AI가 못 푼다”를 출발점으로
HLE는 전 세계 전문가 약 1,000명이 참여해 100여 개 분야에서 만든 2,500문항으로 구성됩니다. 수학·물리학·언어학·역사·의학·생물·인문·예술사·희귀 언어까지 폭넓습니다. 본질은 간단합니다. AI가 쉽게 맞힐 수 있는 문제는 처음부터 제외한다는 것.
핵심 원칙
- 검색 불가: 단순 검색·암기로 해결되는 정보형 문제 배제
- 정답의 명확성: 답은 명확하고 검증 가능해야 함(모호한 해석 금지)
- 추론 중심: 논리 결합, 다단계 추론, 맥락 이해가 필수
- 다양성: 다문화·다언어·다학제 반영(편향 최소화)
문항 개발도 치밀합니다. 최신 모델 사전 검증 → 전문가 2단계 리뷰 → 난이도·명확성 정제라는 과정으로 품질을 보증합니다. “AI가 맞힌 문제는 탈락”이라는 기준 덕에, 최종 시험지는 지금의 AI가 실제로 어려워하는 질문만 남은 집합이 됩니다.
| 항목 | HLE 구성·과정 | 의미 |
|---|
| 규모·범위 | 2,500문항, 100+ 분야, 일부 멀티모달(이미지 포함) | 폭넓은 지식·추론의 단면 제공 |
| 문항 기준 | 검색 불가, 정답 명확, 추론 중심 | 암기·검색형 모델의 한계 배제 |
| 품질 보증 | 최신 모델 사전 난이도 체크 → 전문가 다중 리뷰 | 모호성·편향·애매함 제거 |
| 동기부여 | 상금 50만 달러(최우수·우수 문항 포상) | 고품질 질문 수집 생태계 조성 |
※ 위 구성·과정 요약은 HLE 논문(2025) 공개 내용을 바탕으로 정리했습니다.
결과: 점수는 낮고, 자신감은 높았다
최신 모델들이 HLE를 풀었을 때의 결과는 직관을 뒤엎습니다. 정답률은 한 자릿수에 그쳤고, 심지어 틀린 답에 매우 높은 확신을 표하는 경우가 잦았습니다. 즉, “모른다는 것을 모르는” 상태가 적지 않게 발생한 겁니다.
시사점
- 정답률 저조는 단지 ‘어려움’의 문제가 아니라, 추론 체계의 취약성을 보여줌
- 높은 확신의 오답은 의사결정 신뢰성을 저해(특히 법·의료·금융 등 고위험 도메인)
- 모델 성능 측정은 정답률 + 자기확신(캘리브레이션)을 함께 보아야 함
예시: HLE식 질문의 난이도를 체감해 보세요.
<예시 A: 언어학/역사 맥락 결합> 한 장의 비문(碑文) 사진이 주어진다. 라틴 문자 표기는 제공되지만, 해석에는 지역 방언의 음운 전이 규칙과 시대별 표기법 차이가 관여한다. 질문: 다음 네 단어 중, 해당 시대·지역 규칙에 맞게 해석된 것을 모두 고르시오. (해설은 해당 규칙의 근거와 반례를 요구) <예시 B: 멀티모달 수학/공학> 회로 이미지와 간단한 수식이 함께 주어진다. 질문: 장치의 임피던스를 주파수 f에 대해 추정할 때 필요한 가정 2가지를 쓰고, 각각이 불만족일 때 결과에 미치는 정성적 영향을 설명하시오. (검색으로는 안 나오며, 물리적 상식 + 수학적 추론 결합 필요) <예시 C: 생물/의학 추론> 현미경 이미지와 간단한 텍스트 설명이 함께 주어진다. 질문: 세포막 수용체 변형에 따른 약물 반응 곡선의 변화를 그래프 형태로 요약하고, 해당 변화가 임상적 의사결정에 주는 함의를 2문장으로 제시하시오.
공통점은 명확합니다. 정답은 분명하지만 그곳에 가기까지 “지식-맥락-추론”의 연결이 필요합니다. 이 연결 능력이 현재 LLM의 취약 지대입니다.
점수보다 중요한 것: “우리가 어떤 질문을 던지는가”
좋은 질문은 AI의 학습 방향을 바꿉니다. 쉬운 질문만 던지면, AI는 그 범위 안에서만 빨라지고 정확해집니다. 반대로 다문화·다언어·다학제의 맥락을 담은 질문을 던지면, AI는 그 복잡성을 학습하게 됩니다. 질문이 결국 AI의 세계관을 만들기 때문입니다.
| 기존 벤치마크 | HLE 이후 벤치마크 | 의미 |
|---|
| 지식 재현·정답 회수 중심 | 맥락 결합·다단계 추론 중심 | 암기형 모델 → 이해형 모델로 전환 유도 |
| 단일 문화·언어 비중 높음 | 다문화·다언어 균형 반영 | 사용자 다양성에 대한 일반화 능력 강화 |
| 정답률 위주 평가 | 정답률 + 확신 일치(캘리브레이션) | 신뢰 가능한 의사결정 보조로 진화 |
| 정적 데이터 | 지속 업데이트·검증 | 환경 변화 대응, 데이터 노후화 방지 |
미디어 코퍼스의 원칙: 질문을 설계하는 데이터
미디어 코퍼스는 HLE가 보여준 변화의 방향에 공감합니다. 우리는 벤치마크를 단순한 시험지가 아니라 인간과 AI가 함께 더 나은 사회를 만드는 설계도로 봅니다. 그래서 다음을 원칙으로 삼습니다.
- 인간 중심성 — 기술이 인간의 권리와 삶의 질을 높이도록 데이터 설계
- 다양성 — 문화·언어·배경의 균형 반영(저대표 집단의 맥락 포함)
- 투명성 — 수집·가공·검증 과정과 기준을 명확히 기록·공개
- 지속성 — 환경 변화와 기술 고도화에 맞춘 상시 개선
데이터 장인(artisan)의 역할
- 숨은 편향을 찾아내는 감수성
- 표면 정보 너머의 사회·문화 맥락을 읽는 능력
- 일관된 품질 기준 수립과 운영
- 저작권·개인정보·공정성·안전성 등 윤리 경계선 설정
즉, 단순 라벨링을 넘어, 지식을 이해·재구성하는 일입니다.
FAQ: 독자가 자주 묻는 질문
Q1. HLE에서 높은 점수를 받으면 ‘AGI’에 가까워진 건가요?
A. 아닙니다. HLE는 닫힌 형태의 학술 문제 정답 능력을 측정합니다. 연구 창의성이나 장기 계획·대화적 조율 능력 같은 개방형 지능을 전부 대변하진 않습니다. 다만 고난도 폐쇄형 문제에서 전문가급 성능을 보인다는 신호로는 강력합니다.
Q2. 왜 멀티모달(이미지+텍스트) 문항이 중요한가요?
A. 현실은 텍스트만 존재하지 않습니다. 숫자·도표·지도·사진·그래프·공식이 뒤섞입니다. 멀티모달 문제는 현실적 판단에 가까운 조건을 제공합니다.
Q3. “틀린 답에 대한 높은 확신”은 왜 위험한가요?
A. 사용자는 AI의 잘못된 판단을 신뢰해 버릴 우려가 있기 때문입니다. AI가 의사결정 보조 도구로 쓰일수록 캘리브레이션(확신-정확도 일치)은 AI의 능력을 평가하는 핵심 품질 기준이 됩니다.
‘마지막 시험’은 끝이 아니라 시작
HLE는 AI에게 던진 시험이자, 우리 자신에게 던진 질문입니다. 우리는 어떤 질문을 중요하다고 여기는가? 그 질문이 곧 우리가 만들고 싶은 사회의 윤곽입니다. 점수를 올리는 일보다 중요한 건, 올바른 질문을 설계하는 일입니다. 미디어 코퍼스는 그 질문의 설계부터 데이터로 구현되는 과정까지, 인간의 가치가 중심에 놓이도록 함께하겠습니다.
질문을 통해 미래를 설계하는 데이터, 미디어 코퍼스가 함께 만들어갑니다.
참고
“HLE는 2,500개의 고난도 문항으로 구성되며 다수의 학문 분야를 아우른다. 문제는 검색으로 풀이가 어려우며, 정답이 명확하고 자동 채점이 가능하도록 설계됐다. 최신 모델들은 낮은 정확도와 높은 자기확신 간 불일치를 보였다.”
— Humanity’s Last Exam, arXiv (2025), 공개 버전 요약 기반
| 근거 포인트 | 논문 내 근거 |
|---|
| 문항 규모·범위 | 2,500문항, 다학제, 일부 멀티모달(이미지 포함)로 설계 |
| 정답 기준 | 정답이 명확·검증 가능, 자동 채점 가능하도록 구성 |
| 사전 난이도 필터 | 최신 모델이 맞히는 문제는 제외 후 리뷰 단계로 이관 |
| 검토 프로세스 | 전문가 다중 리뷰·조정(명확성·난이도·표현 정제) |
| 성능 결과 | 최신 모델들의 낮은 정확도, 높은 자기확신 오답(캘리브레이션 취약) |
※ 본 글의 수치·절차·평가 개념은 HLE 논문의 공개 내용과 일반 공개 요약을 근거로 재구성했습니다. 원문 세부 수치는 버전 업데이트에 따라 달라질 수 있습니다.
마지막으로 : 참여해 보세요.
아래 ‘HLE 스타일’에 영감을 받은 짧은 체험 문항입니다. 정답은 하나지만, 접근은 여러 갈래일 수 있어요.
<문제: 역사언어 맥락 추론(간이)> 아래 두 문장이 같은 역사 사건을 지칭하는지 판단하시오(예/아니오). - 문장1: “왕의 남쪽 원정 이후, 지방 행정구역의 세제(稅制)가 개편되었다.” - 문장2: “새로운 도로망이 개통된 해, 남방 변경의 토지세율이 조정되었다.” 조건: 연대는 동일하지 않으나, 사료상 해당 국가의 ‘원정-도로-세제’ 순서가 뒤엉켜 기록된 사례가 보고됨. 힌트: 물적 기반(도로망) 구축과 행정 개편의 인과관계 가능성을 사료 비판 관점에서 검토하라.
검색으로는 어렵고, 사료 비판·맥락 결합·가능성 판단이 필요합니다. 이런 결의 문제들이 쌓이면, AI가 단순 정답 회수에서 벗어나 맥락적 이해를 학습하게 됩니다.
본 글은 미디어 코퍼스가 지향하는 데이터 철학의 안내서이기도 합니다.
미디어 코퍼스는 사소한 데이터 한 줄에도 미래에 대한 고민과 방향성을 담습니다.
AI 시대, 인류의 마지막 시험: Humanity’s Last Exam이 던지는 진짜 질문
점수가 아니라 ‘질문’이 방향을 정한다. 데이터가 해야 할 일과, 그것을 만드는 사람의 역할.
프롤로그: 우리는 왜 시험을 치를까?
시험의 목적은 단순히 정답을 맞히는 게 아니라, 지금 우리의 위치를 객관적으로 확인하는 데 있습니다. 이제 그 시험지가 인간을 넘어 AI의 손에 쥐어지고 있습니다. 최신 모델들이 놀라울 만큼 많은 과제를 해결하는 시대, 우리는 자연스럽게 묻게 됩니다. “정말로 AI가 인간이 푸는 문제 대부분을 풀 수 있을까?”
이 질문에 답하기 위해 탄생한 것이 Humanity’s Last Exam(HLE)입니다. 이름은 도발적이지만, 의도는 명확합니다. AI가 아직 이해하지 못하는 지점을 정확하게 보여주는 고난도 벤치마크죠.
배경: 기존 벤치마크가 ‘만점자 클럽’이 된 이유
지식·코딩·추론 능력을 평가하는 다양한 벤치마크(MMLU, 코딩 챌린지 등)는 AI 발전에 큰 역할을 했습니다. 하지만 최근 들어 최상위 모델들이 90% 이상을 기록하며 “더 이상 변별력이 없다”는 한계가 드러났습니다. 시험이 쉬워진 게 아니라, 시험이 가리키는 능력의 상한에 도달했기 때문입니다. 이제 필요한 건, 검색이나 암기로는 풀 수 없는 문제들입니다. 이해·추론·맥락 결합이 필수인 문제들 말이죠.
HLE의 설계 철학: “AI가 못 푼다”를 출발점으로
HLE는 전 세계 전문가 약 1,000명이 참여해 100여 개 분야에서 만든 2,500문항으로 구성됩니다. 수학·물리학·언어학·역사·의학·생물·인문·예술사·희귀 언어까지 폭넓습니다. 본질은 간단합니다. AI가 쉽게 맞힐 수 있는 문제는 처음부터 제외한다는 것.
문항 개발도 치밀합니다. 최신 모델 사전 검증 → 전문가 2단계 리뷰 → 난이도·명확성 정제라는 과정으로 품질을 보증합니다. “AI가 맞힌 문제는 탈락”이라는 기준 덕에, 최종 시험지는 지금의 AI가 실제로 어려워하는 질문만 남은 집합이 됩니다.
※ 위 구성·과정 요약은 HLE 논문(2025) 공개 내용을 바탕으로 정리했습니다.
결과: 점수는 낮고, 자신감은 높았다
최신 모델들이 HLE를 풀었을 때의 결과는 직관을 뒤엎습니다. 정답률은 한 자릿수에 그쳤고, 심지어 틀린 답에 매우 높은 확신을 표하는 경우가 잦았습니다. 즉, “모른다는 것을 모르는” 상태가 적지 않게 발생한 겁니다.
예시: HLE식 질문의 난이도를 체감해 보세요.
공통점은 명확합니다. 정답은 분명하지만 그곳에 가기까지 “지식-맥락-추론”의 연결이 필요합니다. 이 연결 능력이 현재 LLM의 취약 지대입니다.
점수보다 중요한 것: “우리가 어떤 질문을 던지는가”
좋은 질문은 AI의 학습 방향을 바꿉니다. 쉬운 질문만 던지면, AI는 그 범위 안에서만 빨라지고 정확해집니다. 반대로 다문화·다언어·다학제의 맥락을 담은 질문을 던지면, AI는 그 복잡성을 학습하게 됩니다. 질문이 결국 AI의 세계관을 만들기 때문입니다.
미디어 코퍼스의 원칙: 질문을 설계하는 데이터
미디어 코퍼스는 HLE가 보여준 변화의 방향에 공감합니다. 우리는 벤치마크를 단순한 시험지가 아니라 인간과 AI가 함께 더 나은 사회를 만드는 설계도로 봅니다. 그래서 다음을 원칙으로 삼습니다.
FAQ: 독자가 자주 묻는 질문
Q1. HLE에서 높은 점수를 받으면 ‘AGI’에 가까워진 건가요?
A. 아닙니다. HLE는 닫힌 형태의 학술 문제 정답 능력을 측정합니다. 연구 창의성이나 장기 계획·대화적 조율 능력 같은 개방형 지능을 전부 대변하진 않습니다. 다만 고난도 폐쇄형 문제에서 전문가급 성능을 보인다는 신호로는 강력합니다.
Q2. 왜 멀티모달(이미지+텍스트) 문항이 중요한가요?
A. 현실은 텍스트만 존재하지 않습니다. 숫자·도표·지도·사진·그래프·공식이 뒤섞입니다. 멀티모달 문제는 현실적 판단에 가까운 조건을 제공합니다.
Q3. “틀린 답에 대한 높은 확신”은 왜 위험한가요?
A. 사용자는 AI의 잘못된 판단을 신뢰해 버릴 우려가 있기 때문입니다. AI가 의사결정 보조 도구로 쓰일수록 캘리브레이션(확신-정확도 일치)은 AI의 능력을 평가하는 핵심 품질 기준이 됩니다.
‘마지막 시험’은 끝이 아니라 시작
HLE는 AI에게 던진 시험이자, 우리 자신에게 던진 질문입니다. 우리는 어떤 질문을 중요하다고 여기는가? 그 질문이 곧 우리가 만들고 싶은 사회의 윤곽입니다. 점수를 올리는 일보다 중요한 건, 올바른 질문을 설계하는 일입니다. 미디어 코퍼스는 그 질문의 설계부터 데이터로 구현되는 과정까지, 인간의 가치가 중심에 놓이도록 함께하겠습니다.
질문을 통해 미래를 설계하는 데이터, 미디어 코퍼스가 함께 만들어갑니다.
참고
※ 본 글의 수치·절차·평가 개념은 HLE 논문의 공개 내용과 일반 공개 요약을 근거로 재구성했습니다. 원문 세부 수치는 버전 업데이트에 따라 달라질 수 있습니다.
마지막으로 : 참여해 보세요.
아래 ‘HLE 스타일’에 영감을 받은 짧은 체험 문항입니다. 정답은 하나지만, 접근은 여러 갈래일 수 있어요.
검색으로는 어렵고, 사료 비판·맥락 결합·가능성 판단이 필요합니다. 이런 결의 문제들이 쌓이면, AI가 단순 정답 회수에서 벗어나 맥락적 이해를 학습하게 됩니다.
본 글은 미디어 코퍼스가 지향하는 데이터 철학의 안내서이기도 합니다.
미디어 코퍼스는 사소한 데이터 한 줄에도 미래에 대한 고민과 방향성을 담습니다.