[AI 패권경쟁②] 인간 추론을 묻다 – ARC-AGI와 'Humanity’s Last Exam', AI의 진짜 지능은 무엇인가

ARC-AGI v2, 인간 사고의 '모사 능력'을 정면으로 겨누다

2025-07-13 임우경 기자

[KtN 임우경기자] 2025년 7월, 인공지능 업계의 지형도가 급변하고 있다. 미국의 AI 스타트업 xAI는 'Grok 4'를 앞세워 인간 수준의 추론 능력을 시험하는 두 개의 벤치마크 평가에서 모두 압도적인 성과를 거두었다. ARC-AGI v2와 Humanity’s Last Exam이라는 두 시험은 단순 정보 예측이 아닌 ‘사고의 구조’를 시험하는 평가로, 기존 언어모델의 한계를 가장 분명히 드러내는 기준으로 작동하고 있다.

지금, AI는 지식과 데이터를 넘어 ‘지능의 본질’을 묻는 시대로 접어들고 있다. 한국 사회가 이 흐름에 적극적으로 대응하기 위해선, AI의 성능을 측정하는 기준부터 근본적으로 재정립할 필요가 있다.

ARC-AGI v2, 인간 사고의 '모사 능력'을 정면으로 겨누다

프랑수아 숄레(François Chollet)가 개발한 ARC(Abstraction and Reasoning Corpus)는 인공지능이 단순한 기계 학습을 넘어 인간처럼 사고할 수 있는지를 가늠하기 위해 설계된 벤치마크다. ARC는 기존의 데이터 기반 예측 모델이 아닌, ‘상징 조작’과 ‘규칙 유추’를 요구하는 구조로, 인간의 추론 메커니즘에 근접한 사고력 측정을 목표로 삼고 있다.

2025년 3월, 숄레는 ARC의 두 번째 버전인 ARC-AGI v2를 공개하며, 이를 중심으로 국제 AI 경진대회인 ARC Prize를 출범시켰다. ARC-AGI v2는 총 360개의 평가 문제를 포함하고 있으며, 문제는 ▲공개 평가 세트, ▲세미프라이빗 세트, ▲프라이빗 세트로 구성된다. 주요 모델의 랭킹은 세미프라이빗 세트를 기준으로 산정된다.

각 문제는 2차원 격자 위에 배열된 도형과 색상 정보를 바탕으로 일부 입출력 사례를 제공하고, 모델은 이 규칙을 유추해 새 입력값에 대한 출력을 도출해야 한다. 인간은 이를 수초에서 수분 내에 해결할 수 있으나, AI 모델은 사전 훈련이나 대규모 데이터를 사용할 수 없기 때문에 오직 '순수 추론'만으로 문제를 해결해야 한다.

Grok 4는 이 평가에서 정확도 15.9%를 기록하며, 전 세계 AI 모델 중 단연 선두로 올라섰다. 그 뒤를 Anthropic의 Claude Opus 4(8.6%), OpenAI의 o3(6.5%), Google의 Gemini 2.5 Pro(4.9%)가 이었다. 지난 2월까지만 해도 대부분 모델이 2% 미만에 머물렀다는 점을 고려하면, Grok 4의 성과는 고차 추론 능력에서 AI가 인간과의 격차를 좁혀가고 있음을 암시하는 결과로 해석된다.

Humanity’s Last Exam, '지식의 연결 능력'을 측정하는 지능 평가

ARC-AGI가 인간의 추상적 사고력에 초점을 맞췄다면, Humanity’s Last Exam은 인간 지식의 구조적 연결성과 확장성, 곧 '사고의 깊이'를 측정하는 벤치마크다. 이 시험은 다양한 분야의 대학원 수준 질문 2,500문항으로 구성돼 있으며, 과학·수학·철학·심리학·정치학·예술 등 40개 이상 학문 영역을 망라한다.

모델은 단편적인 지식이 아니라, 지식 간의 관계를 맥락 속에서 파악하고, 응용·추론·분석·판단 능력을 동시에 요구받는다. 기존 벤치마크에서 고득점을 기록한 모델이라 하더라도, 이 시험에서는 초라한 성과에 머무는 사례가 많다.

xAI는 Grok 4가 도구 없이 해당 시험에서 25.4%를 기록했고, 외부 도구를 활용한 경우 38.6%, 강화 버전인 Grok 4 Heavy는 44.4%를 달성했다고 밝혔다. 반면, OpenAI o3는 21.0%, Google Gemini 2.5 Pro는 21.6%로 Grok 4보다 현격히 낮은 성과를 기록했다.

특히 주목할 점은 Grok 4가 인간 수학 전문 인재가 풀도록 설계된 AIME(미국 수학경시대회)에서 100% 정답률을 기록했다는 점이다. 이는 단순 기호 처리나 공식 암기를 넘어, 실제 수학적 사고와 증명 과정을 AI가 수행할 수 있음을 시사한다.

고차 추론형 AI 시대, 대한민국은 준비되어 있는가

Grok 4의 성과는 단순히 xAI의 기술력만을 의미하지 않는다. 이는 AI 패권 경쟁의 전장이 '연산 인프라'에서 '인지 구조 설계'로 넘어가고 있음을 뜻한다. 지금의 경쟁은 더 많은 GPU와 더 큰 모델을 만드는 싸움이 아니라, 더 잘 생각하는 AI를 어떻게 설계할 것인가에 대한 싸움이다.

대한민국은 반도체·디스플레이·5G 분야에서는 세계적 경쟁력을 보유하고 있지만, AI 추론 평가 체계나 상징지능 기반 알고리즘 개발에서는 여전히 후발 주자에 머물러 있다. 현재 도입 중인 AI 벤치마크는 대부분 언어 처리 능력이나 정답률 위주의 평가에 치우쳐 있으며, 추상적 사고력, 일반화 능력, 상황 판단력 등을 평가하는 체계는 사실상 부재하다.

이재명 정부가 추진 중인 ‘AI 초격차 전략’과 고성능 AI 반도체-모델 통합 생태계 조성’은 매우 중요한 시도다. 그러나 벤치마크 체계의 패러다임 전환 없이는, 기술력 자체의 품질을 측정할 수 없고, 국제 경쟁력 있는 모델을 키울 수 없다.

한국형 AGI 평가체계, 지금 설계해야 할 때

지금 대한민국이 설계해야 할 것은 단순한 AI 모델이 아니다. 한국형 ARC-AGI, 한국형 Humanity’s Last Exam과 같은 지능의 작동 원리를 측정할 수 있는 체계가 필요하다. 대학과 연구기관은 고차 추론 능력을 갖춘 한국어 기반 문제셋을 구축하고, 언어모델을 넘어서 멀티모달 AI까지 포괄할 수 있는 국가 주도의 벤치마크 플랫폼을 마련해야 한다.

또한 국가 슈퍼컴퓨팅 자원은 단순 연산 지원을 넘어 모델 구조 실험과 벤치마크 통합 시스템의 거점으로 재편되어야 하며, 이를 통해 ‘Grok 4’와 같은 모델을 내부에서 검증하고, 외부와 비교할 수 있는 체계를 갖춰야 한다.

2025년, AI는 인간 사고의 문을 두드리고 있다. 대한민국이 이 질문에 답할 수 있으려면, 먼저 ‘어떤 지능을 만들고 싶은가’라는 질문부터 시작해야 한다.