[AI 패권경쟁①] 일론 머스크의 xAI, ‘Grok 4’로 AGI 진입 문턱 넘다

세계 최대 연산 인프라 ‘Colossus’, 추론형 AI 진화를 견인하다

2025-07-12 임우경 기자

[KtN 임우경기자] 2025년 7월, 미국 라스베이거스에서 인공지능 업계의 시선이 집중됐다. 엘론 머스크가 이끄는 인공지능 전문 기업 xAI가 개발한 차세대 AI 모델 ‘Grok 4’가 범용인공지능(AGI) 실현 가능성을 시험하는 고차 추론 평가 ‘ARC-AGI v2’에서 역대 최고 성능을 기록하며 세계 AI 경쟁의 판도를 뒤흔들었다.

Grok 4는 ARC-AGI v2의 세미프라이빗(Semi-Private) 평가에서 정확도 15.9%를 기록했다. 기존 최고 성능이었던 Anthropic의 Claude Opus 4가 기록한 8.6%보다 두 배 가까이 높은 수치다. 대다수 AI 모델이 1~6%대 정확도에 머무르던 상황에서 xAI는 단숨에 새로운 지평을 열었다. xAI는 이 성과를 ‘세계 최고 수준의 인간 유사 추론 능력 확보’로 규정하며, 범용 인공지능에 한 걸음 더 다가섰다고 평가했다.

세계 최대 연산 인프라 ‘Colossus’, 추론형 AI 진화를 견인하다

xAI는 2023년 3월 설립 이후 불과 2년 만에 전례 없는 연산 인프라를 구축했다. 미국 테네시주 멤피스에 조성한 Colossus 슈퍼컴퓨터는 설계 초기부터 AI 모델 훈련에 최적화된 구조로 설계됐다. Colossus는 122일 만에 100,000개의 NVIDIA GPU를 확보했고, 이후 92일 만에 200,000개로 확장되며 현재 세계에서 가장 강력한 AI 연산 시스템으로 자리잡았다.

xAI는 Dell, Supermicro, NVIDIA 등과 협력해 Colossus를 100만 GPU 규모로 확대할 계획이다. 이 연산 인프라는 단순한 규모 경쟁이 아닌, 모델 설계와 학습의 질적 도약을 이끄는 기반으로 작동하고 있다. Grok 4는 Colossus 환경에서 학습된 첫 번째 초추론형 AI 모델로, 기존 언어모델의 한계를 뛰어넘는 구조적 진보를 이뤘다는 분석이 지배적이다.

프랑수아 숄레가 만든 ARC-AGI v2, 인간 추론력의 기준이 되다

프랑수아 숄레(François Chollet)가 개발한 ARC(Abstraction and Reasoning Corpus)는 기존 벤치마크들과 달리 ‘인지 유연성’과 ‘상징적 사고력’에 초점을 둔다. ARC-AGI v2는 2025년 3월에 공개된 두 번째 버전으로, 360개의 평가 문제를 통해 인간 수준의 일반화 능력과 문제 해결력을 AI 모델이 어느 정도 확보했는지를 시험한다.

ARC-AGI v2의 각 문제는 제한된 수의 입출력 예시를 통해 숨겨진 규칙을 파악하고, 유사한 입력에 정답을 도출하는 방식으로 구성된다. AI 모델은 학습 데이터를 활용할 수 없고, 외부 도구나 사전 지식도 금지된다. 순수한 논리적 추론만으로 정답을 도출해야 하며, 이는 인간에게는 직관적인 수준이지만 AI에게는 극복하기 어려운 벽으로 작용해왔다.

xAI는 Grok 4가 ARC-AGI v2 세미프라이빗 세트에서 15.9% 정답률을 기록했다고 공식 발표했다. 이는 Claude Opus 4의 8.6%, OpenAI의 o3(6.5%), Google의 Gemini 2.5 Pro(4.9%) 등을 제친 수치다. 2025년 초까지 상위권 모델이 2%에도 도달하지 못했던 점을 감안할 때, Grok 4의 도약은 매우 이례적이며 기술사적으로도 의미 있는 사건으로 평가받는다.

‘Humanity’s Last Exam’에서도 압도적 성능…도구 없는 순수 추론력 입증

Grok 4는 ARC-AGI뿐 아니라 인류의 포괄적 사고력을 시험하는 ‘Humanity’s Last Exam’에서도 뛰어난 성과를 보였다. ‘Humanity’s Last Exam’은 수천 개의 질문을 기반으로 하는 고차 추론 테스트로, 대학원 수준의 다분야 지식과 일반화 능력을 점검하는 데 초점을 둔다.

xAI는 Grok 4가 이 시험에서 도구 없이 25.4%의 정확도를 기록했으며, 외부 도구를 활용한 경우 38.6%, Grok 4 Heavy 모델은 44.4%에 도달했다고 밝혔다. 이는 OpenAI o3(21.0%), Google Gemini 2.5 Pro(21.6%) 등과 비교할 때 월등히 높은 성과다.

또한 Grok 4는 미국 수학경시대회 AIME에서 100% 정답률을 달성했다. 이전 버전인 Grok 3가 52.2%에 그쳤던 점과 비교하면 AI가 고등 수준의 수학적 추론 영역에서도 인간 전문가를 넘볼 수 있는 수준에 도달했음을 보여준다.

엘론 머스크, AGI의 ‘전환점’을 선언하다

xAI는 Grok 4를 X Premium 및 Premium+ 구독자를 대상으로 공개하고 있으며, 텍스트, 이미지, 코드 해석 등 멀티모달 기능을 전면에 배치하고 있다. 엘론 머스크는 Grok 5, Grok 6의 개발이 빠르게 진행 중이며, 연내에 ARC-AGI 평가에서 인간 평균 성능을 넘어서는 모델이 나올 가능성도 언급했다.

xAI는 단순한 챗봇 수준의 대화형 모델을 넘어, 플랫폼 전체를 AGI 지향 인터페이스로 재설계하고 있다. Grok 시리즈는 그 중심에서 정보 탐색, 콘텐츠 분석, 논리 해석 등을 모두 통합하며, 기존의 검색 중심 웹 경험을 AI 중심으로 대체하려는 전략의 핵심 요소로 자리잡았다.

대한민국, ‘AI 추론’ 시대를 준비할 시간

Grok 4의 도약은 대한민국에도 분명한 시사점을 던진다. 추론형 AI가 AI 기술 패권 경쟁의 주도권을 장악하는 지금, 연산 인프라와 벤치마크 설계, 고급 인재 양성은 국가 전략 차원에서 다뤄야 할 핵심 과제가 됐다.

이재명 정부는 ‘AI 초격차 국가전략’을 기조로 반도체 중심의 연산 생태계 구축과 AI 인재 10만 양성 프로젝트를 병행하고 있다. 하지만 Grok 4 수준의 고차 추론 모델에 대응하기 위해서는 추론 중심 AI 벤치마크 체계, 슈퍼컴퓨팅 중심 고도화, 실시간 멀티모달 시스템 개발 등에서의 전략적 전환이 시급하다.

세계는 AGI 실현을 두고 치열한 기술 내셔널리즘의 경쟁 구도로 접어들었다. xAI는 Grok 4를 통해 그 출발선에서 앞서나가고 있으며, 대한민국이 이 흐름에 능동적으로 참여하기 위한 정책적 선택과 투자가 필요한 시점이 도래했다.