[AI와 인간①] 사람 얼굴을 흉내 내는 기계는 어떻게 만들어지나

어헤드폼 ‘오리진 F1’이 보여준 기술의 방향… 전신 동작보다 어려운 것은 얼굴의 미세한 움직임이다

2026-03-28 신명준 기자

[KtN 신명준기자]여성 얼굴을 한 로봇 머리가 눈을 깜빡이고 시선을 옮긴다. 말을 듣는 동안 입 주변이 미세하게 움직이고, 잠깐 멈춘 뒤 표정이 다시 바뀐다. 최근 온라인에서 퍼진 중국 스타트업 어헤드폼의 ‘오리진 F1’ 영상은 휴머노이드 기술의 초점이 어디로 향하는지 보여줬다. 걷고 물건을 드는 기술과는 다른 과제, 사람 얼굴의 움직임을 얼마나 세밀하게 구현할 수 있는지가 앞에 놓였다.

어헤드폼이 내세운 방향은 전신보다 얼굴과 상반신이다. 사람과 직접 마주하는 부위부터 구현하겠다는 접근이다. 오리진 F1도 그 연장선에 있다. 눈, 입, 눈썹, 뺨 주변의 움직임을 조절해 사람 얼굴에서 나타나는 표정 변화를 재현하는 데 초점을 맞췄다. 전신 기동성과 하중 능력보다 시선 처리와 표정 변화, 반응의 자연스러움이 먼저다.

이 기술의 바탕에는 기계 구조가 있다. 오리진 F1은 피부 아래 여러 구동 장치를 배치하고, 그 위를 유연한 외피로 덮는 방식을 취했다. 사람 얼굴은 뼈와 근육, 피부가 한꺼번에 움직이며 표정을 만든다. 로봇은 그 구조를 그대로 가질 수 없기 때문에, 구동 장치와 외피의 조합으로 비슷한 결과를 만들어야 한다. 눈꺼풀이 닫히는 속도, 입꼬리가 올라가는 각도, 눈썹이 당겨지는 범위 같은 요소가 여기서 갈린다.

문제는 큰 동작이 아니라 작은 동작이다. 사람 얼굴은 눈에 띄는 표정보다 미세한 변화에서 더 큰 차이를 만든다. 말을 듣는 동안 입 주변이 잠깐 굳는 순간, 상대를 보기 직전 눈동자가 먼저 움직이는 타이밍, 고개를 약간 기울였다가 멈추는 각도가 전체 인상을 좌우한다. 로봇 얼굴이 어색해 보이는 이유도 대개 여기서 나온다. 모양이 비슷해도 움직임의 순서와 속도가 맞지 않으면 바로 이질감이 드러난다.

그래서 얼굴은 전신 동작 못지않게 어려운 기술 과제로 꼽힌다. 걷기나 물체 조작은 안정성과 힘, 반복 정밀도가 중요하다면, 얼굴은 훨씬 더 촘촘한 제어가 필요하다. 구동 장치가 많아질수록 움직임은 세밀해지지만, 그만큼 제어는 복잡해진다. 외피가 지나치게 뻣뻣하면 표정이 끊겨 보이고, 반대로 너무 무르면 미세한 형태가 흐려진다. 하드웨어 설계만으로 해결되지 않는 이유다.

어헤드폼이 함께 내세우는 것이 ‘옴니 모델’이다. 시각·음성·언어 정보를 함께 처리해 얼굴 반응을 조정하는 방식이다. 사람이 말을 걸면 그 음성과 내용, 눈앞의 상황을 함께 받아들여 표정과 시선, 입 주변 움직임으로 이어지게 하는 구조다. 입을 열고 닫는 단순 동기화가 아니라, 대화 상황에 맞는 반응을 얼굴에 얹으려는 시도라고 볼 수 있다.

이런 시스템에서는 하드웨어와 소프트웨어가 따로 움직일 수 없다. 구동 장치와 외피가 표정을 만들 수 있어야 하고, 그 표정을 언제 어떤 순서로 내보낼지 판단하는 모델도 함께 맞물려야 한다. 표정을 만드는 기술과 표정을 선택하는 기술이 하나의 체계로 묶여야 한다는 뜻이다. 얼굴 로봇에서 인공지능 모델이 중요한 이유도 여기에 있다. 표정 자체보다 표정이 나오는 타이밍이 더 중요하기 때문이다.

오리진 F1 영상이 보여준 것도 결국 이 결합이다. 눈과 입, 눈썹 주변을 움직이는 기계 장치만으로는 사람 얼굴 같은 인상을 만들기 어렵다. 반대로 인공지능 모델만으로는 물리적인 얼굴 움직임을 구현할 수 없다. 얼굴 아래에서 움직이는 장치와 그 움직임을 제어하는 모델이 맞물려야 비로소 짧은 표정 변화가 나온다. 오리진 F1은 그 결합을 시연한 사례로 볼 수 있다.

다만 현재 단계는 시연 플랫폼에 가깝다. 짧은 영상에서 자연스럽게 보이는 것과 실제 환경에서 안정적으로 반복 작동하는 것은 다른 문제다. 조명과 각도, 거리, 반응 속도에 따라 인상은 크게 달라질 수 있다. 그래서 지금 단계에서 읽어야 할 것은 완성 여부보다 기술의 방향이다. 휴머노이드 개발이 팔과 다리의 문제만이 아니라 얼굴과 표정의 문제로까지 옮겨가고 있다는 점이다.

어헤드폼의 오리진 F1은 사람 얼굴을 한 기계를 만드는 일이 어떤 기술의 결합 위에 서 있는지를 보여준다. 피부 아래 구동 장치, 유연한 외피, 시선과 표정을 조절하는 제어 기술, 시각·음성·언어 정보를 함께 처리하는 모델이 한 얼굴 안에서 맞물린다. 휴머노이드 경쟁이 어디까지 왔는지보다, 앞으로 어떤 난제를 넘어야 하는지를 드러낸 장면에 가깝다.