[산업과 기술] 피지컬 AI 시대가 온다 : 월간조선

산업과 기술

피지컬 AI 시대가 온다

“앞으로의 인공지능은 피지컬 AI(Physical AI)로 진화”(젠슨 황)

글 : 박정규 KAIST 기술경영전문대학원 겸직교수

URL이 성공적으로 복사되었습니다.

⊙ 자동운전 자동차는 이미 현실 속으로 들어온 피지컬 AI
⊙ 휴머노이드, 학습 데이터 활용·근로환경 호환성에서 주목
⊙ 피지컬 AI는 파괴적 혁신·속도가 생명인 IT 기업과 전통 제조 기업의 특성 공유
⊙ 가상공간에서 AI 활용한 강화 학습으로 로봇 훈련시키면서 로봇 개발 대중화
⊙ 테슬라, 모델 S와 X 생산 종료하고 로봇 생산 예정
⊙ “2028~2030년이면 AI가 인간의 운전 수준에 도달할 것”(중국 모멘타 CEO 차오쉬둥)

朴正圭
1968년생. 한양대 기계공학과 졸업, 한국과학기술원 기계공학과 석사, 일본 교토대 정밀공학과 박사, 미시간대 방문학자 / 기아자동차 중앙기술연구소 연구원, 日 교토대 정밀공학과 조교수, LG전자 생산기술원, 현대자동차 자동차산업연구소·해외공장지원실 근무, 한양대 인공지능융합대학원(야간) 석사 / 한양대 미래자동차공학과 겸임교수 역임. 現 KAIST 기술경영전문대학원 겸직교수 / 저서 《스마트카패권전쟁》《반도체초진화론》(역서), 《실천 모듈러 설계》(역서), 《모노즈쿠리》(역서)

: NVIDIA CEO 젠슨 황은 지난 1월 5일 라스베이거스에서 열리는 CES를 앞두고 연 기자회견에서 ‘NVIDIA 루빈 AI 슈퍼컴퓨팅 플랫폼’에 대해 설명했다. 사진=AP/뉴시스

2026년 1월 5일, 미국 라스베이거스에서 열리는 기술 전시회 CES (Consumer Electronics Show)를 앞두고 엔비디아의 CEO 젠슨 황이 무대에 올랐다. 검은색 가죽 재킷에 청바지를 입고 나타난 그는 “앞으로의 인공지능은 피지컬 AI(Physical AI)로 진화할 것”이라고 강조했다. ‘피지컬 AI’에서 ‘피지컬’이란 ‘몸뚱이가 있는, 즉 실체가 존재하는 것’을 의미한다.

이를 반영하듯, 2026년 CES의 주인공은 로봇이었다. 많은 로봇 중 텀블링을 하고 공장에서 작업하는 보스턴 다이내믹스의 로봇 ‘아틀라스(Atlas)’가 많은 이의 주목을 받았다.

생성형 AI와 피지컬 AI

AI는 2022년 11월 ChatGPT가 공개되면서 대중화되었다. 과거 AI는 주어진 데이터를 바탕으로 ‘개인지 고양이인지’를 분류하는 수동적 AI였다. 하지만 생성형 AI(Generative AI)의 일종인 ChatGPT는 인간의 언어 체계를 학습해서 스스로 논리를 구성해 결과물을 만들어내는 AI다. ChatGPT 공개 이후 생성형 AI의 발전 속도는 기하급수적으로 빨라졌다. 이젠 텍스트의 단계를 넘어 이미지와 동영상까지 만들어낸다.

본질적으로 생성형 AI는 확률의 누적에 기반한다. “아마도 이렇게 말하면 되겠지” “분명 이런 답이 돌아올 거야”라는 식의 통계적 예측이 핵심이다. 가령, ‘Can you please come~?’이라는 미완성 문장이 주어지면, AI는 그동안 학습한 데이터를 뒤져 다음에 올 단어로 ‘here’가 올 확률이 80%, ‘back’이 10%, ‘home’이 5%라는 식으로 계산을 한다. 그러고 가장 확률이 높은 ‘here’를 선택해 문장을 완성한다. 이 방식은 “이런 구조이기 때문에 이렇게 움직인다”는 인과관계가 아니라, “여러 가지 데이터 중에 이 결과가 가장 많더라”라는 상관관계에 기반하고 있다. 마치 “대충 분위기를 보고 그럴듯하게 말 잘하는 사람”과 비슷하다.

그러나 우리가 사는 세상에서는 ‘아마도’가 아니라 ‘반드시’ 이렇게 되어야 하는 경우가 많다. AI를 실제 물리적 환경에서 행동하게 하면서 우리는 그럴듯한 말이 아니라 비로소 실질적인 실행력을 확보할 수 있게 된다. AI라는 뇌에 실물(피지컬)을 연결시키는 것, 이것이 바로 ‘피지컬 AI’다.

후지모토 교수의 ‘3층 구조’

[그림1] 스마트카의 경우로 본 스마트한 제품의 다층화된 구조.

이런 피지컬 AI의 본질을 이해하기 위해서는 제품과 산업을 보는 새로운 시각이 필요하다. 과거의 제품이 기계적 결합으로 이루어진 견고한 하드웨어 중심이었다면, 오늘날의 제품은 기계적인 하드웨어 위에 반도체칩이 탑재되고 소프트웨어가 내장되고 있다. 예를 들어 우리가 사용하는 컴퓨터는 CPU와 메모리라는 하드웨어 위에 OS라는 운영 소프트웨어가 올라가고, 필요에 따라 워드, 엑셀과 같은 응용 프로그램을 올려서 사용한다. 이처럼 오늘날의 제품은 여러 개의 ‘레이어(Layer)’를 가지고 있는 구조로 바뀌고 있다.

제품 아키텍처 이론의 권위자인 일본의 후지모토 다카히로(藤本隆宏) 교수는 이러한 제품 변화를 ‘3층 구조’로 분석하고 있다.

▲지상(Ground)의 세계: 물리적 법칙이 지배한다. 자동차를 예로 들면 이곳은 1t이 넘는 중량물이 고속으로 달리는 ‘물리’의 세계다. 관성(慣性), 중력(重力), 마찰력과 같은 물리 법칙이 존재하며, 안전, 품질이 중시된다. 앞서 언급한 생성형 AI의 확률적 그럴듯함보다는 신뢰성이 요구되는 영역이다. 현대차나 토요타와 같은 전통적 제조 기업들이 이 영역에서 자리를 잡고 있다.

▲상공(High–Sky)의 세계: 데이터와 논리의 영역이다. 질량(質量)이 거의 없는 데이터와 소프트웨어가 빛의 속도로 오가는 ‘논리’의 세계다. 구글, 메타와 같은 빅테크 기업들이 지배하며 비즈니스 생태계와 플랫폼 경쟁의 주도권이 이곳에서 결정된다. 우리가 흔히 데이터를 저장하고 연산하는 공간인 클라우드(Cloud)라는 용어는 상공의 세계를 가장 잘 나타내고 있다.

▲저공(Low–Sky)의 세계: 상공의 논리와 지상의 물리 영역을 유기적(有機的)으로 연결하는 중간 지대다. 지상의 실물(가령, 자동차)에서 수집된 방대한 데이터를 상공의 클라우드로 전송하고, 분석 결과를 다시 지상으로 내려보내 실제 움직임을 정교하게 제어한다. 자동차를 운전하다 보면 내비게이션 화면에 특정 지점이 막힌다는 표시가 나오는 경우가 있다. 이것은 지상에 있는 수많은 차량의 운행 속도를 상공으로 올려 데이터를 처리해 지상으로 다시 보내주는 정보다. 최근 자동차 메이커들이 사활을 걸고 경쟁하는 차량용 OS 개발은 바로 이 영역에서의 경쟁이다.

그런데 최근 비약적으로 발전한 인공지능이 3층 구조 위에 더해지면서 제품에 대한 스마트화, 지능화가 진행되고 있다.

먼저 전통적인 로봇 개발 방식을 돌아보자. 2000년, 혼다(Honda)가 공개한 2족 보행 로봇 ‘아시모(ASIMO)’는 그 시대의 상징이었다. 두 발로 걷고 계단을 오르내리는 아시모의 모습에 전 세계는 환호했지만, 당시 선보인 90분 남짓의 보행을 위해 전문가는 오랜 기간 공을 들였다.

필자는 대학원에서 동역학(Dynamics)과 진동공학을 전공하면서 관련 과목을 이수한 적이 있다. 이때, 간단한 로봇 관절을 몇 번 회전시킨 이후의 로봇 팔의 위치를 계산할 때에 사인(Sin)과 코사인(Cos)과 같은 삼각함수가 들어간 행렬들을 여러 번 곱해서 결과물을 도출해야 했다. 계산식이 길어, 책에서조차 Sin과 Cos을 간단히 S와 C로 표기할 정도였다. 이처럼 복잡한 계산 과정이 수반되는 로봇 개발은 소수 전문가의 영역이었으며, 로봇은 인형극에서 실에 매달려 있는 인형처럼 엔지니어들이 짜놓은 프로그램에 따라서 수동적으로 움직였다.

여기에 바로 ‘모라벡의 역설(Mora–vec’s Paradox)’이 존재한다. 이 법칙은 인간에게 쉬운 일은 로봇(컴퓨터)에게 어렵고, 반대로 인간에게 어려운 일은 로봇(컴퓨터)에게 쉽다는 역설이다. 즉 걸어 다니거나 문을 여는 것은 사람에게는 쉬우나 로봇에게는 너무 어려운 일이었다. 이 역설적인 상황으로 인해 로봇이 연구실 밖으로 나오지 못했다.

세이캔

로봇 개발이 대중화되기 시작한 것은 인공지능(AI) 덕분이다. 로봇 개발은 더 이상 지상의 물리 법칙에서 쌓아 올리는 것이 아니라, ‘기반 모델(foundation model)’을 사용해 상공에서 내려오는 개발 방식을 사용한다. ‘기반 모델’이란 ChatGPT와 같은 대규모 언어 모델(LLM)을 포함해 이미지, 음성, 3차원 데이터 등 다양한 입력을 처리할 수 있는 거대한 AI 모델을 통칭한다. 기반 모델 안에는 방대한 ‘상식’이 담겨 있어, 예전처럼 일일이 동작을 프로그래밍하지 않아도 로봇을 조작할 수 있게 되었다.

2022년 구글이 발표한 일명 ‘세이캔(SayCan)’이라 불리는 논문은 인공지능과 물리적 세계를 연결하는 대표적인 연구 결과다. 논문의 제목처럼 ‘세이(Say)’는 무엇을 할지 제안하는 상공의 언어 지능을, ‘캔(Can)’은 실제 환경에서 동작을 수행할 수 있는 물리적 능력을 의미한다. 즉 상공의 인공지능과 지상의 물리적 실체를 합치는 방식으로 로봇의 동작을 제어한다.

가령 사용자가 “음료를 쏟았어”라고 알려주면, ChatGPT와 같은 AI가 “스펀지를 찾는다(0.9점), 진공청소기를 찾는다(0.8점)”라는 식으로 점수를 매겨가며 말(Say)을 한다. 동시에 지상의 로봇이 카메라를 통해 현재 로봇 앞에 스펀지, 청소기가 있는지, 그리고 그것을 사용할 수 있는지를 판단하여 가능성(Can)을 점수로 매긴다. 이후, 이 두 확률을 곱해서 가장 높은 점수를 얻는 방식대로 로봇이 행동한다. 즉 세이캔은 이 두 영역을 유기적으로 결합함으로써, 인공지능이 실제 세상에서 실질적인 가치를 창출할 수 있는 통로를 마련했다. 이때 AI의 계획을 실제 물리적 환경에 발붙이게 만드는 과정을 ‘그라운딩(grounding)’이라 부른다.

가상세계에서 로봇 훈련

[그림2] 가상공간에서 강화 학습을 하고 있는 약 4000대의 로봇 이미지, 지바공업대학 미래로봇 기술연구센터 후지타 교수 연구실, 사진=유튜브 화면 캡처

세이캔이 상공과 지상을 서로 단순하게 연결시켰다면, 이제 로봇은 스스로 새로운 동작을 만들어내는 단계로 진화하고 있다. 여기서 핵심적인 역할을 하는 것이 바로 강화 학습(reinforcement learning)이다.

과거에는 로봇을 학습시키기 위해 실제 하드웨어를 가동해야 했고, 이는 많은 비용과 시간을 요구했다. 하지만 이제는 클라우드 자원을 활용한 가상공간에서 로봇을 훈련시킨다. 엔지니어가 관절 하나하나의 움직임을 코딩하는 대신, 인공지능이 가상세계에서 수천 대의 로봇을 동시에 굴리고 넘어뜨리며 “어떻게 움직이는 것이 최적인가”를 스스로 깨닫게 한다. 성공적인 움직임에는 보상(Reward)을 주고, 실패에는 페널티(Penalty)를 부여하는 과정을 수백만 번 반복하며 로봇은 최적의 보행 메커니즘을 학습한다.

일반적으로 로봇이 수행하는 작업은 크게 다리를 사용한 이동(로코모션·locomotion), 손을 사용한 조작(매니퓰레이션·manipulation), 목적지까지의 공간 이동(내비게이션·navigation)으로 나뉜다. 이 중 시뮬레이션 기반 강화 학습이 가장 먼저 성과를 낸 분야가 바로 이동이다. 이 결과 강화 학습을 통해 로봇의 걷는 성능이 압도적으로 올라갔다. 과거 혼다의 엔지니어가 그토록 어렵게 개발한 2족 보행 로봇 아시모와 같은 로봇을 지금 웬만한 로봇 회사들도 만들 수 있는 것은 인공지능 덕분이다. 여기에 앞서 언급한 기반 모델이 더해져 물건을 옮기는 매니퓰레이션 능력까지 향상되었다.

2025년 11월 엔비디아는 일명 도어맨(Door Man) 프로젝트를 통해 가상공간에서 발의 이동(locomotion)과 손의 조작(manipulation)을 동시에 학습시키는 방식(loco–manipulation)에 성공했다. 이것이 사람에게는 쉬워 보이지만, 휴머노이드 로봇은 오직 카메라 센서만을 가지고 자기 시점에서 문의 위치를 정확하게 알아차리고 문을 밀고 당기면서 스스로 몸의 균형을 잡아야 한다. 이 프로젝트를 통해 이제 2족 로봇은 처음 보는 다양한 형태의 문을 사람이 원격으로 조작할 때보다 더 잘 열 수 있게 되었다. 이 연구는 가상세계에서 훈련된 로봇이 현실세계의 물리적인 과제를 하나씩 해결해 낼 수 있음을 보여준다.

왜 휴머노이드(Humanoid)인가

휴머노이드 로봇은 인간의 신체 조건에 맞게 설계된 산업 현장에 즉시 투입될 수 있다. 사진은 택배 포장 실증을 하고 있는 물류 현장용 휴머노이드. 사진=조선DB

피지컬 AI에서 피지컬(몸)은 어떤 형태가 좋을까? 최근 휴머노이드(Humanoid) 로봇이 다시 주목받는 이유는 단순히 인간을 닮고 싶어서가 아니라, 기존 데이터의 활용 효율성과 인프라 호환성이라는 지극히 실리적인 이유가 숨어 있다.

첫째, 학습 데이터의 활용 가능성이다. 인류가 지금까지 축적해 온 방대한 사진과 영상 데이터는 대부분 인간의 시점에서 기록된 것이다. 즉 유튜브에서 볼 수 있는 많은 동영상은 사람의 키 높이에서 촬영되어 있다. 휴머노이드 로봇은 이러한 기존 데이터를 학습에 이용하여 현실세계를 이해한다.

둘째, 근로 환경의 호환성이다. 현재의 공장, 계단, 선반의 높이는 철저하게 인간의 신체 규격에 맞춰 설계되어 있다. 휴머노이드 로봇은 기존 시설을 그대로 이용하며 즉시 현장에 투입될 수 있다.

결국 개별 로봇의 제작 단가는 사람의 모습을 하면 더 비쌀지 몰라도, 데이터 확보와 환경 구축을 포함한 ‘전체 시스템 비용(Total System Cost)’ 측면에서는 휴머노이드 로봇이 유리하다. 생성형 AI 기술의 발달로 이 복잡한 사람 형태의 로봇을 제어할 수 있는 능력이 비약적으로 향상되면서, 이제 휴머노이드 로봇은 피지컬 AI의 중요한 형태로 자리 잡고 있다.

하지만 여전히 휴머노이드 로봇이 연구실을 넘어 실제 현장에 안착하기 위해서는 몇 가지 보완해야 할 과제들이 남아 있다.

첫째, 인공지능의 지능 완성도와 데이터 확보 문제다. 동일한 피지컬이라도 지능(AI)에 따라 행동하는 수준이 달라진다.

둘째, 에너지 효율이다. 작업 현장에서 실질적으로 인간의 역할을 수행하기 위해선 충전 없이 장시간 가동될 수 있도록 배터리 성능의 향상이 뒤따라야 한다.

셋째, 인간과 안전하게 협업할 수 있는 안전 기준 마련과 제도적 정비도 요구된다. 이러한 과제들은 현재의 기술 발전 속도를 고려할 때 해결될 것으로 생각된다.

자동운전 자동차도 피지컬 AI

이미 현실 속으로 들어온 피지컬 AI가 존재한다. 인공지능으로 자동운전을 하는 자동차가 바로 그것이다.

최근 테슬라의 운전보조 시스템인 FSD(Full Self-Driving)가 장착된 차량이 국내에서 선보였고, 이를 체험한 사람들이 올린 영상을 통해 한국에서도 자동운전을 좀 더 피부로 느낄 수 있게 되었다.

이를 보면서 “한국 기업은 왜 테슬라와 같은 혁신을 진작 보여주지 못했는가”라는 미디어들의 비난이 많았다. 한편 지금 자동운전에 대해 일정 정도의 성과를 보이는 회사는 테슬라와 테슬라 방식을 뒤따르고 있는 일부 중국 회사뿐인 것도 사실이다. 이들 기업은 많은 차종(車種)을 만들어 판매 대수를 늘리기보다는, 기술 혁신으로 두각을 드러내고 싶어 한다. 테슬라는 최근 모델 S와 X를 올 2분기에 생산을 종료하고 그곳에서 로봇을 조립한다고 발표할 정도로 자동차 판매 대수보다 기술 혁신에 집착하는 회사다.

자동운전에 성공한 기업들은 명확한 공통점이 있다. 소위 IT 배경을 가진 기업가가 자동차 산업에 뛰어들었다는 점이다. 테슬라의 일론 머스크는 페이팔(상공)의 경험을 가지고 스페이스X와 테슬라(지상)를 성공시켰다. 중국에서 자동운전 분야에서 두각을 드러내고 있는 회사인 리오토, 샤오펑(Xpeng), 샤오미의 창업자들 역시 IT 업계(상공) 출신이지만, 과감하게 자동차(지상) 산업에 뛰어들어 ‘지상’의 제약을 정면으로 돌파하고 있다. 중국의 수평 분업화된 산업 체제가 이들 기업가에게 많은 도움이 되었을 것이다.

‘완벽하게’보다 ‘빠르게’

앞의 [그림1]에서 살펴본 것처럼, 과거의 자동차는 ‘지상의 물리적 영역’에 머물렀던 기계였다. 자동운전이라는 것은 차량 부품 위에 이것들을 유기적으로 제어하는 OS가 존재하는 저공 영역(low sky), 그리고 방대한 데이터를 학습시키는 상공 영역(high sky)과 AI가 서로 면밀하게 협조해야 가능하다.

그리고 자동운전을 용이하게 하려면 피지컬(차량)의 구조 또한 이에 걸맞게 바뀌어야 한다. 기존 차량에는 100여 개의 ECU라는 개별 제어장치가 산재해 있었으나, 이를 하나로 묶는 중앙집중화가 필요하며 차량 내에 이에 걸맞은 네트워크를 만드는 작업이 요구된다. 테슬라의 경우 중앙집중식 아키텍처로 변경한 것이 2017년이고, 인공지능을 이용한 자동운전을 시작한 것이 2023년이다(참고, 《월간조선》 2024년 8월, 소프트웨어가 삼켜버린 자동차, SDV).

반면 레거시 메이커의 경우 아무래도 기존 차량 또한 지속적으로 개발하고 판매하면서 변화를 추구해야 한다. 기존 차량의 개발 방식이란 엄밀하게 정의된 프로세스와 품질 게이트(quality gate)를 하나하나 통과하며 완벽을 기하는 ‘단계적(waterfall) 방식’이다.

하지만 ‘상공의 세계(IT)’에서 개발 방식은 ‘논리’ 중심이며, 일단 아이디어를 빠르게 구현하고(move fast), 문제가 생기면 나중에 소프트웨어 업데이트로 고치는(fix later) 방식이다. 완벽한 것보다 빠르게 해내는 것이 우선이다.

자동차의 스마트화는 이처럼 성격이 상이한 두 개발 문화가 하나의 제품, 하나의 조직 안에서 어떻게든 융합되어야 함을 의미한다. 그래서 레거시 자동차 메이커의 R&D 조직 내부에서는 문화적 마찰이 일어나기 쉽다. 하지만 이것은 거의 모든 자동차 레거시 메이커가 겪고 있는 문제로 이런 마찰을 마냥 부정적으로만 볼 필요는 없다.

스마트카는 스마트폰과 다르다

한편, 이럴 때일수록 무엇을 해야 하는지 명확히 살피고, 자기 철학을 가지고 움직여야 한다. 철학이 없으면 이리저리 휘둘리기 쉽다. 우리가 흔히 착각하기 쉬운 문제가 하나 있다.

많은 이가 소프트웨어 중심의 자동차(SDV)를 ‘스마트폰’에 비유하는 경우가 많다. 하지만 피지컬 AI의 관점에서 볼 때 두 제품 사이에는 거대한 간극이 존재한다. 무엇보다 스마트폰은 제품 자체가 스스로 공간을 이동하지 않는다. 스마트폰은 음성과 이미지, 데이터를 주고받는 정보기기다. 이 IT 기기를 통해 여러 가지 애플리케이션(앱)을 효율적으로 처리할 수 있는 OS(운영체제)라는 레이어를 가지고 있다.

반면, 자동차는 질량을 가진 실체가 고속으로 움직인다. 흔히 말하는 모빌리티(mobility)라는 용어를 글자 그대로 번역하면 가동성(可動性)이라고 할 수 있다. 즉 움직이지 않으면 차가 아니다. 차가 움직인다는 것은 관성, 마찰력, 중력 등 물리 법칙의 지배를 직접적으로 받는다는 것을 의미한다. 특히 차량이 내연(內燃)기관에서 전기차로 바뀌면서 부품이 3만 개에서 2만 개로 줄어들었다고 하지만, 2만 개라는 부품 또한 무시할 수 없을 만큼 엄청난 양이다.

최근 몇 년간 많은 미디어가 내연기관이 전기차로 바뀌는 것을 두고 마치 삐삐가 피처폰으로 바뀌고, 피처폰이 스마트폰으로 바뀌는 것처럼 빠르게 바뀔 것이라고 예측했다. 과거에 비해 전기차가 많이 팔리는 것은 사실이지만, 지금도 여전히 엔진도, 하이브리드 차량도 존재한다.

토요타가 하이브리드 차량인 프리우스를 처음 세상에 내놓은 것이 1997년이었지만, 대중화되는 데에는 상당한 시일이 걸렸다. 현대차가 하이브리드 차량을 처음 선보인 것은 2009년 LPG를 연료로 하는 아반떼 차량이었다. 토요타의 프리우스보다 좋은 연비(燃費)의 아이오닉 하이브리드 차량을 내놓은 것은 2017년이었다.

또 자동차는 스마트폰과 달리 제품의 라이프 사이클이 길다. 신차에서부터 폐차될 때까지의 평균 차량 수명이 2000년에는 8.3년이었으나, 2020년에는 15.6년으로 2배 가까이 증가했다. 차를 만드는 기술이 올라갔고, 소비자 입장에서는 차량 가격도 올라 한번 구입한 차량을 오래 탄다. 지금 한국의 차량용 배터리 기업이 여러 가지 어려운 상황이 된 것은 당장 내연기관이 없어질 것이라는 미디어의 헤드라인을 너무 믿었기 때문일 수 있다.

커제의 고백

2025년 12월 20일 중국 CCTV 경제 대담 프로그램 〈대화(對話)〉에 출연한 모멘타 창업자 차오쉬둥. 사진=CCTV 화면 캡처

앞으로 자동운전 분야에 있어 어떤 식으로 사업이 진척될까? 필자는 작년 연말 중국, 일본의 자동운전 솔루션 회사의 CEO가 말하는 영상을 보았고, 이 내용이 많은 참고가 될 것 같아 소개하고자 한다.

2025년 12월 20일 중국 CCTV의 〈대화(對話)〉라는 경제 대담 프로그램에 자동운전 솔루션 회사인 모멘타(Momenta)의 창업자인 차오쉬둥(曹旭東)이 나와 40분이 넘는 시간 동안 자동운전의 미래를 심도 있게 이야기했다. 이 방송에서 젊은 기술자인 차오쉬둥 CEO는 담담하면서도 확신에 찬 어조로 자신의 논리를 펼쳤다.

그는 방송에서 중국의 천재 바둑 기사인 커제(柯潔) 9단을 만나 나눈 이야기를 소개했다. 커제는 2017년 구글의 알파고와 바둑 대결을 해 3번 모두 지면서 눈물을 흘린 인물이다. 커제는 “알파고는 이미 ‘바둑의 신(神)’의 영역에 도달해 있으며 자신이 바둑돌 2개를 먼저 놓고 대국을 펼쳐도 알파고를 이길 수 없다”고 차오쉬둥에게 고백했다는 것이다.

모멘타의 CEO는 이 이야기를 전하면서, 자동운전에서도 바둑과 비슷한 상황이 전개될 것이라고 확신했다. 현재 모멘타는 인간의 운전을 단순히 흉내 내는 ‘모방 학습(imitation learning)’의 단계를 넘어, 자동차 스스로 가상의 공간에서 최적의 해법을 발견하는 ‘강화 학습(reinforcement learning)’의 영역으로 진입했다고 밝혔다. 그는 앞으로 2028~2030년이면 AI가 인간의 운전 수준에 도달할 것이라고 전망했다.

이 말을 하는 CEO의 확신과 경청하는 전문가들의 모습을 보면서 지금 중국 자동운전의 수준이 이렇게 빨리 올라온 원동력이 무엇인지 알 수 있었다.

일본의 자동운전 스타트업 튜링

일본 기업 중 튜링(Turing)이라는 자동운전 솔루션 기업이 있다. 튜링의 대표인 야마모토 잇세이(山本一成)는 일본 장기(將棋) 아마추어 5단의 실력이었다. 그는 장기 프로그램 개발에 도전했는데, 이 프로그램에 AI를 활용하면서부터 급속도로 성능이 좋아져서 2017년에는 일본의 장기 명인(名人)을 꺾었다.

이후 그는 2021년 튜링이란 자동운전 솔루션 회사를 만들었고, 지금은 도쿄 시내를 30분간 운전자의 개입 없이 자동운전할 수 있는 수준에 도전하고 있다. 2025년 11월, 일본의 덴소를 비롯한 여러 투자 회사로부터 152억7000만 엔(한화 1300억원)의 투자를 받았다.

작년 연말 필자는 ‘JIC VGI’라는 기관의 관계자와 야마모토 CEO가 나누는 대담을 유튜브를 통해 보았다. JIC VGI는 일본 경제산업성 산하의 산업혁신투자기구(JIC·Japan Investment Corporation)가 만든 투자 회사(VGI·Venture Growth Investment)다. 필자는 이 영상을 통해 튜링이 추구하는 자동운전 전략을 구체적으로 알 수 있었다.

야마모토 CEO는 튜링이 작은 기업이기에 큰 투자를 할 수 없지만, 뒤에서 따라가는 기업이기에 테슬라가 겪은 많은 시행착오를 줄일 수 있다고 했다. 그는 과거 AI 장기 프로그램으로 일본 명인을 이긴 경험을 회고하며 이렇게 말했다.

“AI 개발은 기본적으로 안갯속을 헤매는 과정이며, 어딘가에 빛이 있을 것이라 믿고 계속하는 수밖에 없다.”

그는 “내가 AI 프로그램으로 1등을 하고 있을 때 가장 두려웠던 상대는, 화려한 기술을 자랑하는 곳이 아니라 묵묵히 나의 뒤를 쫓아오는 추격자들이었다”라고 했다. 즉 지금 튜링이란 기업에서 필요한 것은 막연한 차별화가 아니라, ‘가장 잘하는 1등 기업 테슬라를 철저히 벤치마킹하며 따라가는 것뿐’이라는 점을 명확히 했다.

튜링과 모멘타

일본의 자동운전 스타트업 튜링(Turing)의 야마구치 유(山口祐·오른쪽) CTO와 인터뷰하는 필자.

필자는 지난 1월 19일 일본의 자동운전 스타트업인 튜링을 방문하여, 자동운전 차량을 시승하고, CTO(최고기술책임자)인 야마구치 유(山口祐)를 인터뷰했다. 야마구치 CTO는 “이제 튜링도 자동운전에 있어 초기 단계에서 벗어나 궤도에 오르기 시작했다”고 말했다. 그러면서 그는 “자동차의 경우 IT 기기와 달리 승자독식의 세계가 아니다”는 의견을 명확하게 피력했다.

필자는 튜링의 CEO, CTO를 만나 이야기를 나누면서, 아직 나이가 많지 않은데도 산업에 대한 인사이트가 상당하다는 느낌을 받았다.

필자가 방문한 날에 공교롭게도 일본의 경제산업성과 국토교통성의 정부 관계자가 차량을 시승하러 왔다. 일본 정부도 자동운전 분야에서 자국 내 스타트업의 수준이 어느 정도인지 체크를 하러 온 것이었다. 일본 기업(특히 토요타)과 정부가 튜링이란 젊은 기업이 일할 수 있도록 뒤에서 지원하고 있음이 틀림없다.

모멘타와 튜링은 여러 면에서 다르다. 모멘타는 거대한 중국 시장을 배경으로 빠르게 성장해 이미 중국에서는 토요타, BMW 등 완성차 메이커에 자동운전 솔루션을 제공하고 있다. 일본의 튜링은 비정규직 운전자를 포함하여 100여 명 남짓한 규모로 묵묵히 추격하고 있는 입장이다.

하지만 두 회사 모두 분명한 공통점이 있다. 창업자 모두 AI 분야에서 깊은 경험과 확신을 가지고 있다는 점이다.

‘피지컬 + AI’

피지컬 AI라는 화두는 결국 피지컬과 AI의 결합, 움직이는 몸과 지능의 결합이라는 것이기에 각각이 가지고 있는 특징과 이것들이 합쳐졌을 때 만들어낼 수 있는 부가적인 것의 제품화라는 측면에서 이해해야 할 필요가 있다. 한쪽은 파괴적 혁신과 속도가 생명인 IT 기업(상공)의 성격을 가지고, 다른 한쪽은 신뢰성을 중심으로 비교적 긴 호흡을 요하는 전통 제조 기업(지상)이다.

이처럼 성격이 극명하게 대비되는 두 세계가 하나의 유기체로 융합되어서 만들어지는 제품이기에 기업의 조직 운영 등에서 과거 경험하지 못한 도전에 직면하게 되었다. 피지컬 AI 시대에는 ‘피지컬 + AI’라는 개념을 가지고 각각의 기술뿐만 아니라 ‘+(더하기)’가 가장 중요하다는 것을 인식할 필요가 있다.

필자는 중국·일본 양국의 스타트업 리더들이 보여주는 확신과 이를 지지하는 사회적 분위기를 보면서 부러움과 함께 한국의 현실을 되돌아보게 된다. 매년 입시철만 되면 의대 대신 공대에 가야 한다는 보도가 나온다. 하지만 정작 필요한 것은 이런 구호가 아니라 기술에 도전하는 이들에 대한 격려, 신뢰, 존경일 것이다.

필자는 자동운전 분야에 있어서도 한국의 엔지니어들이 드라마 〈태양의 후예〉에서 송중기가 멋있게 했던 대사 “이 어려운 것을 또 해냅니다!”라는 멘트를 해줄 것이라 믿는다.⊙