영상 AI 트웰브랩스, 아마존·NEA·네이버서 1억 달러 유치…“다음 파운데이션 모델은 언어가 아니라 영상”

영상 이해 인공지능(AI) 스타트업 트웰브랩스(Twelve Labs)가 아마존(Amazon), NEA, 네이버벤처스(Naver Ventures) 등으로부터 1억 달러(약 1,500억 원) 규모의 시리즈B 투자를 유치했다. 누적 투자액은 2억 달러를 넘어섰고, 아마존웹서비스(AWS)와는 자체 AI 칩 트레이니움(Trainium)에서 모델을 구동하는 다년 계약까지 맺었다고 블룸버그(Bloomberg)가 1일(현지시간) 보도했다. 한국계 창업팀이 세운 5년 차 스타트업이 글로벌 클라우드 1위 사업자의 전략 파트너로 올라선 것이다.

이번 투자가 성사된 배경에는 AI 산업의 구조적 공백이 있다. 전 세계 데이터의 약 90%는 영상 형태로 존재하지만, 대부분은 파일명과 폴더, 자막, 사람의 기억에 의존해 접근되는 ‘잠자는 자산’이다.

텍스트 중심의 거대언어모델(LLM)은 영상을 분석할 때 일부 프레임만 추출해 맥락을 놓치거나, 질문이 바뀔 때마다 영상을 처음부터 다시 훑어야 한다. 스튜디오와 방송사, 스포츠 구단이 보유한 수백만 시간의 아카이브가 수익화되지 못한 채 쌓여 있는 이유다. 영상 이해가 검색·광고·에이전트의 필수 인프라 계층으로 재정의되면서, 이 공백을 메우는 기업에 자본이 몰리기 시작했다.

◆ 딜 구조: NEA·네이버 공동 주도, 아마존은 ‘칩 동맹’까지

이번 시리즈B 라운드는 NEA와 네이버벤처스가 공동 주도했다. 아마존이 주요 투자자로 참여했고, 래디컬벤처스(Radical Ventures), 인덱스벤처스(Index Ventures), 한국투자파트너스(Korea Investment Partners) 등 기존 투자자가 후속 투자에 나섰다. 쿼드릴캐피탈(Quadrille Capital)과 레드불벤처스(Red Bull Ventures)는 신규 투자자로 합류했다. 트웰브랩스는 엔비디아(Nvidia)의 투자도 이미 받은 상태다.

주목할 부분은 아마존의 참여 방식이다. 지분 투자와 함께 AWS가 트웰브랩스의 워크로드를 자체 설계 칩 트레이니움에서 호스팅하는 다년 계약을 체결했고, 트웰브랩스의 신규 모델은 앞으로 AWS에서 먼저 공개된다.

자본과 컴퓨팅, 유통 채널을 한 묶음으로 제공하고 그 대가로 유망 모델을 자사 칩 생태계에 묶어두는 구조로, 아마존이 앤트로픽(Anthropic)에 적용해 온 전략의 축소판이다. 엔비디아 GPU 의존도를 낮추려는 아마존에게 영상 AI는 추론 수요가 폭증할 것으로 예상되는 차세대 워크로드이고, 트웰브랩스는 그 수요를 트레이니움 위에서 검증해 줄 파트너인 셈이다.

네이버벤처스에게 트웰브랩스는 북미 법인 출범 후 첫 투자 기업이었다. 박용정(Yongjung Park) 네이버벤처스 파트너 겸 네이버 D2SF 북미 투자 총괄은 이번 공동 주도를 두고 “우리가 보낼 수 있는 가장 강한 확신의 표현”이라고 말했다. 하이퍼클로바X 이후 자체 프런티어 모델 경쟁에서 한발 물러선 네이버가, 미국 시장에서 한국계 창업팀의 버티컬 파운데이션 모델에 지분을 확보하는 우회 경로를 택하고 있다는 해석이 가능한 대목이다.

◆ 기술 스택: 마렝고가 보고, 페가수스가 쓴다

샌프란시스코에 본사를 둔 트웰브랩스는 이재성(Jae Lee) 대표 등 한국계 엔지니어들이 2021년 창업했다. 약 200명의 인력이 서울과 샌프란시스코에 절반씩 나뉘어 있다. 이 대표는 블룸버그(Bloomberg) 인터뷰에서 “5년 전 우리는 인간이 세계를 배우는 데 가장 가까운 신호 데이터는 텍스트가 아니라 영상이라는 역발상에 베팅했다”며 “최신 프런티어 모델들도 여전히 언어 모델이라는 점에서 우리와 다르다”고 말했다.

제품은 두 개의 모델이 하나의 스택을 이룬다. 임베딩 모델 마렝고(Marengo) 3.0은 영상 속 시각 정보와 음성, 언어, 움직임을 시간 흐름에 따라 동시에 처리해 기계가 검색할 수 있는 형태로 변환한다.

페가수스(Pegasus) 1.5는 그 인식 결과를 AI 도구와 애플리케이션이 읽을 수 있는 구조화된 데이터로 바꾼다. 브라우저가 문서를 읽게 해주는 마크업 언어와 비슷한 역할이다. 두 모델이 쌓아 올린 인덱스 위에서 1954년 영화 ‘워터프론트(On the Waterfront)’의 말런 브랜도(Marlon Brando) 택시 장면이나 1986년 월드컵 디에고 마라도나(Diego Maradona)의 ‘신의 손’ 골 같은 특정 장면을 텍스트 질의로 바로 찾아낼 수 있다.

회사는 이번 투자금으로 인식(perception)·기억(memory)·추론(reasoning)을 하나의 아키텍처로 통합한 ‘영상 인지 시스템(Video Cognition System)’ 구축에 나선다. 영상을 한 번 이해한 뒤 결과를 구조화된 기억으로 축적하고, 이후 질문에는 그 기억을 토대로 추론하는 방식이다. 검색·설명·계획·실행을 텍스트 명령으로 수행하는 영상 에이전트도 개발 중이며, 지난 6월에는 첫 애플리케이션 제품인 AI 영상 창작 도구 ‘로데오(Rodeo)’의 비공개 베타를 시작했다.

◆ 시장 분석: 아카이브 수익화와 ‘에이전트의 시각 피질’

트웰브랩스의 고객 명단은 이 시장의 수요 구조를 보여준다. 수백만 시간의 아카이브를 보유한 할리우드 스튜디오, 광고 회사, 소셜미디어 인플루언서, 그리고 토론토 랩터스(Toronto Raptors) 구단주인 메이플리프 스포츠&엔터테인먼트(Maple Leaf Sports & Entertainment), AMC 글로벌 미디어, 유니세프(UNICEF) 등이다. 공통점은 방대한 영상 자산을 보유하고 있지만 그것을 ‘재고’로만 갖고 있을 뿐 ‘검색 가능한 데이터베이스’로 전환하지 못했다는 것이다. 스트리밍 경쟁으로 신규 콘텐츠 투자 여력이 줄어든 미디어 기업들에게 기존 아카이브의 재활용과 라이선싱은 남아 있는 몇 안 되는 성장 여력이고, 영상 검색 기술은 그 전제 조건이다.

두 번째 수요 축은 에이전트다. AI 에이전트가 물리 세계와 상호작용하려면 카메라·드론·위성·공장·병원·경기장에서 쏟아지는 영상을 실시간으로 이해하는 능력이 필요하다. 박용정 총괄이 이 대표의 초기 비전을 “미래 AI 에이전트의 시각 피질(visual cortex)”이라고 회고한 것은 이 지점을 가리킨다.

언어 모델이 에이전트의 ‘두뇌’ 경쟁이라면, 영상 이해는 아직 승자가 정해지지 않은 ‘눈’의 경쟁이다. 구글(Google)의 제미나이(Gemini)와 오픈AI(OpenAI)가 멀티모달 기능을 강화하고 있지만, 범용 모델의 영상 처리는 여전히 프레임 샘플링 기반이라는 한계가 있어 버티컬 전문 모델의 틈새가 유지되고 있다.

리스크도 같은 자리에 있다. 이재성 대표 스스로 “파운데이션 모델은 누구나 쓰는 범용재가 되거나 더 나은 모델로 대체된다”고 인정하듯, 프런티어 모델의 네이티브 영상 이해 능력이 빠르게 개선되면 트웰브랩스의 기술적 우위는 좁혀질 수 있다. 회사가 모델 판매를 넘어 기억과 추론을 통합한 시스템 레이어, 그리고 로데오 같은 애플리케이션으로 서둘러 올라서려는 이유가 여기에 있다. 대체 가능한 모델이 아니라 대체 비용이 큰 ‘축적된 영상 지능’으로 자리 잡겠다는 계산이다.

◆ K-엔터테크 함의: 서울·샌프란시스코 이원 체제가 만든 교두보

트웰브랩스는 한국 AI 생태계와 글로벌 자본 시장이 맞물린 드문 사례다. UC버클리 출신의 이재성 대표가 국군 사이버작전사령부 복무 시절 만난 동료들과 창업했고, 지금도 인력의 절반이 서울에 있다. 투자자 명단에는 NEA·인덱스벤처스 같은 실리콘밸리 자본과 네이버벤처스·한국투자파트너스 같은 한국 자본이 나란히 앉아 있다. 뉴욕과 런던에 신규 사무소를 내는 확장 계획까지 감안하면, 한국의 기술 인력 기반 위에서 미국 시장의 자본·고객·컴퓨팅을 조달하는 구조가 완성 단계에 접어들고 있다.

K-콘텐츠 산업 입장에서 더 실질적인 함의는 아카이브 쪽에 있다. 국내 방송사와 스튜디오가 보유한 수십 년치 드라마·예능·보도 영상은 대부분 메타데이터가 빈약해 장면 단위 검색과 라이선싱이 어렵다. 영상 이해 기술이 상용 인프라로 자리 잡으면, 이 아카이브는 클립 라이선싱, 숏폼 재가공, AI 학습 데이터 계약, 장면 기반 커머스 연동 등으로 수익화 경로가 열린다. 콘텐츠와 기술이 서로의 시장을 키우는 공진화의 관점에서 보면, 트웰브랩스의 성장은 한국 영상 자산의 잠재 가치를 끌어올리는 외부 변수이기도 하다.

이번 라운드는 미국 벤처 자본이 영상 AI를 실험 단계가 아닌 인프라 투자 대상으로 취급하기 시작했다는 신호다. 미디어·엔터테인먼트에서 출발한 이 기술이 정부·보안·스포츠·자동차로 번져가는 속도가, 트웰브랩스가 프런티어 모델의 추격을 따돌릴 수 있을지를 결정하게 된다.

◆ 출처

· Bloomberg, “Video Search Startup Raises $100 Million From Amazon and VCs” (Saritha Rai, 2026.7.1) — https://www.bloomberg.com/news/articles/2026-07-01/video-search-startup-raises-100-million-from-amazon-vc-funds

· 트웰브랩스 시리즈B 국내 발표 자료 및 국내 보도 (2026.7.2): 지디넷코리아, 디지털데일리, 파이낸셜뉴스, 뉴시스 종합