AI '데이터 브로커'는 어떻게 콘텐츠 100%를 가져가는가

미국 디지데이 보도에 따르면 AI 데이터 브로커(스크래퍼) 21~40개 업체가 퍼블리셔 콘텐츠를 무단 수집·가공·판매하는 10억 달러 규모 '스크래퍼 경제'를 형성. 콘텐츠 제작자에게 돌아가는 수익은 0원이며, 이는 "세금이 아닌 IP 기반 적대적 인수"라는 업계 비판이 제기

AI '데이터 브로커'는 어떻게 콘텐츠 100%를 가져가는가

美 디지데이 "수십 개 신생 스크래퍼 업체가 새 중간자로 부상"

10억 달러 시장 형성… 콘텐츠 제작자 몫은 '0원'인 이유

긁어모아 → 가공 → 판매… 4단계 구조로 본 '스크래퍼 경제'

"세금 아닌 적대적 인수"… "냅스터는 왔는데 아이튠즈는 없다"

AI 시대에 새로운 중간자(middleman)가 등장했다. 디지털 광고 시대의 '애드테크 세금'은 광고비의 일부를 떼어가는 구조였지만, 새로 등장한 'AI 데이터 브로커(AI Data Broker)'는 콘텐츠 일부가 아니라 100%를 가져가면서 한 푼도 지불하지 않는다.

심지어 그 콘텐츠로 만든 경쟁 상품을 통해 원작자인 퍼블리셔(언론사·콘텐츠 제작사)를 시장에서 밀어내는 사례까지 나오고 있다. 도대체 어떤 메커니즘이 이런 구조를 만들어내는 것일까. 미국 디지털 미디어 전문매체 디지데이(Digiday)가 4일(현지시간) 보도한 미국 퍼블리셔 업계의 위기감을 토대로, 그 작동 원리를 단계별로 짚어본다.

◇ '데이터 브로커'란 무엇인가… AI에 콘텐츠 떠먹여주는 새 산업

'데이터 브로커(data broker)'라는 용어 자체는 새로운 것이 아니다. 전통적으로는 개인정보·소비자 데이터를 수집해 마케팅 회사 등에 판매하는 사업자를 가리켰다. 그러나 이번 디지데이 보도가 다루는 'AI 데이터 브로커'는 그와 결이 다르다.

이들은 AI 기업을 대신해 인터넷 곳곳에서 뉴스 기사·블로그 글·이미지·동영상 등 콘텐츠를 자동으로 긁어모아(scraping), AI 학습용 데이터셋으로 가공한 뒤, 이를 OpenAI·앤트로픽·구글 같은 AI 회사에 판매하거나 API 형태로 제공하는 사업자다.

왜 이런 사업자가 필요한가. ChatGPT 같은 거대언어모델(LLM)을 학습시키려면 수십억~수조 개 단어 분량의 텍스트가 필요하다. 사람을 대신해 웹을 탐색·예약·구매하는 AI 에이전트(AI Agent)도 끊임없이 최신 웹 콘텐츠를 읽어와야 작동한다. AI 회사가 이 모든 데이터를 직접 수집하기는 부담스럽다. 기술적으로도, 법적으로도 그렇다. '데이터를 대신 수집해주는 전문 외주' 역할이 바로 AI 데이터 브로커다.

디지데이가 인용한 익명의 퍼블리싱 업계 임원은 이들을 '콘텐츠 시장의 DSP(수요측 플랫폼)'에 비유했다. 디지털 광고 시장에서 광고주를 대신해 광고 지면을 자동으로 사들이는 플랫폼이 DSP라면, AI 데이터 브로커는 AI 회사를 대신해 콘텐츠를 자동으로 긁어모으는 플랫폼이라는 의미다. 그는 "콘텐츠 영역에서만 30~50개의 신생 DSP가 등장했는데, 이들이 모두 100% 수수료를 떼어가는 셈"이라고 진단했다.

엄밀히 말하면 '스크래퍼(scraper)'는 콘텐츠를 자동 수집하는 기술 또는 업체를, '데이터 브로커(data broker)'는 그렇게 수집·가공한 데이터를 판매하는 사업자를 가리킨다. 그러나 최근 AI 시장에서는 두 역할이 한 회사에 수직 통합돼 있어, 사실상 같은 의미로 쓰인다. 디지데이 기사에서도 '제3자 웹 스크래퍼'와 'AI 데이터 브로커'를 사실상 동일한 의미로 혼용하고 있다.

◇ 어떻게 작동하나… '긁어모아 → 가공 → 판매' 4단계 구조

AI 데이터 브로커가 콘텐츠 100%를 가져가는 구조는 다음 4단계로 작동한다. 이 흐름을 이해하면, 왜 콘텐츠 제작자에게 한 푼도 돌아가지 않는지가 명확해진다.

[1단계] 수집(Crawling/Scraping) — 데이터 브로커가 운영하는 자동 프로그램(크롤러·봇)이 인터넷의 웹사이트를 끊임없이 방문해 페이지의 텍스트·이미지·동영상을 통째로 다운로드한다. 퍼블리셔의 동의는 거치지 않는다. robots.txt에 'no-crawl(수집 금지)'이 명시돼 있어도 이를 우회하거나 무시하는 사례가 늘고 있다.

[2단계] 가공(Processing/Structuring) — 수집한 원본 콘텐츠를 AI 학습에 쓰기 좋은 형태로 가공한다. 광고·메뉴·내비게이션 같은 부속 요소를 제거하고, 본문·제목·작성자·발행일자 등 메타 정보를 정형화한다. 이미지는 캡션을 붙이고, 동영상은 자막을 추출한다. 이 단계에서 원본은 '구조화된 학습 데이터셋'으로 변신한다.

[3단계] 판매(Selling/API) — 가공한 데이터셋을 AI 기업에 판매하거나, 실시간으로 콘텐츠를 공급하는 API 서비스를 제공한다. OpenAI·앤트로픽·구글 같은 대형 AI 기업뿐 아니라, AI 답변 엔진·에이전트 스타트업이 모두 고객이 된다. 이 시장 규모가 시장조사기관 모도르 인텔리전스(Mordor Intelligence) 추산으로 이미 10억 달러(약 1조 4000억 원)에 달한다.

[4단계] 재활용(Reuse/Competing Products) — AI 기업은 이 데이터를 학습시켜 챗봇·검색엔진·요약 서비스 등을 만든다. 이용자는 이제 신문사 사이트를 방문하지 않고도, AI 답변창에서 그 신문 기사의 내용을 요약·인용한 답을 얻는다. 결국 콘텐츠 원작자(퍼블리셔)는 트래픽도, 광고 수익도 잃는다.

이 4단계 구조에서 콘텐츠 원작자가 등장하는 곳은 1단계뿐이다. 그것도 '수집 대상'으로서다. 2단계 가공의 부가가치는 데이터 브로커가, 3단계 판매 매출은 데이터 브로커가, 4단계 재활용 가치는 AI 기업이 가져간다. 정작 원본을 만든 퍼블리셔에게 돌아가는 정산 몫은 0원이다. 디지데이가 "콘텐츠 100%를 가져가고 0%를 지불한다"고 표현한 것은 바로 이 구조 때문이다.

◇ "세금이 아니라 적대적 인수"… Candr Media CEO의 분노

캔드르 미디어(Candr Media)의 크리스 디커(Chris Dicker) 최고경영자(CEO)의 진단은 직설적이다. 그는 디지데이에 "애드테크 중간자들과 거래할 때만 해도 퍼블리셔는 적어도 무언가를 돌려받았다"며 "그러나 스크래퍼들의 가치 추출은 100%다"라고 말했다.

디커 CEO는 이어 "콘텐츠의 100%를 가져가고 0%를 지불한 뒤, 어떤 경우에는 그 콘텐츠로 만든 경쟁 상품을 통해 퍼블리셔를 시장에서 완전히 제거한다"고 비판했다. 그는 이를 두고 "세금이 아니라, 우리의 IP(지식재산권)로 자금이 조달되는 적대적 인수(hostile takeover)"라고 규정했다.

'적대적 인수'라는 표현은 단순한 분노 표현이 아니다. M&A 시장에서 적대적 인수란 대상 기업의 경영진 동의 없이 자본력을 동원해 지배권을 빼앗는 행위를 가리킨다. 디커 CEO의 비유에 따르면, 지금 AI 업계는 퍼블리셔의 동의 없이 그들의 자산(IP·콘텐츠)을 활용해, 결국 그 퍼블리셔를 시장에서 밀어낼 수 있는 자본·기술적 토대를 쌓고 있다는 의미다.

구체적인 작동 사례는 이렇다. AI 챗봇이 신문사 기사 수만 건을 학습한다 → 이용자가 "오늘 미국 금리 동향은?"이라고 묻는다 → 챗봇은 신문사 기사를 종합·요약해 답을 내놓는다 → 이용자는 더 이상 신문사 사이트를 방문할 이유가 없어진다 → 신문사는 트래픽·광고·구독 수익을 모두 잃는다. 신문사 콘텐츠로 만든 AI 서비스가, 그 신문사의 수익 기반을 구조적으로 잠식하는 셈이다.

◇ "노 크롤(No-Crawl) 무시"… 인터넷 신사 협정의 붕괴

디커 CEO가 행위 자체보다 더 심각하게 본 것은 그 위에 얹혀 있는 '악의적 행위(bad-faith behavior)'다. 그는 디지데이에 "일부 업체는 비공개·비신고 크롤러(stealth, undeclared crawlers)를 동원해 웹사이트의 'no-crawl' 지시를 우회하고, 일부는 공개적으로 '우리는 그 지시를 따르지 않겠다'고 선언한다"고 지적했다.

웹사이트 운영자는 보통 robots.txt라는 파일을 통해 "이 사이트는 크롤링하지 마시오"라는 지시를 명시할 수 있다. 이는 인터넷 초창기인 1994년부터 이어져 온 일종의 '신사 협정'이다. 검색엔진을 비롯한 대부분의 사업자는 이 지시를 존중해왔고, 이 신뢰가 인터넷 생태계의 기본 약속이었다.

그러나 일부 AI 데이터 브로커는 두 가지 방식으로 이 약속을 깨뜨린다. 첫째, '스텔스 크롤러'다. 봇임을 숨기고 일반 사용자처럼 위장해 콘텐츠에 접근한다. 둘째, 공개적 무시다. "우리는 robots.txt를 따르지 않겠다"고 선언하고 그대로 수집한다. 전자가 기만이라면, 후자는 도발이다.

독립미디어연합(Independent Media Alliance) 이사를 겸하고 있는 디커 CEO는 "단순한 무임승차가 아니라, 퍼블리셔에게 남은 몇 안 되는 방어 수단마저 무력화시키려는 적극적 기만이자 규모의 남용"이라고 비판했다. 그는 "메시지가 'no-crawl'이라면, 노(No)는 노라는 점을 분명히 해야 한다"고 강조했다. 성희롱 논의에서 "No means no(노라고 했으면 노다)"라는 표현을 끌어와, 동의 없는 콘텐츠 수집의 부당성을 부각한 셈이다.

robots.txt는 웹사이트 루트에 두는 텍스트 파일로, 웹 크롤러에게 "어디까지 수집해도 좋고 어디는 안 된다"를 알려주는 표준 규약이다. 법적 강제력은 약하지만, 검색엔진 등 대부분의 사업자가 이를 따라왔기 때문에 사실상의 규범으로 작동해왔다. 최근에는 AI 학습용 크롤러를 차단하기 위한 별도 지시(User-agent: GPTBot, ClaudeBot 등)도 추가됐다.

◇ 스크래퍼 경제 10억 달러… 21~40개 업체 식별

미디어 애널리스트 매튜 스콧 골드스타인(Matthew Scott Goldstein)이 최근 발표한 보고서는 이 시장의 윤곽을 처음으로 가시화했다. 보고서는 모도르 인텔리전스 자료를 인용해 '스크래퍼 경제(scraper economy)'를 10억 달러 규모 산업으로 규정했다. 그러면서 "이 산업에서 퍼블리셔의 몫은 한 푼도 없다"고 못 박았다.

골드스타인이 식별한 벤더는 21곳이다. 파이어크롤(Firecrawl), 엑사(Exa), 타빌리(Tavily), 브레이브(Brave), 유닷컴(You.com), 퍼플렉시티 소나(Perplexity Sonar), 브라이트 데이터(Bright Data) 등이 명단에 포함됐다. 또 다른 추적 서비스인 톨빗(TollBit)이 운영하는 인덱스에는 약 40개 벤더가 등재돼 있다. 어느 쪽 숫자를 기준으로 보든, 이 카테고리가 빠르게 다변화하고 있음을 보여준다.

이 가운데 일부는 일반 소비자에게도 익숙한 이름이다. 퍼플렉시티(Perplexity)는 AI 답변 엔진으로 잘 알려져 있고, 브라이트 데이터는 글로벌 데이터 수집 인프라 분야의 대형 사업자다. 검색·답변 엔진처럼 보이는 서비스가 그 뒷단에서 대규모 스크래핑 인프라를 운영하고 있다는 뜻이기도 하다.

◇ "'에이전틱 인프라' 리브랜딩… 약탈의 합법화 시도"

골드스타인이 더 우려스럽게 본 것은 산업 자체의 '리브랜딩' 움직임이다. 그는 지난 4월 29일 자신의 블로그와 링크드인(LinkedIn) 게시글을 통해 "제3자 웹 스크래퍼들이 이제는 '에이전트 인프라(agent infrastructure)'로 리브랜딩하면서, 공개적으로 약탈을 지속할 수 있게 됐다"고 비판했다. 그는 그 사례로 패럴렐 웹 시스템스(Parallel Web Systems)를 직접 거명했다.

'에이전틱 인프라'란 'AI 에이전트가 동작하기 위한 인프라'라는 뜻이다. 사용자를 대신해 웹을 탐색하고 작업을 수행하는 AI 에이전트가 보편화되면, 이들을 위한 데이터 공급망이 필요하다는 논리다. 이런 명명이 통하면, 무단 콘텐츠 수집은 '약탈'이 아니라 'AI 시대의 합법적 인프라'로 재정의될 수 있다. 마치 '해적'을 '신대륙 탐험가'로, '밀수'를 '국제 무역'으로 부르는 것과 같은 효과다.

골드스타인은 보고서에서 "기술은 더 정교해졌고 엔터프라이즈 영업 메시지도 한층 깔끔해졌지만, 근저의 경제 구조는 변한 것이 없다"며 "에이전트는 인간 행동을 한참 뛰어넘는 규모로 웹을 소비할 것"이라고 분석했다.

그는 이어 "그 소비를 가격 매기고 통제할 진정한 마켓플레이스 계층(marketplace layer)이 등장하기 전까지, 이 카테고리는 본질적으로 '누가 가장 빠르게 가치를 뽑아내느냐'의 경쟁"이라며 "'누가 대가를 받느냐'는 여전히 미해결 상태"라고 결론 내렸다. 쉽게 말해, 콘텐츠 시장에 '아이튠즈' 같은 합법적 거래 인프라가 등장하기 전까지는 지금의 약탈적 구조가 계속될 것이라는 진단이다.

AI 에이전트는 사용자를 대신해 자율적으로 웹을 탐색하고 작업을 수행하는 AI 시스템이다. 예: "다음 주 도쿄 출장 항공권 예약해줘"라고 지시하면, 에이전트가 항공사 사이트를 방문해 검색·비교·예약까지 수행한다. 이 과정에서 한 명의 사용자 요청이 수십~수백 개 페이지의 콘텐츠 소비로 확장된다. 골드스타인이 "에이전트는 인간 행동을 한참 뛰어넘는 규모로 웹을 소비한다"고 한 것은 이 때문이다.

◇ "호스트가 잡아먹힌다"… 라이선싱은 "법적 방어용"

퍼블리셔 진영은 그동안 "우리가 콘텐츠 생태계의 호스트인데 거꾸로 잡아먹히고 있다"는 호소를 일관되게 펼쳐왔다. 퍼블리셔 콘텐츠가 없었다면 차세대 거대언어모델(LLM)도 존재할 수 없었다는 논리다. AI는 인간이 만든 콘텐츠를 학습해야 작동하는데, 정작 그 학습 데이터를 제공하는 콘텐츠 제작자는 가치사슬에서 배제돼 있다는 것이다.

그러나 디지데이는 "최근 체결되는 라이선싱 딜들은 가치에 대한 인정이라기보다, 법적 노출(legal exposure)을 줄이려는 플랫폼 측의 방어적 조치라는 시각이 우세하다"며 "퍼블리셔로서는 점점 더 공허한 외침을 하고 있는 셈"이라고 전했다.

최근 미국에서는 OpenAI, 앤트로픽(Anthropic), 구글 등 주요 AI 기업이 일부 메이저 퍼블리셔와 라이선싱 계약을 체결한 사례가 늘고 있다. 그러나 이는 '뉴욕타임스(NYT) vs OpenAI' 등 진행 중인 저작권 소송에서 법적 리스크를 분산시키기 위한 조치라는 해석이 많다. 가치 인정에 따른 자발적 보상이 아니라, 법적 압박을 줄이기 위한 회피 전략에 가깝다는 의미다.

결과적으로 라이선싱 계약을 체결한 일부 메이저 매체만 보상을 받고, 나머지 대다수 중소 퍼블리셔는 법적 분쟁을 일으킬 자원도 협상 테이블에 앉을 자격도 없이 무단 수집의 대상으로만 남는 양극화가 진행되고 있다.

◇ "냅스터는 왔는데 아이튠즈는 아직 없다"

퍼블리셔 진영이 지금 국면을 가장 많이 비유하는 사례는 음원 시장의 '냅스터(Napster) 시대'다. 1999년 등장한 P2P 음원 공유 서비스 냅스터는 음악 산업의 가치를 대규모로 빨아들이며 음원 시장을 흔들었다. 결국 합법적 디지털 유통 플랫폼인 아이튠즈(2003년)와 스포티파이(2008년)가 등장하면서 시장은 새로운 균형을 찾았다.

앞서의 익명 임원은 디지데이에 "지금은 점점 더 많은 '냅스터들'이 출몰하는 세계인데, 정작 아이튠즈도 스포티파이도 아직 없다"며 "우리는 해적들과의 경주만 하고 있을 뿐이고, 해적은 늘 그렇듯 더 빠르다"고 토로했다.

음원 시장과 결정적으로 다른 점은, 콘텐츠·LLM 영역에는 골드스타인이 강조한 '소비를 가격 매기고 통제하는 마켓플레이스 계층'이 아직 부재하다는 것이다. 냅스터가 활개치던 시기에도 음반사들은 합법적 유통 인프라(아이튠즈)가 등장한 뒤에야 비로소 가치 회수 구조를 회복할 수 있었다. 콘텐츠 시장은 아직 그 단계에도 진입하지 못했다.

다만 미국에서는 톨빗(TollBit), 클라우드플레어(Cloudflare) 같은 사업자들이 AI 봇이 콘텐츠를 사용할 때 자동으로 요금을 부과·정산하는 '페이 퍼 크롤(pay-per-crawl)' 인프라를 시범 운영하고 있다. 이들이 콘텐츠 시장의 '아이튠즈'가 될 수 있을지가 향후 관전 포인트다.

◇ 신디케이션 함정… "AI 차단해도 포털 통해 다시 노출"

자사 기사를 외부 사이트에 공급하는 신디케이션 퍼블리셔(syndication publisher)에게는 또 다른 함정이 있다. AI 크롤러를 자사 도메인에서 차단해도, 외부 포털과 고객사 사이트에 공급된 동일 콘텐츠를 통해 다시 노출되기 때문이다.

한 퍼블리셔 임원은 디지데이에 이를 "두더지 잡기 게임(whack-a-mole)"이라고 표현했다. 한 곳을 차단하면 다른 곳에서 다시 튀어나오는 식이다.

디지데이에 따르면, 이 같은 우회 경로 스크래핑에 대해 AI 기업들에 항의하면 "문제는 포털 설정에 있지 우리의 크롤링 행위가 아니다"라는 답변이 돌아오는 경우가 많다. 결국 책임은 가치사슬 하단으로 떠밀리고, 실질적 책임 주체는 모호해지는 구조가 고착화되고 있다.

이는 한국의 포털·CP(Contents Provider) 계약 구조에도 그대로 적용 가능한 문제다. 신문사가 자사 사이트에서 AI 크롤러를 차단해도, 네이버·다음 등 포털에 공급된 동일 기사를 통해 수집되는 우회 경로가 열려 있을 가능성이 크다. 한국 언론사 입장에서도 결코 남의 일이 아니다.

■ 한국 미디어 산업에 던지는 다섯 가지 질문

이번 사안은 미국 퍼블리셔 진영의 문제로 비치지만, 한국 미디어 산업에도 동일한 구조적 함의를 갖는다. 다섯 가지 질문이 즉각적으로 제기된다.

첫째, AI 학습·에이전트 인프라 수요가 만들어낸 '스크래퍼 경제'는 글로벌 단일 시장으로 형성되고 있다. 한국 콘텐츠도 예외가 아니며, 국내 언론사·방송사의 콘텐츠 역시 동일한 무단 수집 대상이 되고 있다는 점을 전제로 한 대응 전략이 필요하다.

둘째, '에이전틱 인프라'라는 리브랜딩은 규제·계약 프레임워크가 따라잡기 전에 카테고리를 합법화하려는 전형적 움직임이다. 정책 대응 시 명칭 변화에 휘둘리지 않고, '콘텐츠를 어떻게 소비하는가'라는 본질에 집중한 규범을 마련해야 한다는 지적이다.

셋째, 포털·CP 계약을 중심으로 한 국내 신디케이션 구조에서도 동일한 '두더지 잡기' 문제가 발생할 수 있다. no-crawl 지시의 법적 효력, 신디케이션 계약 내 AI 학습용 사용 금지 조항, 책임 귀속 등을 분명히 하는 표준 계약·정책 마련이 시급하다.

넷째, 음원 시장의 아이튠즈·스포티파이에 해당하는 'AI 콘텐츠 마켓플레이스 계층'을 누가 먼저 설계하고 선점하느냐가 향후 협상력의 핵심 변수가 될 전망이다. 한국에서도 한국언론진흥재단·방송통신위원회 등이 주도해 K-콘텐츠 단위의 통합 마켓플레이스 모델을 검토할 시점이라는 의견이 나온다.

다섯째, 현재 국회 등에서 논의 중인 시청각미디어서비스법 등 미디어 규제 논의에서도 'AI 학습·에이전트의 콘텐츠 소비'에 대한 정의·대가 산정·책임 귀속 조항이 별도 트랙으로 검토될 필요가 있다. 기존 저작권법 체계만으로는 '에이전트가 사람을 대신해 웹을 소비하는' 새로운 행위 양식을 충분히 포섭하지 못한다는 지적이 누적되고 있기 때문이다.

해적은 늘 빠르다. 그러나 음원 시장이 보여줬듯, 시장은 결국 합법의 자리를 찾는다. 문제는 그 '합법의 자리'를 누가 먼저 만들고, 누가 거기에서 룰을 쓰느냐다. 콘텐츠 생태계의 원조 호스트인 퍼블리셔가, 그리고 한국 미디어가 그 룰 메이킹의 자리에 설 수 있느냐 — 지금 던져진 진짜 질문은 결국 그것이다.