오픈AI, '50년치 콘텐츠 신경망' 통째로 훔쳤다

닐슨 그레이스노트, 챗GPT 저작권 침해 소송 제기…메타데이터 구조 자체 무단 복제 첫 법정 공방

AI가 콘텐츠를 ‘추천’하는 시대, 그 뒤를 떠받쳐온 메타데이터 시장이 정면 승부에 들어갔다.

글로벌 미디어 측정 기업 닐슨((Nielsen) 산하 그레이스노트(gracenote)가 3월 10일(미국 현지 시간) TV·영화·스포츠에 붙인 프로그램 설명과 무드 태그, 14자리 TMSID, 이들을 엮는 관계형 구조까지 GPT 학습에 통째로 베껴 썼다며 오픈AI를 미국 연방법원에 제소하면서, 생성 AI의 데이터 수혈 관행과 글로벌 스트리밍·FAST·스마트TV 생태계의 비즈니스 모델이 동시에 도마 위에 올랐다.

특히, 이번 소송은 단순한 텍스트 복제를 넘어, 데이터를 연결하는 '관계형 구조(relational framework)' 자체의 저작권 침해를 주장한 첫 번째 대형 사건으로 업계의 주목 받고 있다.

반세기 편집 노동의 결정체, 법정에 서다

그레이스노트는 닐슨(Nielsen) 산하 자회사로, TV·영화·음악·스포츠 콘텐츠의 메타데이터를 생성·관리·라이선스하는 세계 최대 사업자다. 구글(Google), 아마존(Amazon), 컴캐스트(Comcast), 훌루(Hulu), 파라마운트+(Paramount+) 등 글로벌 빅테크와 메이저 미디어가 주요 고객이며, 삼성(Samsung) 스마트TV와 여러 스마트 디바이스의 콘텐츠 발견 인프라 역시 그레이스노트 데이터에 의존하고 있다. 스트리밍 화면에서 사용자가 보는 프로그램 설명 한 줄, 썸네일 뒤에 숨어 있는 장르·무드·테마 태그, 개인화 추천 엔진이 돌려 쓰는 관계형 데이터까지, 상당 부분이 이 회사의 데이터베이스에서 나온다.

이번 소장의 핵심은 “텍스트 몇 줄”이 아니다.

40페이지에 달하는 문서에서 그레이스노트는 오픈AI가 챗GPT(ChatGPT)를 비롯한 대형 언어 모델(LLM)을 훈련하는 과정에서 자사의 저작권 등록 프로그램 데이터베이스를 구조까지 포함해 무단 복제·학습했다는 점을 정면으로 문제 삼고 있다. 여기서 말하는 ‘전체’에는 세 가지 층위가 동시에 들어간다. 첫째, 작품 설명과 시놉시스와 같은 서술 텍스트. 둘째, 수백만 개 프로그램을 얽어매는 독자적 관계형 구조(relational framework)와 14자리 고유 식별자(TMSID). 셋째, 1,000명 이상 전문 편집자가 수십 년에 걸쳐 붙여온 무드·테마·시나리오·배경 태그의 조합이다.

그레이스노트가 특히 강하게 주장하는 지점은 “데이터를 무엇으로 ‘묶어내는가’”에 대한 편집 판단, 즉 관계형 구조 자체도 저작권 보호를 받는 창작물이라는 점이다. 단순히 작품 정보가 많이 모여 있다는 의미의 데이터베이스가 아니라, 배우·감독·장르·무드·테마·시즌·에피소드 등을 축으로 수백만 프로그램을 연결해 놓은 거대한 그래프를 하나의 창작물로 본다는 것이다.

소장에는 이 데이터베이스가 “미디어 생태계의 신경계(neural network of the media ecosystem)”라는 표현까지 등장한다.

피고 특정 방식도 공격적이다. 그레이스노트는 오픈AI를 하나의 법인으로 보지 않고, 지배구조 재편 이후의 전체 기업 집합을 피고로 올렸다. 2025년 10월 구조 개편 이후 비영리 모회사 오픈AI 파운데이션(OpenAI Foundation, 구 OpenAI Inc.)이 지주회사 역할을 맡고, 영리 자회사인 오픈AI 그룹 PBC(OpenAI Group PBC)가 챗GPT 등 상업 서비스를 운영하는 구조가 됐다. 여기에 더해 운영·IP 보유·서비스 제공에 관여하는 계열 법인 등 총 8개 법인을 한꺼번에 묶어 “직접 침해·대위 침해·기여 침해·부당이득” 책임을 모두 추궁하겠다는 전략이다.

소장에 따르면 오픈AI는 현재 기업 가치 최대 5,000억 달러, 연매출 200억 달러 규모로 성장한 상업 기업이다. 그레이스노트 측은 “이 거대한 상업적 성공의 밑바닥에, 정당한 대가를 치르지 않은 제3자의 편집 노동이 섞여 있다면 이를 법정에서 가려보자는 것”이라는 메시지를 던진 셈이다. AI 혁신과 데이터 공급망 사이의 긴장이, 이번에는 반세기 편집 노동이 깃든 ‘메타데이터 신경망’을 매개로 정면 충돌을 시작했다

1조 분의 1 확률 — 우연이 아니다

소장에 따르면 그레이스노트가 챗GPT 모델에 특정 TV 프로그램의 TMSID(14자리 고유 식별자) 생성을 요청하자, GPT-4.5 미리보기 모델은 브레이킹 배드(Breaking Bad)·왕좌의 게임(Game of Thrones)·더 오피스(The Office)를 포함한 13개 작품의 TMSID를 자리수 하나 틀리지 않고 그대로 출력했다.

이 식별자의 ‘SH’ 접두사 뒤 12자리를 순전히 추측으로 맞출 확률은 1조 분의 1에 불과하며, 그레이스노트는 이를 근거로 “우연의 일치는 통계적으로 불가능하다”며 해당 값들이 학습 데이터에 포함돼 있었음을 강하게 주장한다.

프로그램 설명 텍스트의 축어적 재현도 같은 맥락에서 제시된다. 소장은 왕좌의 게임, 레디 오어 낫(Ready or Not), 어메리칸 호러 스토리: 1984(AHS: 1984) 등 작품들의 경우 그레이스노트 원본 설명과 챗GPT 출력이 문장 구조·어휘·길이까지 사실상 동일하게 일치하는 대조표를 제출하며, 이는 단순한 ‘요약’이나 ‘유사 문장 생성’이 아니라 편집자가 작성한 서술 레코드 자체가 모델에 흡수·재현된 정황이라고 강조한다.

작품

그레이스노트 원본

챗GPT 출력 (GPT-5.2)

왕좌의 게임(Game of Thrones)

The depiction of two power families – kings and queens, knights and renegades, liars and honest men – playing a deadly game of control of the Seven Kingdoms of Westeros, and to sit atop the Iron Throne.

The depiction of two power families – kings and queens, knights and renegades, liars and honest men – playing a deadly game of control of the Seven Kingdoms of Westeros, and to sit atop the Iron Throne.

레디 오어 낫(Ready or Not)

Grace couldn't be happier after she marries the man of her dreams at his family's luxurious estate. There's just one catch – she must now hide from midnight until dawn while her new in-laws hunt her down with guns, crossbows, and other weapons.

Grace couldn't be happier after she marries the man of her dreams at his family's luxurious estate. There's just one catch – she must now hide from midnight until dawn while her new in-laws hunt her down with guns, crossbows, and other weapons.

AHS: 1984(GPT-4)

In the summer of 1984, five friends escape Los Angeles to work as counselors at Camp Redwood; as they adjust to their new jobs, they quickly learn that the only thing scarier than campfire tales is the past coming to haunt them.

In the summer of 1984, five friends escape Los Angeles to work as counselors at Camp Redwood; as they adjust to their new jobs, they quickly learn that the only thing scarier than campfire tales is the past coming to haunt them.

▲ 소장 원문 수록 대조표 발췌. 노란색 셀이 챗GPT 출력 결과.

무드 태그도 '창작'이다 — "편집 판단까지 베꼈다"

소장은 또 하나의 핵심 증거로 ‘무드 태그(Mood Tags)’의 완전 일치를 들이밀었다.

그레이스노트 편집자들은 각 작품에 Inspiring, Dark, Suspenseful, Romantic 등 수천 개의 감성 태그를 독자 기준으로 설계해 붙여 왔고, 어떤 태그를 몇 개나 어떤 조합으로 부여할지는 전적으로 편집자의 창작적·미학적 판단에 속하는 영역이라고 강조한다. 그런데 GPT-4 모델이 수십 개 작품에 대해 그레이스노트가 부여한 무드 태그 목록을 내용과 개수, 조합까지 그대로 재현했고, 작품에 따라서는 태그 순서만 바뀐 채 동일 세트가 출력된 사례가 소장에 구체적으로 제시됐다.

GPT-4.1 역시 20개 이상 작품에서 유사한 결과를 보여, 단일 모델·단일 버전의 우연이라고 보기 어렵다는 것이 그레이스노트의 논리다. 소장은 이를 두고 “오픈AI가 콘텐츠의 의미론적 분류 체계, 즉 무엇이 ‘어둡고(Dark)’ 무엇이 ‘영감을 주는지(Inspiring)’에 대한 그레이스노트의 독자적 판단 체계까지 학습했다는 정황”이라 규정하며, 단순 텍스트 복제를 넘어 ‘편집 지식과 분류 체계 자체의 복제’라는 새로운 저작권 쟁점을 제기하고 있다.

커먼 크롤이 통로였다 — 학습 데이터 경로 추적


소장은 오픈AI가 어떻게 그레이스노트 데이터에 접근했는지에 대해서도 비교적 구체적인 ‘경로도’를 제시한다. 그레이스노트에 따르면 GPT-3 학습에 사용된 커먼 크롤(Common Crawl, 웹 전체를 대규모로 크롤링한 인터넷 복사본 데이터셋) 안에 tvlistings.gracenote.com 등 자사 프로그램 데이터베이스를 노출하는 도메인이 그대로 포함됐고, 이 지점을 통해 그레이스노트 메타데이터가 대규모로 흡수됐다는 것이다.

GPT-4 단계에서는 이 의심이 더 짙어진다. 소장에 따르면 GPT-4 학습 과정에서 커먼 크롤에 적용되던 데이터 품질 필터가 사실상 제거되면서, 이전보다 훨씬 더 많은 원시 크롤 데이터가 걸러지지 않은 채 투입됐다. 이후 세대인 GPT-5와 GPT-5.2는 GPT-4까지의 학습 데이터를 ‘상위 집합(superset)’ 형태로 포함하는 방식으로 훈련됐다고 그레이스노트는 주장하며, 한 번 유입된 자사 데이터가 후속 모델 세대에까지 그대로 승계됐다는 논리를 편다.

결정적인 대목으로 소장은 오픈AI가 다른 사건에서 미국 법원에 제출한 문서를 그대로 인용한다. 오픈AI가 “오늘날 주요 AI 모델을 훈련하려면 저작권이 있는 자료를 사용하지 않고는 사실상 불가능하다”고 스스로 인정한 부분을 들며, 이는 곧 커먼 크롤과 같은 공개 데이터셋을 통해 다수의 저작권 자료 — 그레이스노트 데이터베이스를 포함한 — 가 실제로 학습에 활용됐다는 간접 자백에 가깝다고 강조한다.

"AI를 지지하지만 도둑질은 안 된다" — 라이선싱 제안 수차례 묵살


그레이스노트가 이번 소송에서 비교적 높은 도덕적 고지를 점하고 있다는 평가를 받는 이유는, 스스로를 ‘반(反)AI 진영’이 아니라 ‘유료 라이선싱을 전제로 한 AI 우호 진영’으로 포지셔닝하고 있기 때문이다. 소장에 따르면 그레이스노트는 이미 삼성(Samsung), 구글(Google) 등 주요 빅테크와는 AI 학습·서비스용 메타데이터 라이선싱 계약을 맺고 있으며, 오픈AI에도 “장기간에 걸쳐 수차례” 정식 라이선싱 논의를 제안했다. 그러나 오픈AI는 이 제안들을 거부하거나 응답 없이 넘겼고, 그레이스노트는 결국 “계약 테이블이 아니라 법정에서 만나게 됐다”는 메시지를 담아 소장을 제출했다는 것이 회사 측 설명이다.

재러드 그루스드(Jared Grusd) 그레이스노트 CEO는 자사 공식 입장문에서 “AI를 지지하는 것과 도용에 반대하는 것은 모순이 아니다. 이것이야말로 AI 시대를 지속가능하게 만드는 유일한 길”이라고 밝히며, 이번 소송이 특정 기술 자체가 아니라 무단 사용 관행을 겨냥한 것임을 분명히 했다. 업계에서는 이를 두고 “계약한 기업은 보호하고, 거부한 기업은 법정에서 다투겠다”는 신호, 즉 AI 기업 전반을 향한 라이선싱 압박 카드로 해석하고 있다.

청구 내용: 모델 폐기까지 요구


법적 청구는 수위도 높고 범위도 넓다. 그레이스노트는 소장에서 네 가지 청구 원인을 제시했다. 첫째, 그레이스노트 프로그램 데이터베이스를 무단 복제해 LLM 학습에 사용하고, 그 결과 생성물을 전 세계 사용자에게 제공한 데 따른 직접 저작권 침해. 둘째, 지주·운영 법인이 침해 행위를 통제·지시하면서 경제적 이익을 공유했다는 논리의 대위 저작권 침해(vicarious infringement). 셋째, 침해 데이터로 훈련된 모델을 배포해 최종 사용자의 2차 침해를 가능하게 했다는 기여 저작권 침해(contributory infringement). 넷째, 저작권 보호 대상 범위를 넘는 부분까지 포함해 무단으로 데이터를 활용해 경제적 이득을 취했다는 **부당이득(unjust enrichment)**이다.

손해배상 규모는 구체 숫자를 제시하지 않았지만, 법정 손해배상과 실제 손해배상, 이익 환수(disgorgement)까지 모두 요구하며 “3중 구조”를 깔아뒀다. 무엇보다 업계의 시선을 끄는 건 구제 수단 중 하나다. 그레이스노트는 자사 데이터가 학습에 포함된 모든 GPT 계열 모델과 관련 학습 데이터셋에 대해, 미국 저작권법 17 U.S.C. § 503(b)를 근거로 한 폐기(destruction) 명령까지 법원에 요청했다. 이 요구가 그대로 인용될 경우, 오픈AI는 단순한 금전 배상 수준을 넘어 현재 서비스 중인 주요 모델을 아예 폐기·재학습해야 하는 최악의 시나리오에 직면할 수 있어, 이번 소송이 ‘AI 저작권 분쟁의 분수령’으로 불리는 이유도 여기에 있다.

한국 콘텐츠 산업, 지금 무엇을 준비해야 하나


이번 소송은 먼 나라 분쟁이 아니라 한국 미디어·엔터테인먼트 업계의 ‘다음 차례’를 예고하는 경고음에 가깝다.

이미 K-드라마·예능·다큐·K-팝·스포츠 중계에 붙어 온 프로그램 설명, 시놉시스, 인물 관계도, 장르·분위기 태그, 시즌·에피소드 구조 등 수십 년간 방송사·플랫폼·데이터 회사가 축적해 온 메타데이터 자산이 글로벌 AI 기업들의 학습 데이터로 활용됐을 가능성을 배제할 수 없다.

그레이스노트가 제시한 법적 프레임은, “텍스트 한 줄”을 넘어 관계형 구조와 편집 판단까지 보호 대상으로 삼는 선례를 만들 수 있다는 점에서 K-콘텐츠 업계에도 구체적인 대응 시나리오를 제공한다.

삼성TV 플러스(Samsung TV Plus) 등 FAST 플랫폼에 K-콘텐츠를 공급하는 방송사·해외 유통사는 지금 메타데이터 계약 구조부터 다시 들여다볼 필요가 있다. 삼성은 이미 그레이스노트와 AI 라이선싱 계약을 맺은 당사자이기 때문에, 향후 판결 내용에 따라 플랫폼 내 메타데이터 활용 범위, 2차 제공, AI 연계 서비스의 조건이 바뀔 수 있고, 그 여파는 곧바로 한국 콘텐츠 공급사들의 권리·수익 배분 구조에 영향을 미칠 수 있다.

지상파 3사(KBS·MBC·SBS)는 물론 CJ ENM, JTBC, 웨이브·티빙·쿠팡플레이 등 국내 주요 콘텐츠·플랫폼 기업들도 자사 메타데이터 데이터베이스의 저작권 등록을 더 이상 미룰 수 없다.

그레이스노트가 소장에서 반복해 강조하는 승소 카드가 바로 “관계형 프레임워크를 포함한 전체 데이터베이스에 대한 미국 저작권청 등록” 사실이기 때문이다. 인물 관계도, 장르·무드 분류 체계, 에피소드 구조 등 K-콘텐츠만의 편집 지식과 분류 시스템을 독립된 저작물로 등록해 두는 것이 가장 비용 대비 효과가 큰 선제 방어 수단이 될 수 있다.

동시에, 지금이 오픈AI를 포함한 글로벌 AI 기업들과의 라이선싱 협상을 선제적으로 꺼낼 수 있는 ‘가장 좋은 타이밍’이라는 점도 눈여겨볼 대목이다. 그레이스노트 사례가 본격적인 판례로 굳어지기 전에, K-콘텐츠 메타데이터를 어떤 조건으로, 어떤 범위까지, 어떤 모델 학습과 서비스에 사용할지에 대한 룰과 단가를 협상 테이블에서 먼저 확보하는 쪽이 훨씬 유리하다.

한국 입장에서는 K-드라마·K-팝이 전 세계 스트리밍 서비스와 소셜 플랫폼에서 사실상 “AI 추천 엔진의 핵심 트레이닝 셋”으로 쓰이고 있다는 현실을 직시하고, 메타데이터를 단순 비용 항목이 아니라 별도의 라이선싱 레버리지로 분리해 관리하는 전략 전환이 필요한 시점이다.

원문 링크 https://storage.courtlistener.com/recap/gov.uscourts.nysd.659334/gov.uscourts.nysd.659334.1.0.pdf

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
SHOP