빅테크들은 왜 ‘데이터’에 목매나

©shutterstock

TECH INSIGHT

빅테크들은 왜
‘데이터’에 목매나

“데이터는 새로운 석유다.(Data is the new oil.)” 영국 출신의 데이터 과학자이자 수학자인 클라이브 험비는 이렇게 강조했다. 데이터가 현대 사회에서 얼마나 중요한 자원인지를 비유적으로 설명한 표현이다. 데이터는 원유처럼 가공되지 않은 상태에서는 그 자체로 가치가 없지만, 가공을 통해 막대한 가치를 창출할 수 있기 때문이다. 특히 오늘날 인공지능 시대를 맞아, 데이터는 각 기업의 경쟁력 그 자체가 되고 있다.

글. 이상덕

매일경제 기자. <챗GPT 전쟁: 실리콘밸리는 지금 무엇을 준비하고 있는가> 저자

데이터,
AI 파워를 증가하다

AI 산업에서 데이터가 중요하다는 사실을 발견한 인물 중 하나는 토론토대 교수인 제프리 힌턴이다. 그는 다층 퍼셉트론으로 불리는 MLP(Multi-Layer Perceptron)를 창안해 ‘딥러닝의 아버지’라는 별명을 얻은 인물이다. 1950년대 급부상한 신경생물학계는 인간의 두뇌 신경세포인 뉴런이 약 1,000억 개(혹은 860억 개)에 달하고, 뉴런끼리 신호를 주고받을 수 있는 통로인 시냅스는 약 100조 개에 달한다는 것을 새롭게 밝혀냈다. 생물이 가지고 있는 시냅스에 해당하는 것이 AI의 파라미터이다. 힌턴은 파라미터가 많으면 많을수록 AI 성능이 빛을 발한다고 판단하고 이를 추진했다.

당시 AI 성능은 보잘 것 없었다. AI를 상대로 남성과 여성 사진을 보여주고, 맞추라고 명령하면 틀리기 일쑤였다. 하지만 힌턴과 그의 수제자인 일리야 수츠케버는 2012년 이미지넷 대회에 출전해 당시 26~28%나 되었던 AI 인식 오류율을 16%까지 줄이는 기염을 토했다. 방법은 방대한 데이터를 동원한 것이었다. 이후 AI 업계는 막대한 파라미터와 방대한 빅데이터만 갖춘다면 승산을 볼 수 있다는 믿음이 커졌다. 병렬 처리에 적합한 그래픽 처리 장치인 GPU가 주목을 받기 시작했다.

오늘날 챗GPT의 근간이 되는 모델인 트랜스포머 모델을 만드는 과정은 이렇다. 먼저 데이터를 수집하고 모델에 사용할 수 있도록 데이터를 전처리한다. 이후 인간의 두뇌를 닮은 신경망 모델 아키텍처를 만들어, 데이터를 넣고 학습시킨다. 교차 검증을 통해 모델의 정확도를 평가하고 성능을 개선하기 위해 파인 튜닝해서 배포한다. 문제는 입력되는 문장이 길어지면, AI는 무엇이 중요한지 판단하지 못한다는 데 있다. 트랜스포머에는 정교함을 극대화하고자 셀프 어텐션(Self Attention)이라는 기능을 포함하고 있다.

제프리 힌턴

일리야 수츠케버

데이터를 기반으로 성장한 빅테크 기업

빅테크 기업들은 모두 데이터를 기반으로 성장했다. CNBC 진행자인 짐 크레이머는 페이스북, 아마존, 넷플릭스, 구글을 합쳐 팽(FANG)이라고 불렀고, 사토리 펀드의 댄 나일스 창업자는 AI 시대를 이끌고 있는 엔비디아, 메타, 마이크로소프트, 아마존을 가리켜 판타스틱4로 명명했다. 이들은 빅테크로도 불린다. 미국에서 빅(Big)이라는 표현은 때로 무서움과 두려움을 주는 기업에 붙는 접두어다. 한때 환경을 파괴하는 세븐 시스터즈를 ‘빅 오일’이라고 불렀고, 1990년대 건강을 해치는 담배 회사들을 ‘빅 토바코’라고 불렀다. 이기적인 대규모 제약 기업은 ‘빅 파마(Pharmacy의 약자)’가 됐다. 디지털 세상을 지배하는 테크 기업을 빅테크로 부르는 까닭 역시 부작용 때문이다. 이들이 커지면서 데이터 수집, 사생활 침해, 중독성 있는 서비스는 사회적 문제점이 됐다. 분명한 것은 이들의 힘은 데이터에서 나온다는 사실이다.

엔비디아, AI 힘의 근원인 컴퓨팅 파워 제공

AI 빅데이터 시대에 주목을 받은 대표적인 기업은 엔비디아다. 엔비디아는 2023년 609억 달러에 달하는 매출액을 올리며 빅테크 7개사를 가리키는 ‘매그니피센트7’ 가운데 가장 돋보이는 한 해를 보냈다. 엔비디아가 AI 힘의 근원인 컴퓨팅 파워를 제공하고 있기 때문이다. 놀라운 점은 엔비디아의 매출액 상당 부분이 데이터센터용 칩에서 나오고 있다는 점이다. 엔비디아 수익의 핵심은 데이터센터용 칩이다.

오늘날 디지털 세상은 클라우드 안에 있다고 해도 과언이 아니다. 클라우드가 있기 때문에 오늘날 우리는 방대한 서버를 직접 구매할 필요 없이, 컴퓨팅 자원을 구독해 사용할 수 있다. AI 서비스 역시 마찬가지다. 이 과정에서 데이터센터를 운영하는 아마존 AWS, 마이크로소프트 애저, 구글 클라우드와 같은 클라우드 서비스 제공 기업(CSP)은 엔비디아 GPU를 구매해 설치하고, AI 서비스를 고객사에 공급한다. 엔비디아 매출 가운데 83.2%는 데이터센터용 칩일정도다.

테슬라의 꿈, 빅데이터 위에 선 로보택시

테슬라는 막대한 자율주행차에서 나오는 데이터를 모아 로보택시를 구현하려고 하고 있다. 테슬라 차주가 버튼만 누르면, 차량이 알아서 움직여 승객을 승차시키고 돈을 벌어오는 것이 로보택시다. 자율주행 공유차량 서비스인 것이다.

로보택시를 구현하려면 방대한 데이터와 컴퓨팅 파워가 필요하다. 테슬라는 자율주행 기술 개발을 위해 슈퍼컴퓨터 도조(Dojo) 구축에 박차를 가한 상태다. 또 현재 텍사스 오스틴에 10MW(메가와트) 데이터 센터를 건설하고 있다. 테슬라는 GPU 구입 등 연구개발 비용에 2024년까지 총 10억 달러(약 1조 3,500억 원) 이상의 자금을 투입하기로 했다. 이 모든 것이 데이터를 활용해 자율주행 기술을 최적화하고, 로보택시 서비스를 상용화하기 위한 전략의 일환이다.

아마존, 빅데이터로 수익을 내다

아마존 역시 데이터로 성장했다. 수많은 제3자 판매자들이 아마존의 플랫폼을 활용해 물건을 팔고 있다. 2024년 현재 약 600만 명에 육박하는 셀러가 아마존에서 활동하고 있는 것으로 집계됐다. 아마존은 이들이 뛰어놀 거대한 판을 깔았다. 그러면서 물류 창고, 검색 서비스, 포장, 배달 서비스와 같은 주문처리 서비스(FBA)를 제공하고 수수료를 받는 비즈니스 모델을 구축했다. 아마존 매출 가운데 24%가 바로 제3자 판매로부터 나온다. 2023년 매출이 5,747억 달러니, 어림잡아 1,379억 달러에 달하는 막대한 시장인 셈이다. 특히 셀러들은 연간 70억 개 이상의 상품을 판매하고 있는 것으로 추산된다. 또 이들의 연평균 매출은 25만 달러인 것으로 나타났다.

아마존은 이들의 데이터를 모아 맞춤 광고로 수익을 낸다. 아마존 매출액 가운데 광고 매출 비중이 무려 8.2%다. 데이터를 기반으로 아마존은 셀러들의 판매 패턴을 분석하고, 이를 통해 맞춤형 광고와 추천 시스템을 강화하며 추가적인 수익을 창출하고 있다. 아마존은 이러한 데이터를 활용해 사용자 경험을 개인화하고, 플랫폼의 경쟁력을 더욱 높이고 있다.

구글, 전체 매출 중 검색 엔진 비중 57.3%

구글은 방대한 데이터를 토대로 지구적 도서관으로 성장했다. 구글 전체 매출액 3,073억 달러 가운데 구글 검색 엔진과 관련된 매출만 57.3%에 달한다. 그만큼 데이터 기반 위에 서 있는 셈이다.

구글은 2022년 이전만 하더라도 AI 빅데이터에서 가장 뛰어난 역량을 보유한 빅테크 기업으로 꼽혔다. 하지만 2022년 11월 말 챗GPT가 등장하면서 위기에 휩싸였다. 오픈AI가 출시한 챗GPT는 출시 5일 만에 월간 사용자 100만 명을 모았고, 두 달 만에 5,700만 명이 사용하는 서비스로 급부상하면서 구글을 위협했기 때문이다. 구글의 근간인 검색 광고 사업을 흔들 수 있는 장면이다.

구글의 주요 수익원은 데이터를 기반으로 한 광고다. 구글은 전 세계적으로 사용자들이 검색 엔진, 유튜브, 지메일 등 다양한 서비스에서 생성하는 데이터를 수집하고 분석해 사용자 맞춤형 광고를 제공한다. 이에 따라 광고의 효율성과 타겟팅이 매우 정교해졌으며, 광고주는 높은 투자 대비 효과를 누릴 수 있다. 구글의 광고 플랫폼인 구글 애즈(Google Ads) 데이터 활용의 대표적인 사례다.

EU의 잇따른 철퇴··· 데이터 확보 비상

빅테크 기업들이 데이터를 수집하는 방법은 다양했다. 사용자가 웹사이트를 방문하거나 애플리케이션을 사용할 때, 그들의 클릭, 검색 기록, 페이지 뷰, 사용 시간 등 다양한 활동이 로그로 기록되는데 해당 데이터로 패턴을 분석하는 것이 대표적이다. 또 스마트폰의 GPS 기능을 통해 사용자의 실시간 위치 정보를 수집하거나 와이파이와 블루투스 신호를 통해 사용자가 특정 장소에 머물렀던 기록을 수집할 수 있다. 구글, 마이크로소프트 빙(Bing) 등 검색 엔진은 사용자가 입력한 검색어, 클릭한 링크, 방문한 페이지 등을 수집하기도 하며, 전자 상거래 플랫폼은 사용자가 구매한 상품, 장바구니에 담은 상품, 리뷰 작성 기록 등을 수집한다. 오늘날 AI 기업들은 종종 웹 페이지의 데이터를 자동으로 추출하여 수집하는 웹 스크래핑(Web Scraping)을 사용하기도 한다.

하지만 앞으로 데이터 확보는 예전만큼 쉽지 않을 것으로 보인다. 유럽연합이 2018년 발효한 유럽 일반 개인정보 보호법(GDPR)은 맞춤 광고를 어렵게 만들었다. 유럽에서 활동하는 기업은 반드시 수집한 데이터를 사용자에게 알리고 이에 대한 동의를 받아야 한다. 만약 사용자가 바란다면 반드시 데이터를 삭제해야 한다. 만약 GDPR을 위반할 경우 글로벌 매출의 최대 4%까지 과징금으로 부과된다. 또 EU AI 법(EU AI Act) 역시 AI 챗봇 기업에 재갈을 물렸다. AI 챗봇 기업은 EU의 GDPR을 준수해야 하기 때문에 AI에 학습한 데이터 리스트 목록을 공개해야 한다.

데이터 고갈 위기··· 합성 데이터 안전한가

인공지능 업계에서는 고품질 데이터에 대한 수요가 2028년에는 90%의 가능성으로 수요가 공급을 넘어설 것으로 예상하고 있다. AI 칩처럼 AI 데이터가 부족해지는 상황이 4년 안에 도래할 가능성이 있다는 것이다. 실제로 애플, 엔비디아, 앤트로픽 등이 사용자의 동의 없이 약 17만 3,000건이 넘는 유튜브 영상 자막을 AI 모델 훈련에 사용해 논란을 빚기도 했다. 학습 데이터의 확보가 어려워지면서 ‘데이터 고갈 위기’라는 문제가 대두된 상태인 것이다.

해법으로 나온 것은 합성 데이터(synthetic data)다. 실제 데이터를 바탕으로 인공지능이나 기타 방법을 이용해 생성된 인공 데이터를 가리킨다. 개인정보 보호 규정을 준수하는 합성 데이터를 생성하는 데 특화된 기업인 모슬리AI(Mostly AI, https://mostly.ai/), 이미지와 비디오 데이터를 합성하는 데 중점을 두고 대규모 데이터셋을 생성하는 데 특화된 헤이지(Hazy, https://hazy.com/) 등이 등장하기도 했다.

하지만 이들 합성 데이터 역시 실제 데이터를 기반으로 하고 있어 100% 안전한 것은 결코 아니다. AI 기업에 있어서, 적법한 데이터 수집은 매우 중요한 이슈가 될 것이다.