데이터는 그 어원상 단순히 ‘주어진’(given) 것이라는 의미를 지니고 있다. 하지만 사실 데이터는 그저 주어진 것이라기보다는 우리가 적극적으로 찾아내고 기록해낸 것이다. 그런 점에서 모든 데이터는 사실상 캡터(capta), 즉 적극적으로 ‘취득한’(taken) 것으로 간주해야 한다(Drucker, 2011). 주어진 것이 아니라 취득한 것으로 데이터를 이해한다는 것은 우리의 지식 생산이 단지 이미 존재하는 자연적이고 객관적인 사실로 주어진 것이 아니라 상황적이고 부분적이며 구성적인 특성을 지니고 있다는 것을 인정한다는 것이다. 지식의 생산뿐만 아니라 다양한 산업적 가치의 생산도 자연적으로 주어진 것에서가 아니라 상황에 따라 구성하고 취득한 것에 기반하고 있다. 이 점을 인정하는 것은 우리가 데이터를 어떻게 간주하고 나아가 인간을 어떻게 이해하는지에 있어서 매우 결정적이다. 빅데이터, 사물인터넷, 플랫폼, 알고리즘, 인공지능 등, 오늘날 우리가 일상적으로 대면하는 대부분의 디지털 기술들은 원천적으로 사용자의데이터, 사용자에 관한 데이터, 사용자가 생산한 데이터, 사용자를 둘러싼 데이터를 적극적으로 취득함으로써 가능하다. 달리 말하면, 이 모든 기술들이 다루고 있으며 이 기술들에 제공되는(feed) 것은 본질적으로 인간이 의지를 가지고 취득한 데이터, 즉 캡터다.
우리 시대에 데이터는 현재적 쓸모뿐만 아니라 미래의 무한한 가능성으로서 주목을 받고 있다. 데이터는 지금의 디지털 중심의 경제와 산업에 있어서 중요한 자원(resource)로 간주된다. 데이터를 땅 속 깊은 곳에 묻혀있는 화석연료에 비유한 것인데, 채굴하여(mine) 추출하고(extract) 정제하면(refine) 여타 다른 산업의 기초 자원으로 사용될 수 있기 때문이다. 사회 곳곳에서 발생하는 데이터를 디지털화하여 수집, 축적, 분석, 가공하면 여러 디지털 산업의 원천 자원으로 사용할 수 있는 것이다. 데이터는 또한 이 시대의 새로운 통화(currency)로 불리기도 한다. 지금의 경제를 움직이는 원천이 되는 혹은 그것을 매개하는 주요한 수단이라는 점에서 그렇다. 데이터를 교환하는 과정에서 새로운 부가적 가치가 발생하기도 하고 축적된 데이터 자체는 또 하나의 상품으로서 기능하기도 한다. 또한 많은 데이터를 소유하고 있다면 그것을 어떤 다른 재화의 형태(혹은 재화로 교환할 수 있는 어떤 것)로 바꾸어 낼 수 있다. 디지털 데이터는 자원 혹은 상품이기도 하고 화폐 혹은 자본이 되기도 한다는 점에서 매우 특이한 존재론적 위상을 가진다.
그러나 데이터가 가지는 이 가치와 중요성은 어떻게 생기는 것일까? 우리는 원 데이터(raw data)가 있고 이것을 가공하여 우리가 생각하는 데이터, 즉 의미있는 정보가 발생한다고 흔히 생각한다. 그러나 리사 기텔만이 말하듯이, 원 데이터는 동어반복이다(Gitelman, 2013). 데이터는 그 자체로 데이터일 뿐, 그것이 날 것인지 가공된 것인지를 구분한다는 것이 무의미하다. 그야말로 앞서 표현한 것처럼 실제로 화석연료처럼 자연 상태의 데이터 자원을 발굴하고 캐내어서 가공하고 정제하여 우리가 사용하는 데이터를 만들어 내는 것이 아니다. 물론 원 데이터나 원료와 같은 비유 자체는 단순한 비유에 그치지 않고 매우 적절한 것임에도 불구하고, 데이터를 이해하는데 오해를 불러올 수 있다. 사실 데이터는 지식 생산(인식론)의 문제, 즉 그것을 이해하고 해석하는 과정에서 주관성의 문제와 밀접한 관련이 있다. 객관적으로 주어진 사실로서의 데이터로부터 의미(meaning)를 산출하는 과정은 데이터의 객관성과는 무관하다. 데이터는 또한 정보나 지식과도 다르다. 우선 데이터는 그 자체로 정보(information)가 아니다. 정보는 데이터를 분석하고 계산하거나 탐색한 결과에 따라 만들어진 어떤 의미를 가리키는데, 수많은 데이터를 축적하고 조합하고 분해하고 변형하고 맵핑하는 과정에서 정보가 생성되는 것이다. 또한 데이터는 그 자체로 지식(knowledge)이 아니다. 지식은 데이터로부터 도출한 정보의 분석을 통해 획득된 이해(understanding)를 구성한다. 인간 사회는 데이터를 통해 사회에 대한 지식을 산출하고 구성해낸다. 데이터는 그것으로부터 다양한 정보와 세상을 이해하는 지식을 자동적으로 추출해낼 수 있는 가공 이전에 존재하는 자원이 아니다. 그것은 다양한 사회 및 자연 현상에 대하여 사회(인간)가 이해하려는 순간, 해석의 과정을 시작한 순간 지식으로 구축된다. 데이터에 대한 이해는 결국 이 사회에 대한 이해, 이 사회를 구성하는 인간 집단에 대한 이해, 나아가 각 개개인에 대한 이해를 가능하게 한다. 데이터는 그 자체로 자명한 것이 아니다.
데이터가 이 사회에 대한 혹은 구성원 개개인에 대한 이해를 가능하게 해준다는 것은 그것이 생성해내는 패턴에 기반하여 미래를 예측하고 다양한 의사결정상의 문제를 해결할 수 있다는 것을 뜻한다. 우선 빅데이터라고 하는 매크로 데이터의 관점에서 보면 공동체 내의 모든 구성원의 데이터를 수확하여 그것으로부터 전체의 패턴을 추출해냄으로써 인구학적인 진리에 접근할 수 있다. 예컨대 서울시에 거주하는 50대 여성의 모든 데이터(생애 데이터, 구매 데이터, 활동 데이터 등)를 수집하여 그들에게 대체로 공통된 어떤 특성을 추출해내고 그것을 그 지역, 연령, 성별을 가진 이들의 평균적 특성이라고 분석해낼 수 있는 것이다. 물론 그것이 모든 이들에게 100% 적용되는 진리는 아니더라도 어림잡아 80% 정도에는 해당된다면 정책입안자들이나 행정가들은 정책을 결정하고 수행하는데 있어서 매우 참고할 만하다고 판단할 것이다. 물론 이것은 “빅데이터에 대한 신화”(Couldry, 2017)라고 부를 수 있다.
다른 한편으로 데이터는 매우 세밀한 수준에 이르기까지 개인의 패턴을 추출해낼 수도 있다. 그런 점에서 이를 마이크로 데이터의 관점이라고 칭할 수 있겠는데, 개인의 웹 검색, 전화 기록, 소비, 소셜 활동, 위치 데이터 등을 일정기간에 걸쳐 수집하고 분석하면 개인에 대한 거의 완벽한 프로파일을 작성해낼 수 있다. 민감한 개인정보와 사진 등이 결합되면 누구든 그 개인을 찾아내고 목표로 삼는데 손쉽게 이용될 수 있다. 이렇게 추출된 개인에 대한 매우 세밀한 정보는 개인의 정체성을 반영하고 따라서 개인의 행동이나 욕망을 예측하는데 활용된다. 마이크로 타게팅 광고는 이러한 개인의 프로파일을 마케팅에 적극 적용한다. 이처럼 데이터는 인구학적 수준에서 개별적인 수준에 이르기까지 인간과 사회의 모든 현상을 설명하고 해석하는데 유용한 것이며 나아가 필수적인 것으로 인식되고 있다.
참고문헌:
김상민, 「데이터와 더불어 데이터로 살아가기: 데이터 사회를 구성하는 믿음과 기술에 대한 비판적 이해」, 『데이터 시대의 언론학 연구』, 커뮤니케이션북스, 2017.
브루스 슈나이어, 이현주 옮김, 『당신은 데이터의 주인이 아니다』, 반비, 2016.
빅토르 마이어 쇤버거 · 케네스 쿠키어, 이지연 옮김, 『빅 데이터가 만드는 세상』, 21세기북스, 2013.
Johanna Drucker, “Humanities Approaches to Graphic Display”, Digital Humanities Quarterly 5(1): 2011.
Lisa Gitelman, “Raw data” is an oxymoron, MIT Press, 2013.
Nick Couldry, The myth of big data, In Schäfer, M. & van Es, K. (Eds.), The datafied society: Studying culture through data, Amsterdam University Press, 2017.
작성자: 김상민(한국예술종합학교 강사)