[에디토리얼] 빅데이터 인문학
Editorial: Big Data as a Lens on Human Culture
가을을 여는 첫 페이지다. 산들바람 같은 글감이 없을까 한참을 고민했지만 9월호를 마감하고 있는 지금은 아직 한여름 폭염의 절정이다. 청량한 가을 맞이 에디토리얼을 쓰기에는 더워도, 너무, 덥다. 독자 여러분은 숨 막히는 무더위를 무엇으로 이겨내셨는지. 부지런하다면 이번 호 특집으로 소개하는 ‘경의선숲길’이라도 거닐며 여름밤의 후끈한 기운을 즐기겠지만, 밖에 나가 몸 쓰기를 천성적으로 싫어하는 나에겐 가만히 앉거나 누워 뒹굴며 닥치는 대로 책 읽기가 최선의 피서 방법이다. 아니 책장 넘기기가 더 정확한 표현일지도 모르겠다. 며칠째 산만한 잡식성 독서를 이어가다 연초에 샀으나 묵혀두었던 노란색 표지의 책 한 권에서 모처럼 몰입의 기쁨을 경험할 수 있었다. 수학, 진화생물학, 언어학, 컴퓨팅을 넘나드는 젊은 과학자 에레즈 에이든Erez Aiden과 장바티스트 미셸Jean-BaptisteMichel이 지은 『빅데이터 인문학: 진격의 서막』(사계절, 2015).
『빅데이터 인문학』은 “인문학이 인간을 바라보는 방식의 혁명적 전환을 제안”하며 두 저자가 개발한 프로그램인 ‘엔그램 뷰어Ngram Viewer’에 대한 책이다. 빅데이터는 이제 낯설지 않은 용어다. 현재 보통 사람의 데이터 발자국, 즉 전 세계적으로 한 사람이 연간 만들어내는 데이터의 양은 거의 1테라바이트에 가깝다고 한다. 이것은 약 8조 개의 예-아니오 질문(1비트)과 맞먹는 양이다. 빅데이터는 더 커지고, 더 커지고, 더 커지는 중이다. 단순히 정보량이 많다는 뜻이 아니다. 빅데이터는 이전 방법으로는 ‘다루기에 너무 크다too big to handle’는 개념에서 나온 말이다. 두 저자는 넘쳐나는 데이터, 즉 디지털 지문을 분석하여 인류의 역사와 문화를 새롭게 볼 수 있는 렌즈를 고안했다.“인간 문화의 역사적 변화를 관찰하는 새로운 도구”임을 자처하는 ‘엔그램 뷰어’는 검색창에 특정 단어를 입력하면 단1초 만에 800만 권의 책을 검색해 그 단어가 지난 500년간 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 즉 어떤 단어가 지구상의 거의 모든 책에 매해 몇 회 등장했는지 그 결과를 빈도로 변환시켜 시각화해서 알려주는 놀라운 도구다. 쉼표를 사용해 여러 단어를 함께 입력하면 그 단어들의 사용 빈도를 동시에 비교해 볼 수도 있다.
언어는 인간의 생각과 욕망을 대변하고, 언어를 집적한 기록이 책이다. 엔그램 뷰어에 쓰인 800만 권의 책은 2004년부터 추진되고 있는 ‘구글 북스’ 프로젝트에서 추려낸 것이다. 구글은 이 세계의 모든 책을 디지털화한다고 선언한 후 지구상에 존재하는 1억 3000만 권 가운데 3000만 권 이상의 책을 스캔하여 디지털 텍스트로 만들었고, 2020년이면 이 거대 프로젝트가 완결될 전망이다. 에이든과 미셸은 이 방대한 자료를 1초 만에 읽어주는 독서왕 로봇을 만들어낸 셈이다. 만약 인간이 밥을 먹거나 잠을 자기 위해 중단하는 일 없이 분당 200단어씩
읽는다면 총 1만 2000년이 걸릴 분량을 순식간에 무료로 읽어준다.
충분한 설명이 됐는지 모르겠다. 무협지 이상으로 재미있지만 그래도 책 읽기가 번거롭다면 지금 바로 웹 브라우저 주소창에 books.google.com/ngrams를 쳐보시길 권한다. 직사각형 검색창에 관심 있는 어떤 단어를 넣고 엔터키를 누르기만 하면 엔그램 뷰어의 놀라움을 실감할 수 있다. 아마 많은 독자들이 landscape를 넣어보실 것 같다. 언제부터 경관이라는 단어가 책에 등장했는지, 어느 시기에 이 단어의 사용이 급증했는지, 지금은 어떤지, 그 빈도의 추이를 명징하게 보여주는 그래프가 뜬다. 랜드스케이프 가드너와 랜드스케이프 아키텍트를 비교해 보는 분도 적지 않을 것 같다. 쉼표를 사이에 두고 landscape gardener와 landscape architect를 넣으면, 전자는 1770년대에 처음 등장하고 후자는 1850년대에 처음 쓰이는데 1910년대를 기점으로 둘의 사용 빈도가 완전히 역전됨을 쉽게 알 수 있다.
엔그램 뷰어에 따르면 내가 태어난 1968년부터 ‘커피’가 ‘차’를 앞질렀다. 도넛의 철자가 doughnut에서 donut으로 변하기 시작한 건 던킨도너츠Dunkin’ Donuts가 창립된 1950년대부터라고 한다. 지난 2세기 동안 태어난 사람 가운데 가장 유명한―물론 여기서 ‘유명한’은 책에 이름이 가장 많이 등장했다는 뜻이다― 사람 열 명은 히틀러, 마르크스, 프로이트, 레이건, 스탈린, 레닌, 아이젠하워, 찰스 디킨스, 무솔리니, 바그너 순이다. 일주일째 나는 이 강력한 장난감에 별의별 단어를 다 입력해 보고 있다. 당연히 19금 단어들도 넣어 본다. 조경사 연구에 뭔가 단서를 얻을까 싶어 18세기 조경가들의 이름을쳐 본다. 그냥 이유 없이 이안 맥하그와 피터 워커를 비교해 본다. 환경미학과 환경윤리학은 환경철학의 부분 집합이라는 게 교과서의 설명이지만, 입력해 보니 환경윤리학의 출현 빈도가 환경철학의 세 배 이상이다. 한여름 무더위는 물론 소중한 점심시간도 잊게 해주는 중독성 강한 장난감이다. 데이터 세트를 다운받으면(books.google.com /ngrams/datasets) 시각화된 그래프를 통해 대강의 감을 잡는 것을 넘어 상세한 통계 분석도 할 수 있다.
저자들은 엔그램 뷰어에 대한 폭발적 반응에 이렇게 능청을 떤다. “우리는 이 시간 집어먹는 괴물을 만든 데 대해 모든 이에게 사과하고 싶다. 사람들이 그토록 많은 시간을 허비하도록 하는 것은 결코 우리의 의도가 아니었다. 방법이 있기만 하다면 우리는 생산성 저하로 야기된 모든 손해를 원상복구하고 싶다.” 엔그램 뷰어는 누구나 가지고 놀 수 있는 빅데이터 장난감에 불과할 수도 있지만, 저자들이 “컬처로믹스culturomics”라고 말하듯, 그 목표는“빅데이터를 통해 언어, 개념, 문화의 진화를 탐구하는 인문학”이다. 물론 우리가 인문학적 상상력에 바탕을 둔 적확한 질문을 던질 수 있어야 이 피서용 장난감은 빅데이터의 힘을 발휘할 수 있을 것이다. 책의 원제는 ‘Uncharted’, 말 그대로 ‘전인미답’이다.