폴더관리
폴더명
스크랩

[에디토리얼] 빅데이터 인문학
Editorial: Big Data as a Lens on Human Culture
  • 환경과조경 2015년 9월

그림19.png

 

가을을 여는 첫 페이지다. 산들바람 같은 글감이 없을까 한참을 고민했지만 9월호를 마감하고 있는 지금은 아직 한여름 폭염의 절정이다. 청량한 가을 맞이 에디토리얼을 쓰기에는 더워도, 너무, 덥다. 독자 여러분은 숨 막히는 무더위를 무엇으로 이겨내셨는지. 부지런하다면 이번 호 특집으로 소개하는 ‘경의선숲길’이라도 거닐며 여름밤의 후끈한 기운을 즐기겠지만, 밖에 나가 몸 쓰기를 천성적으로 싫어하는 나에겐 가만히 앉거나 누워 뒹굴며 닥치는 대로 책 읽기가 최선의 피서 방법이다. 아니 책장 넘기기가 더 정확한 표현일지도 모르겠다. 며칠째 산만한 잡식성 독서를 이어가다 연초에 샀으나 묵혀두었던 노란색 표지의 책 한 권에서 모처럼 몰입의 기쁨을 경험할 수 있었다. 수학, 진화생물학, 언어학, 컴퓨팅을 넘나드는 젊은 과학자 에레즈 에이든Erez Aiden과 장바티스트 미셸Jean-BaptisteMichel이 지은 『빅데이터 인문학: 진격의 서막』(사계절, 2015).

『빅데이터 인문학』은 “인문학이 인간을 바라보는 방식의 혁명적 전환을 제안”하며 두 저자가 개발한 프로그램인 ‘엔그램 뷰어Ngram Viewer’에 대한 책이다. 빅데이터는 이제 낯설지 않은 용어다. 현재 보통 사람의 데이터 발자국, 즉 전 세계적으로 한 사람이 연간 만들어내는 데이터의 양은 거의 1테라바이트에 가깝다고 한다. 이것은 약 8조 개의 예-아니오 질문(1비트)과 맞먹는 양이다. 빅데이터는 더 커지고, 더 커지고, 더 커지는 중이다. 단순히 정보량이 많다는 뜻이 아니다. 빅데이터는 이전 방법으로는 ‘다루기에 너무 크다too big to handle’는 개념에서 나온 말이다. 두 저자는 넘쳐나는 데이터, 즉 디지털 지문을 분석하여 인류의 역사와 문화를 새롭게 볼 수 있는 렌즈를 고안했다. “인간 문화의 역사적 변화를 관찰하는 새로운 도구”임을 자처하는 ‘엔그램 뷰어’는 검색창에 특정 단어를 입력하면 단1초 만에 800만 권의 책을 검색해 그 단어가 지난 500년간 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 즉 어떤 단어가 지구상의 거의 모든 책에 매해 몇 회 등장했는지 그 결과를 빈도로 변환시켜 시각화해서 알려주는 놀라운 도구다. 쉼표를 사용해 여러 단어를 함께 입력하면 그 단어들의 사용 빈도를 동시에 비교해 볼 수도 있다.

언어는 인간의 생각과 욕망을 대변하고, 언어를 집적한 기록이 책이다. 엔그램 뷰어에 쓰인 800만 권의 책은 2004년부터 추진되고 있는 ‘구글 북스’ 프로젝트에서 추려낸 것이다. 구글은 이 세계의 모든 책을 디지털화한다고 선언한 후 지구상에 존재하는 1억 3000만 권 가운데 3000만 권 이상의 책을 스캔하여 디지털 텍스트로 만들었고, 2020년이면 이 거대 프로젝트가 완결될 전망이다. 에이든과 미셸은 이 방대한 자료를 1초 만에 읽어주는 독서왕 로봇을 만들어낸 셈이다. 만약 인간이 밥을 먹거나 잠을 자기 위해 중단하는 일 없이 분당 200단어씩

읽는다면 총 1만 2000년이 걸릴 분량을 순식간에 무료로 읽어준다.

충분한 설명이 됐는지 모르겠다. 무협지 이상으로 재미있지만 그래도 책 읽기가 번거롭다면 지금 바로 웹 브라우저 주소창에 books.google.com/ngrams를 쳐보시길 권한다. 직사각형 검색창에 관심 있는 어떤 단어를 넣고 엔터키를 누르기만 하면 엔그램 뷰어의 놀라움을 실감할 수 있다. 아마 많은 독자들이 landscape를 넣어보실 것 같다. 언제부터 경관이라는 단어가 책에 등장했는지, 어느 시기에 이 단어의 사용이 급증했는지, 지금은 어떤지, 그 빈도의 추이를 명징하게 보여주는 그래프가 뜬다. 랜드스케이프 가드너와 랜드스케이프 아키텍트를 비교해 보는 분도 적지 않을 것 같다. 쉼표를 사이에 두고 landscape gardener와 landscape architect를 넣으면, 전자는 1770년대에 처음 등장하고 후자는 1850년대에 처음 쓰이는데 1910년대를 기점으로 둘의 사용 빈도가 완전히 역전됨을 쉽게 알 수 있다.

엔그램 뷰어에 따르면 내가 태어난 1968년부터 ‘커피’가 ‘차’를 앞질렀다. 도넛의 철자가 doughnut에서 donut으로 변하기 시작한 건 던킨도너츠Dunkin’ Donuts가 창립된 1950년대부터라고 한다. 지난 2세기 동안 태어난 사람 가운데 가장 유명한―물론 여기서 ‘유명한’은 책에 이름이 가장 많이 등장했다는 뜻이다― 사람 열 명은 히틀러, 마르크스, 프로이트, 레이건, 스탈린, 레닌, 아이젠하워, 찰스 디킨스, 무솔리니, 바그너 순이다. 일주일째 나는 이 강력한 장난감에 별의별 단어를 다 입력해 보고 있다. 당연히 19금 단어들도 넣어 본다. 조경사 연구에 뭔가 단서를 얻을까 싶어 18세기 조경가들의 이름을 쳐 본다. 그냥 이유 없이 이안 맥하그와 피터 워커를 비교해 본다. 환경미학과 환경윤리학은 환경철학의 부분 집합이라는 게 교과서의 설명이지만, 입력해 보니 환경윤리학의 출현 빈도가 환경철학의 세 배 이상이다. 한여름 무더위는 물론 소중한 점심시간도 잊게 해주는 중독성 강한 장난감이다. 데이터 세트를 다운받으면(books.google.com /ngrams/datasets) 시각화된 그래프를 통해 대강의 감을 잡는 것을 넘어 상세한 통계 분석도 할 수 있다.

저자들은 엔그램 뷰어에 대한 폭발적 반응에 이렇게 능청을 떤다. “우리는 이 시간 집어먹는 괴물을 만든 데 대해 모든 이에게 사과하고 싶다. 사람들이 그토록 많은 시간을 허비하도록 하는 것은 결코 우리의 의도가 아니었다. 방법이 있기만 하다면 우리는 생산성 저하로 야기된 모든 손해를 원상복구하고 싶다.” 엔그램 뷰어는 누구나 가지고 놀 수 있는 빅데이터 장난감에 불과할 수도 있지만, 저자들이 “컬처로믹스culturomics”라고 말하듯, 그 목표는 “빅데이터를 통해 언어, 개념, 문화의 진화를 탐구하는 인문학”이다. 물론 우리가 인문학적 상상력에 바탕을 둔 적확한 질문을 던질 수 있어야 이 피서용 장난감은 빅데이터의 힘을 발휘할 수 있을 것이다. 책의 원제는 ‘Uncharted’, 말 그대로 ‘전인미답’이다.

월간 환경과조경, 무단전재 및 재배포를 금지합니다.

댓글(0)