본문 바로가기

2014_2019/휘뚜루마뚜루

[빅데이터 인문학]-책에 실리지 않은 역자후기

미국 중서부의 주인 아이다호에는 아르코(Arco)라는 작은 마을이 있다. 미국 여행을 하면서 이곳을 지나가게 됐고, 캠핑을 하며 하룻밤을 머문 적이 있다. 이 마을은 1955년 세계 최초로 원자력 발전으로 생긴 전기로 불을 밝힌 마을이라는 이색적인 역사를 갖고 있다. 하지만 세계 최초로 원자력 발전으로 생산된 전기를 썼다는 건 그리 영광스런 역사는 아닌 것 같다. 이 마을이 외떨어져 있고 인구도 적었기 때문에 가능했던 일이었기 때문이다. 실제로 지금은 용도폐기됐지만 원자력을 홍보하기 위해 남겨 놓은 실험실을 방문했는데 몇시간을 차로 달려도 주변에 인기척이라곤 찾아볼 수 없었다. 내 아내는 이곳에 원자로가 설치됐던 이유를 알겠다면서 "여기선 지금도 뭔 짓을 해도, 생체실험을 해도 아무도 모르겠구먼"이라고 말했다.


이처럼 인구 1000명이 되지 않는 이 마을은 아이다호 특유의 황량하고 고즈넉한 풍경이었다. 때는 6월이었지만 밤이 되면 꽤 쌀쌀했다. 저녁을 지어먹은 다음 모닥불을 피우고 앉아 캔맨주를 홀짝거렸다. 그리고 무심결에 하늘을 올려다 봤다. 주변에 나무가 거의 없어 지형이 확 트인데다 공기까지 맑아서인지 하늘 가득 별천지였다.


밤 하늘을 올려다보며 감동에 젖다보니 문득 10년전, 100년전, 200년전 사람들은 이 자리에서 밤하늘을 올려다 보며 무슨 생각을 했을까 궁금해지기 시작한다. 비가 오거나 구름이 많이 끼지 않는한 이 자리에서 바라보는 밤하늘은 언제나 별이 가득했을 것이다. 은빛 모래를 뿌려놓은 듯한 밤하늘을 보면서 누군가는 신의 존재를 확신했을 수도 있을테고, 별들 사이에 선을 그어가며 별자리를 완성했을 수도 있겠다. 별들의 움직임을 관찰하며 인간사회와 자연의 길흉을 점치기도 했을 것이다. 그런데 그들의 생각을 어떻게 읽어낼 것인가?


인간은 물질과 자연이 작동하는 원리에 대해 무한한 호기심을 가진다. 그에 못지 않게 인간과 사회, 문화와 역사에 대해서도 깊은 탐구 욕구를 가진다. 이처럼 인간과 사회, 역사와 문화에 관한 진지한 관찰과 숙고는 인문학과 사회과학의 다양한 학문분야를 낳았다. 인문·사회과학은 공시성과 통시성을 동시에 공략한다. 연구자가 살고 있는 동시대의 제현상을 분석·비평하는 것이 공시적 연구라면, 과거를 돌아보고 현재를 비교·분석하는 것은 통시적 연구, 즉 역사에 관한 것이라 할 수 있다.


내가 번역해 며칠전 [빅데이터 인문학: 진격의 서막]이라는 제목으로 한국에 출간된 책 [Uncharted]를 처음 집어든 곳은 미국 동부 노스캐롤라이나 채플힐(Chapel Hill)이라는 작은 도시의 공공도서관이었다. 이 책을 처음 접한 것은 아르코의 밤하늘을 올려다보기 전이었다. 알다시피 'uncharted'는 '전인미답'으로 해석된다. '지도가 그려지지 않은'이라는 뜻도 있다. 이 책에 그래프가 다수 소개되고 있으니 말그대로 '그래프가 그려지지 않은'이라는 뜻으로 읽을 수도 있겠다. 이 책을 읽은 뒤 아르코에 가게 됐는데, 그곳의 황량한 대지와 별이 가득한 밤하늘은 전인미답이라는 단어를 자꾸 생각나게 했던 것이다.


'구글이 디지털화 한 800만권의 책에서 추출한 빅데이터를 분석한 책'이라는 설명만으로도 이 책의 성격을 대강 가늠할 수 있겠지만 '빅데이터 인문학'이라는 한국어 책 제목처럼 원저자들의 포부는 훨씬 원대하다. "긴 시간에 걸친 문화적 변화를 추적할 수 있게 해"(번역서 71쪽)주는 관측도구를 만드는 것이 이들의 포부였다. 이들의 포부는 이들이 만든 신조어 '컬처로믹스(Culturomics)'에도 담겨 있다. 저자들은 컬처로믹스를 '디지털화된 텍스트의 양적 분석을 통한 인간 행동과 문화 트렌트 연구'라고 정의한다.


저자들의 접근법을 거칠게 요약하면 다음과 같다. 인간은 문자의 발명 이후 다양한 형태로 지식과 문화를 기록했다. 인류가 남긴 기록은 인류 역사의 발자취에 다름 아니다. 특히 책에는 인류 역사와 문화가 담겨 있다는 데에는 이론의 여지가 없다. 그런데 집합적인 의미의 책에 담긴 인류 역사와 문화가 어떤 것이고, 어떻게 변천해 왔는지에 대해선 해석들이 다르다. 책에 인류 문화와 역사가 담겨 있는 것은 사실이겠으나 어떤 책을 읽느냐, 어떤 방식으로 해석하느냐에 따라 시각이 달라질 수 있기 때문이다.


그렇다면 문제는 책을 어떻게 읽을 것이냐다. 아무리 책을 좋아하고 빨리 읽는다 하더라도 한사람이 읽을 수 있는 책의 양은 물리적으로 한계가 있다. 예를 들어 구글은 지금까지 3000만권이 넘는 책들을 디지털화 했다고 하는데 "만약 인간이 읽으려고 시도한다면 합리적인 속도인 분당 200단어씩, 밥을 먹거나 잠을 자기 위해 중단하는 일 없이 읽는다고 해도 총 1만2000년이 걸릴 것"(번역서 75쪽)이다. 사람은 죽기 전에 책을 3000만권은 커녕 3000권 읽기도 쉽지 않다.


3000만권을 디지털화 했다는 것은 그 방대한 텍스트를 컴퓨터로 읽을 수 있다는 가능성을 뜻한다. 물론 컴퓨터로 책을 읽는다는 것은 사람이 읽는 방식과는 다르다. 컴퓨터로 책 읽기의 가장 단순한 방법은 단어 빈도 추출이다. 예를 들어 우리가 아래아 한글 문서를 작성하거나 남이 쓴 문서를 봤을 때 콘트롤 자판과 Q, F자판을 한꺼번에 누르면 '찾기' 기능이 뜬다. 검색창에 특정 단어를 입력하고 '모두찾기'를 클릭하면 해당 단어의 빈도가 나타난다. 저자들이 개발한 '구글 엔그램 뷰어'는 거칠게 말해 워드프로세서의 '찾기' 기능을 거대한 데이터에 적용한 것에 다름 아니다.


예를 들어 영어로 쓰인 책에는 '남자(men)'와 '여자(women)'가 얼마나 쓰였을까? '천국(heaven)'과 '지옥(hell)'은 어떨까? '자본주의(capitalism)'와 '사회주의(socialism)'은? 그래프에서 가로축은 시간의 흐름을, 세로축은 해당 연도에 발행된 책 전체에서 해당 단어가 언급된 빈도를 뜻한다. 멋지지 않은가?





사실 우리는 이런 방식의 그래프를 하루에도 수없이 접하기에 전혀 낯설지 않다. 2차원의 그래프는 이미 초등학생 시절 배운다. 그런데 구글 엔그램 뷰어가 그려내는 그래프는 모양 자체가 부드럽고 우아한데다 놀랍다.


이 그래프들이 놀라운 이유는 세가지다. 먼저 데이터의 양이 매우 방대하다. 800만권의 책이 어느 정도 규모인지 상상이 되는가? 한국에서 가장 큰 도서관은 국립중앙도서관과 국회도서관일 것이다. 그런데 국립중앙도서관은 올해 중반쯤 장서수가 600만권을 돌파할 예정이라고 한다.


둘째, 구글 엔그램 데이터는 '롱 데이터'이다. 지금 우리는 인터넷, 디지털이라는 용어는 지겹도록 듣고 있고 상상을 초월할 정도의 디지털 정보가 매순간 생산돼 쌓이고 있지만 사실 본격적이고 전면적인 디지털화의 역사는 그리 길지 않다. 자연적으로 생성된 디지털 데이터는 길어봐야 40~50년쯤 될까? 그 한계를 넘어서면 디지털 데이터의 양은 급감한다. 그런데 구글 엔그램 뷰어의 데이터는 서기 1800년으로 거슬러 올라간다. 구글이 디지털화한 모든 책을 대상으로 하면 그 시기는 훨씬 더 오래 전으로 올라갈 것이다.


셋째, 포괄하는 양과 시간의 방대함보다 더 중요한 특징은 구글 엔그램 뷰어의 데이터가 바로 책을 축적했다는 것이다. 책은 주요 목적이 오락인 경우라 하더라도 그 오락거리를 즐겼던 당시 사람들의 생각이 담겨 있다. 그리고 모든 책들은 분야가 무엇이건, 권위가 있건 없건 당대의 지식과 문화를 담고 있다. 앞서 말했듯 책에는 인류의 지혜가 담겨 있다고 하지 않던가. 구글 엔그램 뷰어는 그 책들을 기계적인 방식으로 읽어낸다. 이게 뭐 그리 대단할까 싶을 수도 있겠다. 다시 한번 그래프를 보자.







150~200년 동안 영어로 쓰인 책에서 이런 단어가 이러저러한 빈도로 쓰였다는 것을 직접 눈으로 보는 것은 환상적일 수 밖에 없다. 과장해서 말하자면 인류 문화가 진화하는 모습을 목격하는 것이라고나 할까? 다시 말해 일찌기 리처드 도킨스가 제안한 문화 유전자 '밈(Meme)'이 자연선택되거나 도태되는 장면을 직접 목격하는 것에 다름 아니다.


직접 목격할 수 있는 증거의 힘은 강력하다. 미국 아이다호 아르코에서 차로 6시간30분쯤 남쪽으로 달리면 공룡국립기념공원(Dinosaur National Monument)이라는 곳이 나온다. 콜로라도와 유타 양쪽에 자리잡은 이곳에 가면 거대한 암석에 박혀 있는, 발굴하다가 만 공룡 화석들을 눈으로 보고 손으로 만져볼 수 있다. 가로 수십미터, 세로 십미터 정도 되는 벽면에 공룡의 뼈 화석들이 빼곡하게 들어차 있다. 공룡들의 무덤인 셈이다.


지금은 몇 안되는 화석으로만 만날 수 있는 공룡은 무한한 상상력을 자극한다. 그토록 거대한 생물체를 우리가 볼 수 있는 기회는 거의 없다. 그리고 공룡은 한꺼번에 멸종했다는 점에서 미스터리하다. 지금 우리는 소행성 또는 운석 충돌이 공룡 멸종의 원인이었다는 가설을 상식처럼 알고 있다. 그런데 원래 공룡 멸종에 관한 가설은 너무나도 다양했었다. 그도 그럴 것이 인간의 시간 관념으로는 상상하기도 어려울 정도로 오래전 지구상에 번성했다가 거의 한순간에 그 많은 생명체가 사라져 버린 이유를 추론하기란 쉬운 일이 아니다. 노아의 방주에 올라탈 자리가 없어서 수장됐다거나, 외계인이 침략해 멸종시켰다는 가설이 나오지 말란 법이 없는 것이다.


소행성 또는 거대 운석에 의한 공룡 멸종설이 지금처럼 '정상이론'의 자리를 차지하게 된 것은 시간적으로 얼마 되지 않는다. 1972년 미국의 알바레즈 부자(물리학자인 아버지 루이스 월터 알바레즈와 지질학자인 아들 월터 알바레즈)는 백악기 지층과 신생대 3기 지층 사이에서 'K-T 경계층'이라는 것을 발견했다. 6500만년 전 쯤 형성된 이 층의 위층에서는 공룡 화석이 하나도 발견되지 않았다. 즉, 공룡 멸종의 경계선인 셈이다. 지구 전 지역에서 관찰되는 1~3센터미터 정도의 얇고 붉은 점토층인 K-T 경계층에서는 이리듐이라고 불리는 원자번호 77번의 원소들이 많이 검출된다. 이리듐은 무거운 원소라서 지구 형성 초기에 이미 중력으로 인해 지구 내부로 가라 앉았기 때문에 지각에선 별로 발견되지 않는다고 한다. 알바레즈 부자는 K-T 경계층이 만들어지던 시절 소행성이나 거대 운석이 지구를 강타했고 이 때 우주에서 이리듐 원자도 함께 유입됐을 것이라고 추론했다. 이들은 1980년 이 가설을 발표했다. K-T 경계층이라는 눈에 보이는 증거를 중심으로 한 이들의 가설에 결정적인 힘을 더해준 것은 1991년 멕시코 유카탄 반도 칙슐룹이라는 곳에서 발견된 지름 200킬로미터의 분화구였다. ([과학하고 앉아있네 ①이정모의 공룡과 자연사](원종우·이종모 지음/동아시아) 54~59쪽 참조)


구글 엔그램 뷰어는 K-T 경계층과 유카탄 반도에서 발견된 초대형 분화구가 공룡 멸종 원인에 관한 다양한 가설들을 제압하고 '증거'에 입각해 정상이론을 이끌어냈듯 인류 문화사에 대한 '정상이론'을 이끌어 낼 도구가 될 수 있을 것인가? 실제로 저자들은 영어 불규칙 동사의 변동성을 계산해 일정 시점이 지난 뒤 어떤 동사들이 계속 불규칙으로 남아 있을지 계산해 냈고, 유명인사들이 몇살에 유명해지기 시작해 몇살에 전성기에 도달하는지 등을 추적해 냈다. 책에는 나치의 검열의 증거를 명징하게 보여주는 그래프도 등장한다.


아마도 철저히 정량적인 분석에 치중하는 미국식 연구방법론에 거부감을 보이는 인문학자들은 이런 접근방식이 무척 못마땅할 것이다. 그러나 다시 한번 말하지만 시각화의 힘은 강력하다. 농담 삼아 예를 들어보자면 초등학교 4학년 내 아들 반에서는 조별로 역할을 나눠 논쟁을 하는 시간이 있었다고 한다. 논쟁의 주제는 진화론이었다. 요새 초등학교에서는 이런 고차원적 주제로 '토론배틀'을 시킨다는 게 놀라웠다. 여하튼 내 아이는 자기가 속한 팀이 진화론 쪽일 때도 이겼고, 역할을 바꿔 창조론을 지지하는 쪽이었을 때도 이겼다면서 자기가 진화론을 한마디로 박살냈다고 득의양양해 했다. 내 아들이 한 말은 "생물이 실제로 진화하는 모습을 눈으로 직접 본 사람이 있느냐?"였다고 한다.


국내에선 일단 [빅데이터 인문학]이라는 한국어 책 제목부터 시비가 붙을 수 있다. 기존의 사고 방식으로는 '빅데이터'와 '인문학'이라는 조어 자체가 아무래도 어울리지 않는다.


그러나 빅데이터와 인문학이 동시에 운위되는 빈도 또한 높아지고 있는 것이 사실이다. 전사회적으로 빅데이터의 열풍이 이미 시작됐고, 학계에서도 빅데이터를 이용한 연구논문들이 속속 제출되고 있어 연구자들도 관심(혹은 압박)이 많다. 이에 대해선 책 말미에 실린 한국 학자 및 빅데이터 전문가의 대담이 많은 참고가 된다.


현재 국내에서 빅데이터와 인문학이 동시에 언급되는 것은 두가지 갈래인 듯 하다. 하나는 무미건조한 수치와 통계의 나열인 빅데이터 분석에 살을 붙이고 우리가 쓸만한, 혹은 이것을 이용해 돈을 벌만한 것으로 만들려면 그 데이터를 만들어낸 인간에 대한 이해가 전제되어야 한다는 것이다. 즉, 빅데이터를 제대로 사용하기 위해선 인문학적 소양이 필요하다는 지적이다. 아직까지 빅데이터와 인문학이 만나는 지점은 이것이 주를 이루고 있다.


그러나 [빅데이터 인문학: 진격의 서막]이 제시하는 빅데이터와 인문학의 만남은 전혀 다른 차원이다. 인문학을 빅데이터 방식으로 분석하는 것이다. 아니 인문학 자체가 빅데이터가 될 수 있다는 것이다.


이 전략이 얼마나 성공적이고 얼마나 많은 성과를 거둘지 점치기는 아직 이르다. 그러나 저자들이 말하듯 인류 문화를 들여다보는 전혀 새로운 방식의 렌즈가 우리 앞에 모습을 드러낸 것만은 확실하다. 그마저도 인정하기 싫은 사람도 있을 수 있겠다. 하지만 그런 사람이라 하더라도 구글 엔그램 뷰어에 한번 들어가 보라. 최소한 아주 재미난 장난감이 생겼다는 사실까지는 부인하지 못하리라.


저자들이 처음으로 엔그램 뷰어 구동에 성공한 다음 와인을 따면서 울린 '펑' 소리와 함께 새로운 역사는 시작됐다.


빅데이터 인문학 : 진격의 서막 - 10점
에레즈 에이든 외 지음, 김재중 옮김/사계절