본문 바로가기

2014_2019/휘뚜루마뚜루

빅데이터로 보는 언어의 진화

1월말에 <빅데이터 인문학>이 출간됐으니 사실상 이 책으로 올해를 시작했는데 벌써 10월 말로 흐르고 있다. 이 책 번역을 하느라 생전 취재만 하던 대담에 사회자로 참여해보기도 하고, 나보다 훨씬 학식이 높으신 분들 앞에서 강연을 해보기도 했다.


쑥스러워서 친척이나 지인들에게 이 책을 번역했노라 널리 알리진 않았는데, 시간이 흐르면서 직간접적으로 이 책을 접한 지인들이 전화를 해오곤 한다. 며칠전에도 좀 늦은 저녁 회사 대 선배로부터 전화가 왔다. 대뜸 "네가 <빅데이터 인문학>을 번역했니?"라고 물었다. 그렇다고 말씀드렸더니 "정말인 모양이네"라는 말이 들려왔다. 술을 겸한 저녁자리였는데, 내가 이 책을 번역했단 사실을 아는 분이 내 얘길 꺼냈던 모양이었다. 여하튼 그 자리엔 다른 분들도 여럿 있었다 하는데 그 덕분에 책이 몇권 팔렸을 것이다.^^


추석 전에 현대자동차 사외보를 제작하는 곳에서 원고청탁이 왔다. 10월호의 테마가 '언어'인데 그중 한꼭지로 '빅데이터로 보는 언어의 진화'를 써달라는 것이었다. 내가 항상 잊지 않기위해 유의하는 게 '나는 빅데이터 관련 서적을 번역했을뿐 내가 빅데이터 전문가는 아니다'라는 사실이다. 이 점을 명확히 설명하고 청탁을 수락했다. 얼마전 책자가 왔는데, 이 잡지 자체가 '비주얼'을 상당히 신경쓰는 잡지여서인지 예쁘게 편집이 됐다.


글을 쓸 때마다 정갈한 글을 쓴다는 게 얼마나 어려운 일인지 절감하게 된다. 내공이 많이 부족하다는 자각도 함께 한다.


빅데이터로 보는 언어의 진화

 

언어의 변천을 보여주는 로봇의 등장

 언어의 특성 중 하나는 변화성이다. 상식적으로 500년 전의 우리 조상과 2015년의 우리가 만났을 때 단번에 의사소통이 원활하게 이뤄지기는 어려울 것이다. 그런데 이처럼 언어가 변화한다는 사실을 아는 것과 그 변화의 내용, 방향, 의미를 이해하는 것은 별개의 문제다. ‘날씨는 변한다는 사실을 안다는 것과 날씨의 변화 원리를 이해하고 앞으로 날씨가 어떻게 변화할 것인지를 예측하는 것은 별개의 사안인 것과 같은 이치다.

 우리는 왜 언어의 변화를 궁금해 하는 것일까? 사람들이 의사소통을 하기 위한 핵심 수단인 언어는 인류 문화를 총체적으로 연구할 수 있게 해주는 거대한 소우주와 같다. 화석이 공룡을 연구하는 학자들의 주요 연구 대상이듯 언어와 문화의 변화를 추적하는 학자들은 방대한 문헌 기록 속에서 언어의 변화, 그리고 문화의 변화에 대해 많은 것들을 밝혀냈다. 그런데 디지털 기술이 발달하면서 인류 문화의 무궁무진한 보물 창고인 책을 새롭게 읽는 방법이 가능해졌다. 제 아무리 책 읽기에 이골이 난 뛰어난 학자들이라 할지라도 한평생 읽을 수 있는 책이 얼마나 될까? 1만권? 2만권? 사람은 죽기 전에 책 3000권을 읽기도 쉽지 않다. 그러나 여기 클릭 한 번으로 800만권을 읽을 수 있는 로봇 독서가가 있다. 필자가 번역한 책 <빅데이터 인문학>(원제 <Uncharted>)이 소개하는 구글 북스의 앤그램 뷰어(Ngram Viewer)’가 주인공이다.

 

단순 사실들이 보여주는 언어의 역사

 구글의 공동 창업자 래리 페이지(Larry Page)2002년 전세계 도서관에 있는 책들을 스캔해 디지털화 하겠다는 목표를 천명했다. 그 이후 3000만권을 디지털화 했으며, 이 프로젝트는 계속 진행중이다. 2010년 처음 모습을 드러낸 앤그램 뷰어는 구글 북스 프로젝트로 축적된 데이터를 분석해 결과를 보여주는 도구다. 800만권의 출판물을 데이터 베이스로 삼아 지난 200년간 출판된 책과 잡지 등에 특정 단어들이 특정 시기에 얼마나 많이 쓰였는지를 눈 깜짝할 사이에 보여준다.

 앤그램 뷰어는 개별 단어들이 사용된 단순 빈도를 보여준다. 몇 가지 구체적인 사례를 보자. 사람들이 자본주의(capitalism)’사회주의(socialism)’ 가운데 어떤 것을 더 많이 사용해왔는지, ‘천당에 간다(go to heaven)’는 말과 지옥에 간다(go to hell)’는 말 가운데 어떤 것이 더 자주 쓰였는지, 책에 과학(science)’라는 단어와 종교(religion)’라는 단어 가운데 어떤 것이 더 자주 등장했는지를, 지난 200년간의 시간의 흐름에 따라 일목요연하게 보여준다. 한국(Korea), 중국(China), 일본(Japan)의 사용빈도나, 피자(pizza)와 스파게티(spaghetti)의 사용 빈도를 비교해 볼 수 있다. 1800년 이래로 170년이 넘도록 인류는 암(cancer) 보다 열(fever)에 대해 더 자주 이야기했으나, 1973년 역전돼 2000년에 이르러선 암이 열에 비해 3배나 더 자주 언급됐다는 사실도 앤그램 뷰어의 빅데이터 분석이 보여주는 것 가운데 하나다.

 

인류의 두뇌를 스캔할 수 있는 하나의 툴

  우리는 사회가 복잡해지면서 새로 사용되는 용어들이 많아졌다고 직관적으로 느낀다. 실제로 그럴까? 1900~1950년 사이 영어로 출판된 책에 사용된 어휘의 전체 규모는 55~60만개 사이에 머물렀다. 그런데 1950년을 기점으로 영어 어휘의 규모는 크게 늘어난 것으로 밝혀졌다. 2000년 현재 영어 어휘의 규모는 1950년에 비해 2배 가까이 늘었다고 한다. 매일 20개 이상, 매년 8400개 가량의 새로운 단어가 영어 어휘 목록에 추가되고 있다는 것이다. 그렇다면 영어 어휘가 언제까지 이렇게 늘어날 것인가? 이 질문은 학자들이 매달려 있는 주제이다.

 이쯤되면 눈치 빠른 독자들은 빅데이터가 보여주는 언어의 진화는 대체로 수량, 즉 숫자 세기에서 출발한다는 것을 알았을 것이다. 빅데이터는 엄밀히 말하자면 01의 조합으로 변환된 전자적 정보의 집합이다. 구글 북스는 책이라는 대표적인 아날로그 방식의 저장매체에 기록된 정보를 막대한 자금과 시간을 들여 전자적 정보로 변환시킨 것이다. 사실 구글 북스가 구축한 빅데이터가 보여주는 언어의 변화상은 경천동지할 것들은 아니다. 학자들의 연구 결과나 일반인의 상식에서 크게 벗어나지는 않으며, 빅데이터가 만능은 아니라는 것이다. 그러나 막대한 데이터에서 나타나는 수량적 변화를 가지고 추적한 언어의 변화를 눈으로 목격한다는 것은 매우 흥분되는 일임은 분명하다. 화성에 도착한 탐사로봇이 보내온 화성의 모습이 우리가 상상했던 것과 크게 다르지 않는데도, 우리는 눈에 들어오는 화성의 지표면을 보고 감격한다.

 빅데이터를 통해 언어의 진화를 추적하는 작업은 이제 시작에 불과하다. 지금 우리가 쓰는 말과 글은 곧바로 전자적 데이터로 저장되고 있다. 우리가 이메일 계정에 보관하고 있는 이메일들, 블로그나 카페, 트위터, 페이스북에 쓴 글들, 그리고 언론매체가 인터넷에 쏟아내고 있는 방대한 양의 기사들은 모두 전자적인 형태로 기록되고 보관된다. 그리고 이렇게 저장되는 데이터의 양은 기하급수적이라는 표현으로 다 담을 수 없을 정도로 빠르고 크게 증가하고 있다. 이것들은 모두 빅데이터로 부를 수 있는 것들이다. 이미 광고회사나 마케팅 회사들이 그렇게 하고 있지만 거의 실시간으로 언어의 쓰임새의 변화를 들여다볼 수 있는 시대가 열린 것이다. 좀 비약하자면 집단으로서의 인류의 뇌를 실시간으로 들여다 볼 수 있게 됐다. 이렇게 들여다 본 것에서 장차 무엇을 읽어내는가는 개인의 호기심, 학문적 탐구의 문제이기도 하지만 인류의 미래에도 영향을 미칠 것이다. (모터스라인 2015년 10월호)  







모터스라인 바로가기