태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

'빅데이터'에 해당되는 글 2건

  1. 2015.10.22 빅데이터로 보는 언어의 진화
  2. 2015.03.19 더 이상 숨을 곳이 없다?!

1월말에 <빅데이터 인문학>이 출간됐으니 사실상 이 책으로 올해를 시작했는데 벌써 10월 말로 흐르고 있다. 이 책 번역을 하느라 생전 취재만 하던 대담에 사회자로 참여해보기도 하고, 나보다 훨씬 학식이 높으신 분들 앞에서 강연을 해보기도 했다.


쑥스러워서 친척이나 지인들에게 이 책을 번역했노라 널리 알리진 않았는데, 시간이 흐르면서 직간접적으로 이 책을 접한 지인들이 전화를 해오곤 한다. 며칠전에도 좀 늦은 저녁 회사 대 선배로부터 전화가 왔다. 대뜸 "네가 <빅데이터 인문학>을 번역했니?"라고 물었다. 그렇다고 말씀드렸더니 "정말인 모양이네"라는 말이 들려왔다. 술을 겸한 저녁자리였는데, 내가 이 책을 번역했단 사실을 아는 분이 내 얘길 꺼냈던 모양이었다. 여하튼 그 자리엔 다른 분들도 여럿 있었다 하는데 그 덕분에 책이 몇권 팔렸을 것이다.^^


추석 전에 현대자동차 사외보를 제작하는 곳에서 원고청탁이 왔다. 10월호의 테마가 '언어'인데 그중 한꼭지로 '빅데이터로 보는 언어의 진화'를 써달라는 것이었다. 내가 항상 잊지 않기위해 유의하는 게 '나는 빅데이터 관련 서적을 번역했을뿐 내가 빅데이터 전문가는 아니다'라는 사실이다. 이 점을 명확히 설명하고 청탁을 수락했다. 얼마전 책자가 왔는데, 이 잡지 자체가 '비주얼'을 상당히 신경쓰는 잡지여서인지 예쁘게 편집이 됐다.


글을 쓸 때마다 정갈한 글을 쓴다는 게 얼마나 어려운 일인지 절감하게 된다. 내공이 많이 부족하다는 자각도 함께 한다.


빅데이터로 보는 언어의 진화

 

언어의 변천을 보여주는 로봇의 등장

 언어의 특성 중 하나는 변화성이다. 상식적으로 500년 전의 우리 조상과 2015년의 우리가 만났을 때 단번에 의사소통이 원활하게 이뤄지기는 어려울 것이다. 그런데 이처럼 언어가 변화한다는 사실을 아는 것과 그 변화의 내용, 방향, 의미를 이해하는 것은 별개의 문제다. ‘날씨는 변한다는 사실을 안다는 것과 날씨의 변화 원리를 이해하고 앞으로 날씨가 어떻게 변화할 것인지를 예측하는 것은 별개의 사안인 것과 같은 이치다.

 우리는 왜 언어의 변화를 궁금해 하는 것일까? 사람들이 의사소통을 하기 위한 핵심 수단인 언어는 인류 문화를 총체적으로 연구할 수 있게 해주는 거대한 소우주와 같다. 화석이 공룡을 연구하는 학자들의 주요 연구 대상이듯 언어와 문화의 변화를 추적하는 학자들은 방대한 문헌 기록 속에서 언어의 변화, 그리고 문화의 변화에 대해 많은 것들을 밝혀냈다. 그런데 디지털 기술이 발달하면서 인류 문화의 무궁무진한 보물 창고인 책을 새롭게 읽는 방법이 가능해졌다. 제 아무리 책 읽기에 이골이 난 뛰어난 학자들이라 할지라도 한평생 읽을 수 있는 책이 얼마나 될까? 1만권? 2만권? 사람은 죽기 전에 책 3000권을 읽기도 쉽지 않다. 그러나 여기 클릭 한 번으로 800만권을 읽을 수 있는 로봇 독서가가 있다. 필자가 번역한 책 <빅데이터 인문학>(원제 <Uncharted>)이 소개하는 구글 북스의 앤그램 뷰어(Ngram Viewer)’가 주인공이다.

 

단순 사실들이 보여주는 언어의 역사

 구글의 공동 창업자 래리 페이지(Larry Page)2002년 전세계 도서관에 있는 책들을 스캔해 디지털화 하겠다는 목표를 천명했다. 그 이후 3000만권을 디지털화 했으며, 이 프로젝트는 계속 진행중이다. 2010년 처음 모습을 드러낸 앤그램 뷰어는 구글 북스 프로젝트로 축적된 데이터를 분석해 결과를 보여주는 도구다. 800만권의 출판물을 데이터 베이스로 삼아 지난 200년간 출판된 책과 잡지 등에 특정 단어들이 특정 시기에 얼마나 많이 쓰였는지를 눈 깜짝할 사이에 보여준다.

 앤그램 뷰어는 개별 단어들이 사용된 단순 빈도를 보여준다. 몇 가지 구체적인 사례를 보자. 사람들이 자본주의(capitalism)’사회주의(socialism)’ 가운데 어떤 것을 더 많이 사용해왔는지, ‘천당에 간다(go to heaven)’는 말과 지옥에 간다(go to hell)’는 말 가운데 어떤 것이 더 자주 쓰였는지, 책에 과학(science)’라는 단어와 종교(religion)’라는 단어 가운데 어떤 것이 더 자주 등장했는지를, 지난 200년간의 시간의 흐름에 따라 일목요연하게 보여준다. 한국(Korea), 중국(China), 일본(Japan)의 사용빈도나, 피자(pizza)와 스파게티(spaghetti)의 사용 빈도를 비교해 볼 수 있다. 1800년 이래로 170년이 넘도록 인류는 암(cancer) 보다 열(fever)에 대해 더 자주 이야기했으나, 1973년 역전돼 2000년에 이르러선 암이 열에 비해 3배나 더 자주 언급됐다는 사실도 앤그램 뷰어의 빅데이터 분석이 보여주는 것 가운데 하나다.

 

인류의 두뇌를 스캔할 수 있는 하나의 툴

  우리는 사회가 복잡해지면서 새로 사용되는 용어들이 많아졌다고 직관적으로 느낀다. 실제로 그럴까? 1900~1950년 사이 영어로 출판된 책에 사용된 어휘의 전체 규모는 55~60만개 사이에 머물렀다. 그런데 1950년을 기점으로 영어 어휘의 규모는 크게 늘어난 것으로 밝혀졌다. 2000년 현재 영어 어휘의 규모는 1950년에 비해 2배 가까이 늘었다고 한다. 매일 20개 이상, 매년 8400개 가량의 새로운 단어가 영어 어휘 목록에 추가되고 있다는 것이다. 그렇다면 영어 어휘가 언제까지 이렇게 늘어날 것인가? 이 질문은 학자들이 매달려 있는 주제이다.

 이쯤되면 눈치 빠른 독자들은 빅데이터가 보여주는 언어의 진화는 대체로 수량, 즉 숫자 세기에서 출발한다는 것을 알았을 것이다. 빅데이터는 엄밀히 말하자면 01의 조합으로 변환된 전자적 정보의 집합이다. 구글 북스는 책이라는 대표적인 아날로그 방식의 저장매체에 기록된 정보를 막대한 자금과 시간을 들여 전자적 정보로 변환시킨 것이다. 사실 구글 북스가 구축한 빅데이터가 보여주는 언어의 변화상은 경천동지할 것들은 아니다. 학자들의 연구 결과나 일반인의 상식에서 크게 벗어나지는 않으며, 빅데이터가 만능은 아니라는 것이다. 그러나 막대한 데이터에서 나타나는 수량적 변화를 가지고 추적한 언어의 변화를 눈으로 목격한다는 것은 매우 흥분되는 일임은 분명하다. 화성에 도착한 탐사로봇이 보내온 화성의 모습이 우리가 상상했던 것과 크게 다르지 않는데도, 우리는 눈에 들어오는 화성의 지표면을 보고 감격한다.

 빅데이터를 통해 언어의 진화를 추적하는 작업은 이제 시작에 불과하다. 지금 우리가 쓰는 말과 글은 곧바로 전자적 데이터로 저장되고 있다. 우리가 이메일 계정에 보관하고 있는 이메일들, 블로그나 카페, 트위터, 페이스북에 쓴 글들, 그리고 언론매체가 인터넷에 쏟아내고 있는 방대한 양의 기사들은 모두 전자적인 형태로 기록되고 보관된다. 그리고 이렇게 저장되는 데이터의 양은 기하급수적이라는 표현으로 다 담을 수 없을 정도로 빠르고 크게 증가하고 있다. 이것들은 모두 빅데이터로 부를 수 있는 것들이다. 이미 광고회사나 마케팅 회사들이 그렇게 하고 있지만 거의 실시간으로 언어의 쓰임새의 변화를 들여다볼 수 있는 시대가 열린 것이다. 좀 비약하자면 집단으로서의 인류의 뇌를 실시간으로 들여다 볼 수 있게 됐다. 이렇게 들여다 본 것에서 장차 무엇을 읽어내는가는 개인의 호기심, 학문적 탐구의 문제이기도 하지만 인류의 미래에도 영향을 미칠 것이다. (모터스라인 2015년 10월호)  







모터스라인 바로가기


Posted by 까만주름

간만에 비가 내려 거리와 건물, 나무에 내려 앉은 먼지를 씻어주었다. 내리는 김에 좀 더 많이 내렸으면 하는 바람이 들었으나 아쉽게도 서울엔 그리 많이 내리지 않았다. 기온도 많이 올라 나무가지마다 겨울눈이 새움으로 모습을 바꾸고 있다. 꽃망울이 맺힌 나무들도 자주 만나게 된다. 조금 있으면 벛꽃이 피고, 목련도 화사하게 꽃을 피울 것이다. 그리고 '이제 완연한 봄이구나'라고 감탄하는 순간 갑자기 더워질 것이다. 짧은 봄을 즐겨야겠으나 그럴 틈을 내지 못해 안타깝다.


더 이상 숨을 곳이 없다?!



1990년대 중후반 국내 신문사 국제부. 아프리카 대륙에 있는 이름도 생소한 어느 나라에서 쿠데타가 일어났다는 외신 기사가 들어왔다. 국제부장이 이 기사를 쓰라고 부원에게 지시하면서 쿠데타를 일으킨 군벌 사진을 찾아서 넣으라고 했다. 이름도 생소한 먼 나라의 더욱 이름이 생소한 군벌의 사진을 찾으라는 것은 당시로선 눈 덮인 산에 올라 산딸기를 구해오라는 주문에 다름 아니었다. 사진을 구할 수 없다는 부원의 말에 부장이 말했다. "인터넷에서 찾으면 되잖아! 인터넷에 들어가면 다 있다면서?"


한 선배가 직접 겪은 일이라며 들려준 이 일화는 아날로그 시절의 총아가 인터넷 시대를 받아들이는 모습을 희극적으로 보여준다. 그리고 20년쯤 지난 지금, 인터넷이 있던 자리는 '빅데이터'라는 말이 대체하고 있다. 광고 회사에 다니는 내 친구는 요즘 빅데이터의 압박이 심하다고 토로했다. 한 동안은 빅데이터를 언급하며 그럴듯하게 포장하는 선에서 상사나 광고주를 설득하는 게 가능했는데, 이제는 "요즘 빅데이터를 돌리면 다 나온다는데 빅데이터에서 뽑아낸 것 좀 가져와봐"라는 구체적인 주문이 따라붙는다고 했다.


빅데이터든 그냥 데이터든 데이터는 언제나 존재했다. 하지만 인터넷이 기존에 존재하던 정보 유통을 양적·질적으로 변화시켰듯 빅데이터의 등장은 인간과 사회에 관한 이해 방식에 변화를 가져오고 있다. 사회학의 아버지 오귀스트 콩트는 인간과 사회에 대한 세심한 경험적 연구는 사회의 작동을 지배하는 법칙들을 밝혀줄 것이라고 기대했다고 한다. 그래서 이 학문을 '사회물리학'(social physics)이라고 명명했다. 이 명칭은 훗날 사회학으로 정착됐다.(『빅데이터 인문학』사계절, 250쪽) 그러나 인간 사회의 작동을 지배하는 법칙을 밝혀내려는 시도가 얼마나 어렵고 때로는 위험한지 우리는 경험했다.


요즈음 분야를 막론하고 쓰나미처럼 밀려들어 오고 있는 빅데이터는 '콩트의 꿈'이 그리 허망한 것만은 아니라는 기대감을 갖게 한다. 데이터가 더 많이 쌓이고 이를 분석하는 기술이 발달할수록 개인의 행복과 공공의 복리가 향상될 가능성도 높아진다.


그러나 빅데이터가 가져올 효용 앞엔 무서운 덫이 도사리고 있는 것도 사실이다. 가장 첨예한 것이 바로 프라이버시 문제다. 빅데이터와 프라이버시는 떼려야 뗄 수 없는 사안이다. 그림 형제의 동화 <헨젤과 그레텔>에 등장하는 오빠 헨젤은 아버지와 계모의 손에 이끌려 깊은 숲 속으로 걸어가면서 흰색 조약돌들을 몰래 흘렸다. 현대인은 한 발자국 뗄 때마다, 손가락을 한 번 움직일 때마다 '디지털 족적'을 남긴다는 면에서 모두 헨젤이라고 부를 수 있다. 다만 동화 속 헨젤이 두 번째로 숲에 끌려갈 때 흰 조약돌을 구하지 못해 빵 부스러기를 남겼다면, 현대인에게 디지털 흰 조약돌은 바닥나지 않는다. 오히려 우리가 남기는 흰 조약돌은 기하급수적으로 늘어나고 있다. 헨젤은 자신이 흘린 조약돌 덕분에 깊은 숲에서 길을 잃지 않고 집으로 돌아올 수 있었다. 그런데 만약 마녀가 이걸 눈치챘다면?


2013년 4월 15일 보스턴 마라톤 대회 결승점 근처에서 폭탄 두 개가 터져 세 명이 죽고 수백 명이 다쳤다. 미 연방수사국(FBI)이 용의자들을 추적하자 그들에 관한 온갖 정보들을 쏟아져 들어왔다. 순전히 우연하게 용의자들을 찍은 고해상도 사진이 대부분이었다. 미국의 쇼핑 체인 타깃(Target)은 고객들의 다음 구매를 부추기기 위해 구매 행태를 분석하는 프로그램을 운영하고 있는데 부모 몰래 임신한 10대 소녀에게 육아용품 구매를 부추기는 쿠폰을 보냈다가 그 소녀의 부모가 알아채는 일이 벌어졌다. 임신 진단 시약을 구매한 여성은 임신을 했거나 임신을 할 가능성이 높기 때문이다.(위의 책 240, 243쪽) 미국 국가안전보장국(NSA)과 중앙정보국(CIA) 에드워드 스노든이 빼돌린 기밀 문서에 관한 기사를 가디언지에 보도한 글렌 그린 월드가 지난해에 쓴 책의 제목은 『더 이상 숨을 곳이 없다(No Place to Hide)』였다.


불경에 '같은 물이라도 소가 마시면 젖이 되고, 뱀이 마시면 독이 된다'는 비유가 있다. 빅데이터는 젖이 될 수도, 독이 될 수도 있다. 빅데이터 시대의 본격 도래와 함께 '검색되지 않을 자유'가 반드시 함께 논의되어야 하는 이유다.


webzine '기술과 가치' 2호 커버스토리2(링크)






Posted by 까만주름