빅데이터, 오바마 시대를 열다




TV드라마 ‘섹스 앤드 시티’의 주인공 사라 제시카 파커는 지난 6월 뉴욕의 부자동네 웨스트빌리지 자택에서 버락 오바마 대통령의 모금 행사를 개최했다. 배우 매릴 스트립, 가수 애리사 프랭클린 등이 4만 달러씩 내고 참석했다.

 이날 모임은 스타들을 동원한 평범한 모금 이벤트처럼 보였지만, 오바마의 선거 캠프는 치밀한 조사를 거쳤다. 오바마 캠프는 미국 서부에서 40~49세 여성들이 저녁 식사를 함께 위해 돈을 낼 가능성이 가장 높은 사람이 배우 조지 클루니라는 사실을 발견했다. 똑같은 개념으로 동부의 여성 유권자들을 겨냥해 파커를 동원한 것이다.

 6일(현지시간) 치러진 미국 대통령 선거는 기존의 선거 전략 개념을 바꿔놓았다. 이른바 선거전략가 혹은 정치분석가라 불리는 이들의 경험과 감각에 의존해 선거운동을 펼치던 시대는 끝났다. 유권자와 지역·이슈 등 모든 것을 데이터로 수집하고 분류해 수학적인 계산을 거쳐 공략하는 ‘빅데이터’가 중요해졌다. 빅데이터는 과거에는 분석할 수 없었던 수많은 데이터를 수집·분석해 새로운 사실을 밝혀내는 기법이다.

 오바마의 선거 운동을 총지휘한 이른바 시카고사단의 수장인 짐 메시나는 시사주간지 타임과의 인터뷰에서 “선거운동의 일거수 일투족을 수치화했다”고 말했다. 메시나가 시카고에 선거 캠프를 차린 것은 선거를 2년 앞둔 지난해 초였다. 공화당은 아직 후보를 정하지도 않았던 시기다.

 메시나는 캠프 내에 수십명 규모의 데이터분석팀을 꾸렸다. 팀장 레이드 가니는 수퍼마켓의 매출을 늘리기 위해 소비자 구매 패턴을 분석했던 인물이었다. 통계학자는 물론 수학자, 소프트웨어 개발자, 예측모델 학자 등이 참여했다.

 이 팀은 선거캠프 사무실에서도 가장 외진 곳에 창문도 없는 방에서 작업했다. 프로젝트는 암호명으로만 통했다. 이 팀은 정기적으로 보고서를 만들어 백악관 루즈벨트실에서 오바마와 보좌관들에게 직접 브리핑을 했다. 7일 새벽 재선이 확정된 오바마는 당선 연설에서 “정치 역사상 최고의 선거팀”이었다며 이들의 공로를 인정했다.

 데이터분석팀이 가장 먼저 한 일은 여론조사기관·모금단체·광고회사·소셜미디어의 데이터와 2008년 선거 당시 확보한 선거운동원·모바일 기부자 등의 데이터를 하나로 모아 ‘메가 파일’을 작성하는 것이었다.

 그 결과 만들어진 유권자 명부는 성별·나이·인종·지역·투표성향에 따라 완전해 새롭게 편성됐다. 여기에 광고회사들이 세대별·지역별·가족 상황 등에 따라 분석한 소비성향 자료를 덧입혀 큰 그림을 그렸다. 히스패닉과 여성을 타겟으로 하고 찬반논란이 뜨거운 동성애 허용 문제에 과감하게 찬성하는 등의 선거 기조가 여기서 결정됐다. 여기에 다시 각종 분석기법을 동원해 유권자들을 입체적으로 분석했다. 4년전 '희망'과 '변화'를 말했던 오바마의 선거운동 구호가 '앞으로(FORWARD)'로 결정된 것도 이런 데이터 분석을 근거로 했다.

 10억 달러라는 모금 목표도 이런 데이터를 바탕으로 수립했다. 캠프 내부에서도 수많은 논란이 있었지만 빅데이터를 믿고 추진했다. 온라인으로 정치자금을 낼 가능성이 높은 사람, 자원봉사할 수 있는 사람, 표심을 바꿀 가능성이 높은 유권자 등등을 세부적으로 분류했다. 심지어 누가 전화를 걸어 지지를 호소하는 것이 더 설득력이 있는지도 일일이 수치화했다. 이메일과 문자메시지를 보낼 때에도 받는 사람의 성향에 따라 다르게 접근했다. 여성에겐 미셀 오바마가 이메일을 보내고, 중년 백인에겐 조 바이든이 편지를 쓰는 식이었다.

 경합주를 공략하는데도 빅데이터는 효과를 발휘했다. 데이터분석팀은 오하이오 유권자 데이터를 바탕으로 매일 밤 6만6000번에 걸쳐 갖가지 시나리오를 적용한 모의 선거를 실시했다. 선거 마지막 주, 데이터분석팀은 페이스북에서 오바마에게 ‘좋아요’를 누른 지지자들을 분석해 경합주에 친구를 둔 지지자를 찾아 “이러이러한 이유를 내세워 오바마를 지지해 달라고 설득헤 주세요”라는 메시지를 보냈다. 페이스북 지지자들 중 20%가 이 요청을 기꺼이 수락했다. 오바마가 경합주 대부분에서 승리를 거머쥐는데 결정적인 역할을 했다.

 TV광고도 마찬가지였다. 뉴스 시간에 광고를 하는 전통적인 방법을 버리고, 마이애미의 35세 이하 여성이 많이 보는 TV프로그램에 광고하는 식이었다. 오바마가 인터뷰하는 매체를 고르는데도 이런 데이터가 작용했다. 지난 8월 이름도 생소한 인터넷 블로그 뉴스 사이트 ‘레디트’가 오바마를 인터뷰했을 때 참모들은 이유를 몰랐지만, 데이터분석팀은 “우리 지지자들이 많이 들여다보는 매체”라며 강력추천했다.

 공화당의 가장 유능한 선거전략가로 불렸던 칼 로브도 빅데이터 앞에 무릎을 꿇었다. 밋 롬니 후보가 승리할 것이라고 예측했던 오하이오에서 무너지자 그는 폭스TV에 출연해 “그럴 리가 없다”며 믿을 수 없다는 반응을 보였다. 로브는 거액 기부자의 돈을 모아 자신의 조직을 만들어 독자적인 선거운동을 펼쳤지만 패배가 발 밑에 올 때까지 무엇이 잘못됐는지 전혀 알지 못했다.

 데이터 마이닝(수많은 데이터를 파고 들어 의미 있는 정보를 캐내는 것)에 능한 또 한명의 사람이 있다. 바로 네이트 실버다. 그는 메이저리그 프로야구 선수들의 경기 기록을 분석해 가상의 야구 시합을 벌이는 '판타지 베이스볼' 사이트를 운영하다 2008년 선거 때 '파이브서티에잇(534-미국 대선 선거인단 숫자)'이라는 여론조사 메타분석 블로그로 유명해진 인물이었다. 그는 직접 여론조사를 하는게 아니라 각종 여론조사 업체와 언론사가 실시한 여론조사 데이터를 다시 분석해 더욱 정확한 수치를 찾아내는 작업을 했다. 당시 그는 상원의원 당선을 정확하게 맞춰 주목 받았다.

초박빙으로 치러진 이번 선거에서도 네이트 실버의 분석력은 적중했다. 오바마와 롬니의 지지율이 너무나 엇비슷해 언론사도 예측을 포기한 시점에 그는 "오바마가 300명 이상의 선거인단을 확보해 무난히 승리할 것"이라고 내다봤다. 칼 로브는 "아니다! 롬니가 310명 이상을 끌어모으는 대승을 거둘 것"이라고 말했다. 오바마 캠프는 말을 아꼈다. 7일 새벽의 결과는 네이트 실버의 말대로였다.

초박빙으로 맞섰던 플로리다주의 경우, 여론조사를 합산하는 중립적인 사이트 '리얼클리어폴리틱스'에서는 롬니 쪽이 약간 우세하다고 분석한 반면,  그는 오바마가 앞설 것이라고 예측했고, 결과는 실버의 말대로였다.

언론들은 이번 선거의 최대 승자가 네이트 실버라고 치켜세웠고, 그가 출간한 책은 날개돋힌 듯 팔려나갔다. 책 이름은 '신호와 잡음 - 많은 예측이 빗나가고 어떤 것은 적중하는 이유(The Signal and the Noise: Why So Many Predictions Fail-but Some Don't)'다. 

(이 글은 타임지워싱턴포스트, 파이낸셜타임스  기사를 종합해 작성한 글입니다.)


이 블로그의 인기 게시물

세월호 7시간, 박근혜 청와대의 거짓말

아래한글로 전자책 만들기 hwp2epub

“저도 노래 잘하는 사람이 부러워요” 테너 박현재 서울대 교수 인터뷰