본문 바로가기

Book Log

데이터는 거짓말을 하지 않는다.. <모두 거짓말을 한다>를 읽고

<모두 거짓말을 한다>를 읽고

소셜미디어의 시대다. 개인 하나, 하나가 미디어가 되는 시대다. '트위터','페이스북','카카오스토리',블로그' 부터 요사이는 MCN(Multi Channel Network)으로 일컬어지는 '유투브','아프리카TV', 그리고 '팟캐스트'까지 다양한 온라인 매체들을 통해 자신의 생각과 의견을 미디어화 할 수 있다.

이미 미디어화 되어서 주장이 확실하고, 이미 사회적인 영향력을 상당히 확보한 채널 들도 많다.
그렇다면 '이러한 소셜미디어 들이 개인의 생각을 다 담을 수 있을까?'에 대한 고민을 종종하곤한다. 왜냐하면, 나 스스로도 이러한 매체들을 이용하기는 하지만 정치적으로나 사회적으로, 또, 지극히 개인적인 이슈에 대해서는 공개된 매체에 노출하기를 꺼려하기 때문이다.

<모두 거짓말을 한다>는 하버드 대학교 경제학과 박사과정에 있더 세스 스티븐스 다비도위츠(Seth Stephens-Davidowitz)가 특정 검색어의 추세를 보여주는 '구글 트렌드'를 연구하고, 관련 연구로 구글에서 데이터 과학자로 일하면서 발견한 논리에 대한 내용이다.

미국 대통령선거의 예측은 여론조사 보다는 후보자에 대한 구글 검색량이 더 정확히 예측한다는 <구글신은 모든 것을 알고 있다>는 카이스트 정하웅교수의 책의 내용과 유사하다.

어쩌면 좀 더 내밀한 인간의 본성에 대한 이야기가 더 담겨 있다.
※ 주 : 오바마 대통령의 당선 등, 꽤 많은 선거의 결과에서 구글 검색량이 많은 후보가 당선되었으며, 책이나온이후 따로 본 트럼프와 힐러리의 결과도 다르지 않았다. 포털 중심의 인터넷 검색이 이뤄지는 우리나라는 조금 다른 데이터를 보여줄 수도 있겠다는 생각을 해보기도 한다.

인간의 의사결정은 데이터에 기반한다. 사회 경험이 많은 할머니는 본인의 과거 경험에 따라 나름의 빅데이터를 구축하고 이에 따라 판단한다. '어른 말 들어 나쁠거 없다'는 말이 그래서 나온 것인지도 모른다. 경험이 적은 아이들 조차 자신이 울었을 때의 경험과 보상을 생각하고 적절한 시점에 울게 된다.(꽤 공감이 간다. 그래서 더, 단호하게 안된다고 하기는 하지만..)

하지만 이런 의사결정들을 가지고 현상을 이해하는데는 몇가지 오류(bias)가 발생할 수 있음을 책에서는 나타낸다. 우리에게는 자신의 경험이 가지는 타상성을 과장하는 경향이 있고 자신의 데이터에 높은 비중을 둠으로서 객관적인 판단을 하지 못하는 경우가 있기 때문이다.
예로 천식으로 인한 사망률은 토네이도보다 70배 높다고 한다. 하지만, 천식으로 인한 사망은 눈에 띄지 않고 뉴스가 되지 않는다. 하지만, 토네이도로 인한 사망은 눈에 띄고 훨씬 더 큰 영향력으로 인식하게 된다는 것이다.

그리고, 사람들은 믿는 것을 믿는 경향이 있다. 책에서는 '가난한 가정 출신과 중산층 가정 출신중 NBA에서 성공할 가능성은 어느 쪽이 높을까?'라는 질문을 한다.
이 질문에 나 역시도 NBA를 잘은 모르지만 몇몇 선수의 스토리를 기억해 내면서 가난하게 자란 선수가 성공활률이 높을 것으로 짐작했다. 홀어머니나 10대의 어린 엄마 밑에서 어렵게 성장하면 경쟁이 치열한 스포츠에서 최고 수준에 오르는 데 필요한 투지를 키웠을 것으로 예상하기 때문이다.


'르브론 제임스'는 현재 MBA의최고 선수다. '마이클 조던'과 비견될 정도로 말이다. 그는 열여섯살 난 싱글맘에게서 태어나 가난하게 성장했고 최고의 선수가 되었다.
유사한 인터넷 설문에서도 비슷한 답변이 많았다고 한다. 데이터 과학자인 저자는 검증하기 위한 데이터 분석을 하게 된다.
첫째, NBA 모든 선수의 출생지를 조사 했다. 해당 카운티의 인종별 출산과 평균 소득을 비교해보니, 부유한 카운티에서 태어난 아이의 NBA에 이를 확률이 더 높게 나타났다. 부유한 지역에서 태어난 흑인아이는 두배, 백인은 60% 더 높게 나타났다
또, 저자는 1980년대 태어난 흑인 NBA 선수중 득점 순위가 100위까지인 선수는 미국의 평범한 흑인과 비교했을때 10대 미혼모에세서 태어났을 확율이 30% 정도 낮게 나타난 사실을 발견한다. 다시말해 우리의 짐작과는 다르게 흑인 최고 NBA 선수들에게 편안한 가정환경은 성공에 큰 이점으로 작용하고 있었다.
그리고 몇몇 데이터 검증을 통해 우리의 짐작(어려운 환경에서 NBA에서 성공활를이 높다)이 틀렸다는 데이터만을 찾을 수 있었다고 한다.

빅데이터의 힘
- 새로운 유형의 데이터 제공을 한다
- 솔직한 데이터를 제공한다
- 작은 집단도 클로즈업해서 볼 수 있다.
- 인과적 실험의 실행이 가능하다.

2013년 이집드 맥주계의 아메드 자얏은 본인 소유의 말 한마리를 팔고 싶어 했다. 혈통은 좋았지만 대단치 않았던 그 말은 부상의 흔적 처럼 보이는 발목에 긁힌 자국이 있기 까지 했다. 이말은 제프 세이더가 EQB라는 작은 기업에 아직 이름도 없이 85번이라 불리는 이 말의 매도와 다른 말의 구매를 의뢰한다. 제프 세이더는 전형적인 말 사육가가 아녔는데 데이터를 기반으로 말을 평가하는 인물이었다.
이 말은 경매에 내 보냈고 같은 경매에 나온 다른 말 151마리중 몇마리의 구매를 원했던 자얏에게 며칠간 말들을 평가한 세이더는 85번을 절대 팔지 말것을 제안한다. 결국 자얏은 가명으로 본인이 경매에 내보낸 말을 3억원에 다시 사게 되는데, 그 경매에서 85번보다 비싸게 팔린 말은 62마리나 되었다고 한다.
3개월뒤 자얏은 85번의 이름을 '아메리탄 파로아'라 이름을 지었고, 18개월후 이 말은 37년만에 탄생한 삼관마(Triple Crown)의 자리에 올랐다고 한다.


세이더는 어떻게 그 말의 가능성을 보았을까? 그는 하버드대학교를 나와 시티그룹에서 투자분석가로 일하던 그는 도시의 삶을 버리고 펜실베니아로 이사하고 경주마를 분석하는 일을 하게 되는데, 경주마 선택의 중요 요소를 혈통과 몇가지 직관적인 판단만으로 하던 시기였다.
그는 경주마들의 다양한 특성을 평가했고 그중 어떤 것이 성적과 관련되는 지 확인했는데, 말 콧구멍의 크기를 재서 그것과 수익에 관한 데이터 세트도 만들었고 심전도 측정, 근육의 부피, 말 배설물의 크기 측정하기도 했다. 그 후 세이더는 말 내부 장기의 크기를 측정하였는데, 말의 심장의 크기, 특히 좌심실의 크기가 말의 성공에 주요한 예측자이자, 중요한 변수였으며, 비장의 크기 또한 중요한 팩터임을 밝혀 냈다.
그는 말이 질주하는 비디오 수천개를 디지털화 해서 말의 움직임중 200미터를 달리고 쌕쌕거리는 소리를 내는 말이 있다는 발견을 하기도 했는데, 이런 말은 절대 성공하지 못했다.
이러한 기준으로 봤을 때 85번마 였던 아메리칸 파로아의 백분위수는 키는 56, 몸무게는 61, 혈통은 70이었지만 좌심실의 크기는 99.61로 유난히 컸고 다른 장기 역시 커다란 좌심실 만큼 컸다고 한다.
수 많은 데이터를 수집하고, 정제하고, 인사이트를 뽑아내는 데이터 분석을 실제에 적용하고 있는 것이었다.

이미 많은 데이터 분석이 이뤄지고 가능성 영역이 아닌 실제 활용하는 단계에 이르러 있다.
하지만, 너무 많은 비약이 있고, 몇몇 데이터의 우연을 검증없이 분석의 결과로 내고 있는 건 아닌지 모르겠다.

또 책에서는 사람들이 본인의 실제와는 다른 모습으로 데이터를 만들어내는 다양한 사례를 소개하기도 해서, 데이터 분석을 할 때의 기본적인 사항들을 안내하고 있다.

데이터 분석에 대한 관심이 있는 이라면 읽어 보고 참고할 만한 책이다.

#성장판 #성장판글쓰기 6기 #빅데이터#모두거짓말을한다