[PRESS] 흥미로운 베이지안 통계

글 입력 2021.01.28 13:06
댓글 0
  • 카카오 스토리로 보내기
  • 네이버 밴드로 보내기
  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글 플러스로 보내기
  • 글 스크랩
  • 글 내용 글자 크게
  • 글 내용 글자 작게



Thomas_Bayes.jpg

 

 

동생이 얼마 전에 전화로 이상한 꿈을 꾸었다고 이야기한 적 있다. 친구들하고 차를 타고 놀러 가던 중 교통사고가 났는데, 거기서 내린 할머니가 기묘한 선인이었단다. 그는 동생의 운명을 봐주겠다 하면서 오른손을 보더니 이렇게 말했다. 참고로 동생은 요즘 자취방 난방비로 잔소리하는 엄마로 골머리를 앓고 있었다.

 

"살면서 네가 엄마가 널 쪼는 확률은 19%야!" 내 동생은 이렇게 말했다. "예? 19%요? 그거 진짜 너무 애매한 숫자 아녜요?" 할머니는 좀 더 알아 듣기 쉽게 이야기했다. "네가 만약 삐뚤게 자란 경우에는 72%야." 동생은 이 꿈이 너무나 흥미로운 나머지, 깨자마자 나에게 전화를 걸어 비몽사몽한 목소리로 이 이야기를 했다.

 

그리고 이 글을 어떻게 써야 하나 골머리를 쓰고 있는 나는 이 소재로 이 글을 시작해야겠다는 생각이 들었다. 어떤 조건에 따라 추정 확률이 변화한다는 컨셉은 내가 빠져있는 베이지안 통계와 통하는 면이 있었기 때문이다.

 


캡처.JPG


 

사람들은 합리적인 선택을 하기 위해 노력한다. 하지만 빠른 선택은 고정관념에 빠진 낙관성과 자신감에 근거한 경우가 대부분이다. 그리고 이런 선택은 대부분 비합리적인 선택으로 이어진다. 주변인의 실패담, 주식 시장의 과도한 거품이나 기업과 집단의 잘못된 선택들이 하나의 예시가 될 수 있다.

 

보다 직접적인 이해를 위해 좀 더 실제적인 예시를 들어보자면 아래와 같다. 요즘 주식 장에서 연전연승을 거두고 있는 데니얼 카너먼 아저씨는 감성적이고 직관적으로 즉각 작용하는 빠른 사고와 논리적으로 생각과 행동을 통제하는 느린 사고를 나누면서 아래와 같은 문제를 예시로 들었다.

 

"야구방망이와 야구공을 합쳐 1,100원이다. 방망이는 공보다 1,000원 더 비싸다. 공의 가격은 얼마인가?"

 

대부분 사람은 곧장 100원이라고 답한다. 하지만 이는 오답이다. 공이 100원이고 방망이가 1000원이 더 비싸다면 야구 방망이와 야구공의 총합은 1,200원이 된다. 이처럼 대부분 사람은 빠른 사고를 하면서 비합리적인 결정을 내리고 문제를 일으킨다.

 

그렇다면 이런 문제를 실제 현장에서 마주했을 때 오류를 범하지 않은 방법은 무엇일까? 사실 우리는 이미 중학교 1학년 수학에서 배운 개념으로 이 문제를 간단히 풀 수 있다. 바로 공을 x, 야구 방망이를 x+1000으로 두면 된다. 2x+1000 = 1100이니까, 2x=100이 되어서 x는 50,즉 50원이 된다. 공이 50원, 방망이가 1,050원이 두 개의 합은 1100원이 된다.

 

하지만 우리는 일상생활에서 느린 사고를 하는 대신, 빠른 사고를 함으로써 잘못된 선택을 한다. 빠른 생각과 그에 따른 비합리적인 결과는 우리는 우리가 보이는 만큼만 믿고, 그것을 과신하는 존재에 불과하다는 것을 보여준다. 어쩌면 세상의 모든 비극은 인간의 이런 자기 중심성에서 비롯되었을지도 모른다.

 

카너먼 아저씨가 말한 해답은 아니지만, 그래서 수학적 사고는 혼란스러운 세상의 길잡이 구실을 할 수 있을지도 모른다. 수학적 사고는 우리의 생각을 좀 더 절차적인 것으로, 확인하고 예측할 수 있는 것으로 바꾼다. 수학적 사고가 모든 것을 정답으로는 만들지 않지만, 최소한 우리의 선택이 눈곱만큼의 합리성을 가질 수 있는데 이바지할 수 있지 않을까?

 

 

online-3539406_960_720.png

 

 

베이즈 통계는 삶의 선택을 하는 데 있어 굉장히 재미있고 유용한 도구가 될 수 있다. 통계라는 말에 누군가는 유의 확률, p값을 떠올릴 수도 있다. 하지만 베이즈 통계는 기존 표준 통계학과 다른 통계학이다. 네이만-피어슨 통계학, 혹은 빈도 통계학이라고 불리는 표준 통계학은 기본적으로 가설 검증/ 구간 추정 등을 통한 방법론이다. 이와 대조적으로, 베이즈 통계학은 사전확률을 설정하고 취득한 정보에 따라 사후확률을 업데이트하는 방식으로 검증하는 통계학이다.

 

베이즈 추론의 기본원칙은 정보를 얻으면 확률이 바뀐다는 것이다. 즉, 베이즈 통계학은 정보에 기반한 확률로서 직감 검증에도 활용할 수 있고, 주관적인 숫자 추정이 가능하다. 정보를 얻을수록 추정의 정확성이 높아지는 부분은 오늘날 뜨거운 감자 중 하나인 머신러닝에서 활용되고 있다. 하지만 컴퓨터 공학자나 수학자가 아니라면 그것이 무슨 상관인가? 일반인에게 베이즈 통계의 가장 재밌는 점은 일상적인 상황에서 무궁무진하게 활용될 수 있다는 점이다.

 

<흥미로운 베이지안 통계>는 베이즈 통계에 대한 가장 흥미로운 입문서다. 학부에서 영문학을 전공한 데이터 사이언티스트의 재치있는 입담은 이 책을 수학책 이상으로 만들었다. 그는 스타워즈, 레고, 러버 덕을 사례로 들면서 베이즈 통계를 하나의 사고 놀이처럼 소개한다. R 프로그래밍에 대한 부록과 실습 내용이 일부 포함되어 있지만, 그렇다고 해서 일반인이 못 즐길 만큼 부담스러운 양이 수록된 것은 아니다. 이 글을 쓰는 나 역시 이런 부분은 과감하게 훑어 넘겼다.

 

책은 베이지안 사고를 일상생활에 적용하는 것부터 시작해, 베이지안 통계에서 중요하게 다루는 불확실성이 무엇이고, 확률 규칙을 통해 그리는 이항 확률 분포와 베타분포를 소개한다. 이런 기본적인 용어가 소개되면, 역시 베이즈 통계의 중요한 부분인 조건부확률과 베이즈 정리를 설명한다. 통계의 기본적인 문법에 해당하는 모수, 산포도, 정규분포, 가설검정 등에 대한 설명도 빼놓지 않는다.

 

책은 전반적으로 우리나라 수학교과과정에서 배운 내용을 다룬다. 수학에 관한 내용이 전부 기억나지 않았다 하더라도 쉽게 읽을 수 있도록 기술해 놓았다. 개인적으로 저자의 능력을 다양한 부분에서 확인했지만, 블럭을 통해 베이즈 정리를 설명하는 부분은 정말 너무 직관적으로 전해져서 입이 떡벌어졌다. 반대로 말하자면, 이 책은 베이즈 통계에 대한 기본 토대를 제공하고, 일상생활에서 베이즈 통계를 활용하는 연습을 시킨다. 반대로 베이즈통계와 관련된 전문적인 지식을 얻기 위해 이 책을 들었다면, 너무 기본적인 것만 가르치는 것같다는 인상을 받을 수 있다.

 

개인적으로 조금 아쉬웠던 것은, 이 책이 대학교재 같은 인상을 준다는 점이다. 고백하자면, 나는 이 책을 실제로 받아보기 전까지 내가 이전까지 읽었던 수학교양서처럼 작고 가벼운 책인줄 알았다. 내용이 무거워서라기보다는, 글씨의 크기, 종이, 겉면과 두께가 너무나 대학교재 같았다. 설상가상 이 책은 다른 대학교재가 그렇듯 공부하는 법에 대해 간단히 기술하고, 각 섹션 뒤에는 재미있는 사례와 다양한 연습문제를 배치했다. 수학적 사고에 관한 책이 일반 대중에게 더 많이 읽히길 바라는 뜻에서는 이 또한 장벽이 될 것 같아 조금 아쉽다.

 

 

20210128031129_zmcbyotf.jpg

 

 

수학적 원리를 다루는 책의 특성상, 서평으로 자세히 쓰는 것은 어려운 일이다. 이 책을 교재가 아닌 책으로 만드는 것은 저자의 재미있는 사례들이지만, 이 서평에서 자세히 소개함으로써 그 기쁨을 해친다면 마음이 아플 것 같다. 그래서 나는 베이즈 추론을 통한 수학적 사고를 지향하는 책의 목표에 맞게, 책에서 소개한 원리에 따라 사고한 사례를 소개한다.

 

나에게는 3년된 남자친구가 있다. 내 남자친구는 게임을 즐기는 데, 거기서 최근 친하게 지내는 길드 여성 유저가 있었다. 내가 보기에 그녀는 백퍼센트 내 남자친구한테 끼를 부리고 있었다.(윽, 술 취한 적 메시지 보내는 건 좀 너무 오글거린다.) 발렌타인의 어느날, 그녀는 내 남자친구에게 초콜릿을 줬다. 누군가에게는 여우같은 고년이지만, 남자친구와 사귄 3년 짬밥이 다 무엇인가? 나와 남자친구는 이것을 역대급 꿀잼 이벤트로 선언했다. 나는 아래와 같은 과정을 통해 그녀가 내 남자친구에게 진심일 확률을 추정했다.

 

우선 첫 번째, 사전 확률을 계산한다. 나는 여러 사건을 통해 그녀가 최소한 오피스 와이프로서 내 남자친구를 대한다고 생각한다. 하지만 그녀가 내 남자친구를 좋아하는 것은 내 추정일 뿐이다. 객관적인 근거가 없으므로 임의의 수치로써 내 남자친구를 좋아할 확률 0.5, 좋아하지 않을 확률을 0.5로 둔다.

 

두 번째, 어느 정도 객관적인 데이터를 끌고 와 조건부확률을 설정한다. 아쉽게도 나한텐 딱 맞는 통계 데이터가 없었다. 그래서 당시에 모 단톡에 있는 친구들 10명에게 협조를 부탁했다. 신뢰도가 떨어지는 데이터지만 남자친구를 놀리려고 시작한 추정인데 무슨 상관인가? 좌우간 20대 남녀 친구들은 좋아하는 상대에게 초코렛을 줄 확률이 40퍼센트, 주지 않을 확률이 60퍼센트라고 답했으며, 좋아하지 않는 상대에게 초코렛을 줄 확률이 20퍼센트, 주지 않을 확률이 80%라고 응답했다. 이로써 네 개의 세계가 구성된다.

 

이 중 내 남자친구는 초코렛을 받았으니, 두 개의 세계가 사라진다. 그렇게 된다면 그 여자아이가 내 남자친구를 좋아해서 초코렛을 준 확률은 20%, 내 남자친구를 좋아하지 않는데 초코렛을 준 확률은 10%가 된다. 비례로 계산한다면 사후확률은 66 %와 33%니 그 여자애가 남자친구를 좋아한다는 것이 더 유리한 셈이다.

 

물론 모든 데이터가 그러하듯, 그 여자애는 내 남자친구가 별달리 재밌는 반응이 없으니 남자친구와 연락도 잘 하지 않게 되었다. 별로 그렇게 좋아하는 상대가 아니었던 것 같다. 상대적으로 낮은 세계가 승리했지만, 꽤 재밌는 과정이지 않는가? 최소한 66% 정도의 확신을 하고 미래를 기다릴 수 있으니까 말이다. 이것이 베이즈 통계의 가장 큰 재미고, 이 책이 나에게 줄 수 있는 가장 큰 선물이었다.

 

 

흥미로운 베이지안 통계_표지.jpg

 

 

흥미로운 베이지안 통계

BAYSEIAN STATISTICS THE FUN WAY

 

저자

윌 커트

 

역자

윤정미

 

출판사

에이콘출판(주)

 

페이지

356

 

출간일

2020-12-30

 

 

[손진주 에디터]



<저작권자 ⓒ아트인사이트 & www.artinsight.co.kr 무단전재-재배포금지.>
이름
비밀번호
자동등록방지
18409
 
 
 
 

등록번호/등록일: 경기, 아52475 / 2020.02.10   |   창간일: 2013.11.20   |   E-Mail: artinsight@naver.com
발행인/편집인/청소년보호책임자: 박형주   |   최종편집: 2021.05.12, 22시
발행소 정보: 경기도 부천시 부일로205번길 54 824호 / Tel: 0507-1304-8223
Copyright ⓒ 2013-2021 artinsight.co.kr All Rights Reserved

아트인사이트의 모든 콘텐트(기사)는 저작권법의 보호를 받습니다. 무단 전제·복사·배포 등을 금합니다.