책 소개 - https://www.hanbit.co.kr/store/books/look.php?p_code=B1996635146
실습 Github - https://github.com/HandsOnDataViz/book
책의 구성
이 책을 집필할 때 우리 목표는 데이터 시각화 작업에서 초보자가 맞닥뜨릴 가능성이 높은 문제와 그 문제를 해결하는 디지털 도구를 찾는 것이었습니다. (p.47 중에서)
이 책은 통계 데이터 분석은 다루지 않습니다. 많은 우수한 자원이 이미 이 광범위한 연구 분야를 다루고 있기 때문입니다. 그 대신 이 장에서는 5.1절 비교를 정확히 기술하기, 5.2절 데이터 정규화하기, 5.3절 편향된 비교 주의하기에서 자신의 이야기를 정확하고 통찰력 있게 전달할 수 있도록 시각화하는데 도움이 되는 데이터 분석 방법과 의미 있는 비교 전략을 살펴봅니다. (p.139 중에서)
책의 구성은 위에 내용으로 설명이 충분할거 같습니다. 하나의 시각화 툴을 기반하여 설명하지 않고 다양한 툴들을 '도구'로서만 책 내용에 담고 있습니다. 기초 통계 보다는 데이터 스토리텔링을 할 때 주의해야할 점이나 고려해야하는 점들에 대해 다룬 책입니다. 편향이나 정규화에 대해서도 다뤄볼 수 있다는 점이 이 책만의 특별한 점입니다. 😀
책의 재밌었던 점
- 더 설득력 있는 그림은 무엇일까?
위의 두 개의 테이블은 같은 데이터를 기반으로 한 차트이지만, 전달하는 메세지가 다르다는 점 느껴지시나요? 무엇이 다를까요..! 바로바로.. 세로축입니다. 왼쪽 차트는 세로축 레이블의 간격이 50,000달러라면, 오른쪽 차트는 90,000/99,000/400,000과 같은 세로축 레이블 간격을 가지고 있습니다. 두 차트의 세로축 레이블이 다른 이유는 왼쪽 차트는 일반적인 선형 눈금으로 표현된 차트라면, 오른쪽 차트는 로그 눈금을 사용했기 때문입니다. 로그 눈금을 사용한 오른쪽 차트는 올바른 차트 표현방법을 선택한 것일까요? 로그 눈금은 보통 기하급수적인 증가를 나타내는데 사용합니다. 해당 데이터 같은 경우엔 기하급수적 증가를 보이진 않기 때문에 부적합해보이며 마치 불평등 격차의 증가현상이 완화되었다는 메시지를 전달할 수 있습니다. 책에서 이런 데이터 시각화가 줄 수 있는 속임수를 언급해줘서 재밌었습니다~!
로그 눈금이란 언제 사용할까? - https://kr.tradingview.com/chart/BTCUSD/99KfZcO0/
- 순서대로 살펴보는 재미!
데이터 시각화 차트를 결과물로 내기까지의 순서를 바탕으로 설명하고 있는 점이 좋았습니다. 처음에는 데이터를 어떻게 정리하는지에 대해 구글 스프레드 시트와 같은 간단한 툴을 통해 설명해줍니다. 그 다음에는 데이터를 정규화하고 차트를 제작합니다.
책의 아쉬운 점
- 구글 스프레드시트/차트
- 리브레오피스 캘크 스프레드시트/차트
- 에어테이블 관계형 데이터베이스
- 태블로 PDF 테이블 추출기
- 오른리파인 데이터 클리너
- 데이터래퍼 차트/지도/테이블
- Chart.js 코드 템플릿
- 하이차트 코드 템플릿
- 구글 내 지도 간단한 지도 제작기
- 리플릿 맵 코드 템플릿
- 깃허브 편집 & 호스트 코드
- 깃허브 데스크톱 & 아톰 코드 편집기
- GeoJson.io 편집 & 그리기 지오데이터
- 맵세이퍼 편집 & 조인 지오데이터
- 맵 래퍼 지오레퍼런스 이미지
위의 목록이 이 책에서 활용하는 도구들입니다. 핸즈온 데이터 시각화이기 떄문에 직접해볼 수 있는 툴들을 기반으로 설명한다는 점이 좋지만, 너무 여러 도구를 사용하기 때문에 책의 두께에 비하면 TMT(Too Much Tools)로 보입니다. 아무래도 저자의 의도는 툴보다 스토리텔링이었기 때문에 도구보다는 주로 데이터 스토리텔링을 어떻게 하는지를 초점으로 두고 있습니다. 하지만 책의 두께가 그리 두껍지 않고 매 도구마다 간단하게라도 도구에 대한 설명이 들어가기 때문에 위의 리스트의 반으로라도.. 도구의 범위를 줄였으면 하는 아쉬움이 있었습니다.
추가로 아쉬운 점은 책에서 종종 발견되는 오타도... 있었습니다.
책에서 짚어주는 중요한 내용
편향이란 한 관점을 다른 관점보다 부당하게 선호하는 것을 의미합니다. 데이터 스토리텔링에서 유의해야할 편향 4가지를 책에서는 소개하고 있습니다.
- 샘플링 편향 (=표본 편향) - 데이터가 공정하게 선택되었다고 믿었을 때뿐만 아니라 일부 프로세스가 어떤 요소에 영향을 미쳐 결과가 왜곡되었을 때 발생합니다.
- 선택 편향 - 선택한 표본이 더 큰 모집단과 체계적으로 다른 경우를 말합니다.
- 무응답 편향 - 모집단의 특정 하위 집단이 조사에 응답할 가능성이 낮아 대표성이 떨어질 때 발생합니다.
- 자기선택 편향
- 인지 편향 - 왜곡을 발생시키는 인간 행동의 카테고리
- 확증 편향
- 패턴 편향
- 프레이밍 편향
- 알고리즘 편향 - 컴퓨터가 지배적인 사회 집단에서 보유하고 있는 권한을 강화함으로써 일상적으로 다른 결과보다 특정 결과를 선호할 때 발생합니다. e.g. 피곤인의 재범 위험 예측 알고리즘 - 백인 < 흑인 => 인종차별
- 그룹 간 편향 - 인종, 성별, 계급과 같은 사회적 카테고리에 의해 사람들이 특혜를 받거나 차별하는 여러가지 방식을 의미합니다. e.g. 나의 신념에 맞게 데이터를 시각화하는 것
책에서는 공간 편향에 대해서도 지도 영역 편향, 투영 편향, 분쟁 지역 편향, 지도 배제 편향 등을 예시와 함께 설명해줍니다. 데이터 시각화에서 발생할 수 있는 문제점에 대해 골고루 다뤄준다는 점이 좋은 책이었습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."