도서 - https://www.hanbit.co.kr/store/books/look.php?p_code=B5825921855
실습자료 - https://www.hanbit.co.kr/support/supplement_survey.html?pcode=B5825921855
책의 장점
책의 구성은 간단한 차트 활용부터 시각화 사례를 기반 실습의 순서로 되어있습니다. 차트 유형들에 대해 숙지하고 있는 분들이더라도 사례 분석 파트를 바로 읽으면서 책에서 진행하는 실습을 따라가보면 유익할거 같습니다. 저는 태블로를 처음 사용해봤지만 책에서 어떤 요소를 클릭해야하는지 친절하게 설명되어 있고 레이아웃에 대한 설명도 꼼꼼하게 잘 되어있어 태블로 퍼블릭을 사용해서 실습하는데 큰 어려움이 없었습니다. 공공데이터를 위주로 다루기 때문에 기존에 데이터분석을 Python이나 다른 언어 기반으로 공부하신 분은 주제가 익숙해서 책의 내용으로 태블로라는 툴에 익숙해지는데 포커스해서살펴보실 것을 추천드립니다. 해당 책에서 다루는 데이터는 미세먼지, 공공자전거, 대학 입학정원, 종량제 쓰레기 봉투 가격, 교통사고가 있으며 중간 중간 공공데이터 포털에서 이용해볼 수 있는 데이터들에 대해 추천해줍니다. 책의 구성 중 마음에 드는 부분은 데이터에 대해 던져볼 수 있는 질문이 함께 있어 데이터를 보고 어떤 주제에 대해 생각해볼 수 있을지 도와준다는 점입니다. 질문에 대한 답도 있지만 실습하실때는 답 먼저 보지 않고 데이터 시각화 실습 과정을 따라가고, 시각화 결과를 보고 어떤 결론을 내볼 수 있을지 고민해볼 것을 추천드립니다.
아래부터는 책에서 제공된 실습 과정을 따라간 내용입니다.
실습 1. 사고유형별 교통사고 현황
데이터에서 얻고자 하는 정보는 아래와 같습니다.
- 사고유형대분류별 교통사고 현황은 어떻게 되는가?
- 사고유형중분류별 교통사고 현황은 어떻게 되는가?
- 사고유형대분류별 사고건수와 사망자수는 어떤 관계가 있는가?
테이블을 먼저 살펴보면 사고유형 관련 속성과 신고자수, 건수 등에 대한 속성들이 있는 것을 확인할 수 있습니다. 살펴보고자하는 데이터에 따라 행과 열을 구분하여 드래그앤드롭해주면 됩니다.
내가 본 데이터
먼저, 대분류별로 교통사고 현황을 살펴봤을때 차대차, 차대사람, 차량단독, 철길건널목 사고들 중 차대차 사고건수가 많게는 약 90% 이상(경상자수), 적게는 약 40% 이상(사망자수)을 차지하여 다른 유형에 비해 월등히 많이 발생함을 알 수 있습니다. 좀더 살펴보면, 사망자수에서는 다른 사고유형에 비해 차대차의 건수가 차지하는 비중이 적습니다. 차대사람인 경우가 아무래도 무방비인 상태의 사람과 고철인 차량이 부딪히다보니 해당 유형에서 사망자수의 유형분포가 다르게 나타나는 것으로 보입니다.
중분류를 기준으로 살펴보면, 보행 중, 정면충돌 등과 같이 교통사고가 어떤 행동 중에 발생했는지 알 수 있습니다. 중분류에서는 기타를 제외하고 측면충돌이나 추돌로 인한 교통사고가 많음을 알 수 있었습니다. 해당 데이터는 단순히 건수 기반으로 합계된 자료여서 확인이 어렵겠지만 중분류를 보면서 중복되는 데이터는 없는지 궁금했습니다.
대분류를 기준으로 사망건수와 사고건수의 상관관계를 살펴봤습니다. 살펴봤을때 차대차, 차대사람, 차량단독 모두 양의 상관관계를 가졌으며 차대차 < 차대사람 < 차량단독 순으로 기울기가 가파름을 알 수 있었습니다. 이중 가장 기울기가 가파른 차량단독에서는 사고건수에 비해 사망자수가 매우 많다는 사실을 알 수 있습니다.
책에서 설명하는 질문에 대한 답
A1. 차대차 사고가 가장 많이 발생하며 차대사람 사고가 그 뒤를 따르고 있다는 사실을 알 수 있습니다. 사고건수와 사망자수의 관계 차트까지 같이 보면 차대차 사고는 사고건수 대비 사망자수가 비교적 낮으나, 차대사람 사고는 사고건수 대비 사망자수가 매우 높다는 사실을 확인할 수 있습니다.
A2. 사고건수, 중상자수, 경상자수, 부상신고자수는 측면충돌에서 가장 높습니다.반면 사망자수는 측면충돌보다 기타 상황에서 가장 높습니다.
A3. 차량단독 사고에서 사고건수가 증가할수록 사망자수가 급격하게 증가한다는 사실을 확인할 수 있습니다. 차대사람 사고에서 역시 사고건수와 사망자수가 함께 증가하는 패턴을 보입니다.
위의 시각화 자료에 스토리텔링으로 표현한다면 어떻게 될까요? 해당 자료는 대분류 유형에서 중분류 유형, 각 지표간의 관계를 큰 개념 > 작은 개념으로 살펴보고 있습니다. 이를 스토리텔링으로 표현한다면 드릴다운이 적합하다고 생각합니다! 책에서는 스토리텔링에 대해서도 설명해주고, 이에 관련해서 응용해보는 실습까지 설명되어 있습니다.
태블로 스토리의 장점
- 데이터 스토리텔링을 하면서 차트와 상호작용이 가능하다.
- 데이터 필터링, 강조, 정렬 등이 용이하다.
- 실시간성 때문에 보는 사람의 질문에 더욱 유기적으로 대처 가능하다.
7가지 데이터 스토리텔링 표현 방법
어떤 데이터 시각화 자료를 보여주면서 설명할 것인가는 시간대별 변화, 드릴다운, 축소, 대조, 교차, 요소, 이상값 중에서 정해볼 수 있습니다.
- 시간대별 변화
- 드릴다운: 범죄 수사를 할 때처럼 주목할만한 큰 항목에서부터 세부항목을 하나씩 살펴보는 표현방법
- 축소: 공감을 불러오는 소소한 내용을 시작으로 해당 문제와 연결되는 큰 문제들을 점진적으로 표현하는 방법
- 예시 - 작은 에피소드나 경험을 먼저 제시하여 사람들에게 공감을 얻은 후 이후에 차트나 영향에 대한 시각화 자료를 설명하는 방식
- 대조: 비교
- 교차: 특정 항목의 수치가 다른 항목의 수치를 넘어설때 발생하는 변화를 강조하는 표현방법
- 요소: 카테고리
- 이상값
실습 2. 사고유형별 교통사고 현황을 기반으로 데이터 스토리텔링
해당 내용은 시험일정이 있어, 추후 작성하겠습니다. (책 구매를 통해 더 자세히 실습과정을 알아갈 수 있습니다. 😊)
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."