금융 전략을 위한 머신러닝 실습 - https://gitlab.com/inspro9/hanbit_mlfi
금융 전략을 위한 머신러닝 - https://www.hanbit.co.kr/media/books/book_view.html?p_code=B2331794765
전체적인 내용
금융 전략을 위한 머신러닝의 책 목차를 보면, 핸즈온 머신러닝이나 밑바닥부터 시작하는 딥러닝과 같은 유명한 딥러닝/머신러닝 저서들과 비슷한 목차로 구성되어 있습니다.
- 프레임워크
- 지도 학습
- 비지도 학습
- 강화 학습과 자연어 처리
여러 머신러닝/딥러닝 모델들을 금융 분야에 접목했을때 어떤 식으로 활용할 수 있는지 알 수 있습니다. 책에서 소개하는 금융 분야에서의 머신러닝 활용의 예시로는 아래의 내용들이 있습니다. 해당 예시들과 관련된 머신러닝/딥러닝 실습들이 책에서 소개되어 있고, 실습 관련해서 gitlab 페이지에 실습 코드가 제공됩니다.
- 알고리즘 트레이딩
- 포트폴리오 관리와 로보 어드바이저
- 이상 거래 탐지
- 대출/신용카드/보험 계약 심사자동화와 챗봇
- 위험 관리
- 자산 가치 예측
- 파생 상품 가격 책정
- 감정 분석
- 거래 결제
- 돈세탁 방지
Part 1. 프레임워크
책 서두에 해당하는 Part 1 프레임워크에서 머신러닝/딥러닝의 기초적인 정의부터 Python 패키지 설치, 탐색적 데이터 분석, 모델 평가, 모델 튜닝 등 모델 개발의 전 단계를 전체적으로 설명합니다. 초급자라면 Part 1은 전체적으로 읽으면서 개념을 체크해보고 잘 알고 있는지 확인하면서 읽는 것을 추천합니다. 면접이나 취업 준비할 때 알고 있으면 좋을 개념들을 짧게 4~5줄 정도로 요약하고 정리되어 있기 때문에 개념을 다시 한번 체크하기에 좋은 내용으로 구성되어있습니다. 여러번의 대회 경험이 있거나 딥러닝/모델 개발 경험이 여러번 있는 독자 분들은 해당 파트를 skip해도 괜찮을거 같습니다.
Part 2. 지도 학습
scikit learn 라이브러리에서 사용해볼 수 있는 회귀 모델과 분류 모델의 대다수를 다룹니다. 각 모델들에 대해 구체적으로 다루진 않지만 공식 문서 수준으로 모델 코드가 짤막하게 제공되고, 모델 이론과 각 모델의 장단점, 그리고 하이퍼파라미터를 각각 언급하기 때문에 Part 2 역시 초급자 분들에게 개념을 다시 되짚어보기 좋은 부분들이라고 생각됐습니다.
- 회귀
- 선형 회귀
- 정규화 회귀
- K - 최근접 이웃
- 결정 트리 회귀(CART)
- 서포트 벡터 회귀
- 에이다부스트
- 경사 부스팅 방법
- 랜덤 포레스트 방법
- 엑스트라 트리
- 분류
- 로지스틱 회귀
- 선형 판별 분석
- K - 최근접 이웃
- 결정 트리 분류기
- 서포트 벡터 분류기
- 에이다부스트
- 경사 부스팅 방법
- 랜덤 포레스트 방법
- 엑스트라 트리
이외에도 시계열 모델, 딥러닝 모델을 활용한 예제가 함께 있으며 각 예제에서는 다른 이슈를 다룹니다. 어떤 문제에서는 불균형한 데이터셋 이슈, 특성 선택, 평가 메트릭의 선택 등 모델링을 하면서 부딪힐 수 있는 여러 이슈들에 대한 부분이 설명되어있습니다. 책에서 대부분의 이론은 구체적으로 설명되어있지는 않습니다. 하지만, 머신러닝/딥러닝 관련 키워드를 전체적으로 익힐 수 있다는 점이 좋습니다.
Part 3. 비지도 학습
비지도 학습 부분에서는 머신러닝/딥러닝을 배우다보면 예측 모델이나 분류 모델은 자주 접하지만 공부하는 단계에서는 실습을 자주 해볼 수 없는 차원 축소나 군진화 예제가 담겨있습니다. Part 3가 이 책의 장점을 잘 드러내는 파트라고 생각했습니다. 어떤 태스크를 가지고 이런 모델을 적용해볼 수 있다라고 설명해주고 그 과정에서 모델링 코드만 제공하지 않고 보여지는 시각화 자료나 모델링 결과에 대한 해석까지 같이 제공되어 좋았습니다.
Part 4. 강화 학습과 자연어 처리
해당 파트에서는 강화 학습을 거래 전략이나 헤징 전략, 포트폴리오 배분 등에 활용하는 예시들을 보여줍니다. 그리고 자연어 처리는 Word2Vec, TextBlob, LSTM, ChatterBot 등 사전 학습된 모델이 담긴 라이브러리나 모델을 활용해서 금융 분야에서 어떻게 쓰이는지 예시로 실습이 제공됩니다. 자연어 처리에는 요약, 감정 분석, 챗봇 등과 관련된 모델링을 짆냉해볼 수 있습니다. 강화 학습과 자연어 처리에는 짧은 분량에서 여러 방향의 모델 기법들이 담겨 있다보니 짧은 설명에 비해 개념적으로 담아야하는 내용이 너무 많은 점이 아쉬웠습니다.
누구에게 추천하는 책일까?
머신러닝/딥러닝이 아예 처음이라면 해당 책에서도 Part 1을 추천하지만, Part 2, Part 3는 보고 책도 접고.. 머신러닝/딥러닝도 접게 되지 않을까?! 싶습니다. 어느 정도 회귀/분류 모델에 대한 이해가 있고, 주피터 노트북으로 실습을 진행하면서 scikit learn 정도 활용해본 경험이 있는 분들이 해당 책으로 읽어보실 것을 추천드립니다. 여러 실습이 해결해야하는 문제와 함께 있기 때문에 단순히 모델을 이해하는 실습만으로 구성되어 있지 않습니다. 그래서 실습을 따라가면서 공부하면 꼭 금융 분야에 관심이 있지 않더라도 책을 즐겁게 읽어나갈 수 있을거 같습니다. 책을 읽으면서 저도 많이 했던 생각이 "이 모델을 적용해서 이런 문제도 풀 수 있구나!" 였습니다. 책 표지에 소개된 것처럼 19가지 사례와 함께 익히는 머신러닝이기 때문에 사례 기반의 학습을 할 수 있다는 점에서 조금 머신러닝/딥러닝 모델이 익숙한 독자 분들에게 토이 프로젝트를 만들어갈 수 있는 아이디어를 제공할 수 있는 책이라고 생각됩니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."