해당 글은 데이콘 경진대회에서 제공한 데이터셋 설명과 베이스라인 코드를 기반으로 작성했음을 밝힙니다.
Dacon 공식홈페이지: https://dacon.io/competitions/official/235591/
해결해야하는 문제
- 각각 픽셀별 강수량 산출
- Task 종류: 분류(Classification)
데이터 설명
- GPM(Global Precipitation Measurement) Core 위성의 GMI/DPR 센서에서 북서태평양영역 (육지와 바다를 모두 포함) 에서 관측된 자료
- 특정 orbit에서 기록된 자료를 40 X 40 형태로 분할(subset) 하여 제공
- subset_######_##.npy 파일로 제공되며, (height, width, channel) 형태
- ###### : 위성이 사용되기 시작한 이후로 몇 번째 지구를 돌았는지 나타내는 수(orbit 번호)
- 해당 orbit에서 몇 번째 subset인지를 나타내는 수입니다. orbit별로 subset의 개수는 다를 수 있음 (subset 번호)
train set
- 2016~2018 년 관측된 자료 (76,345개)
- 2016년 자료: orbit 번호 010462 ~ 016152 (25,653개)
- 2017년 자료: orbit 번호 016154 ~ 021828 (25,197개)
- 2018년 자료: orbit 번호 021835 ~ 027509 (25,495개)
test set
- 2019년 관측된 자료 (2,416개)
컬럼별 상세 설명
- 채널 0~8: 밝기 온도 (단위: K, 10.65GHz~89.0GHz)
- 채널 9: 지표 타입 (앞자리 0: Ocean, 앞자리 1: Land, 앞자리 2: Coastal, 앞자리 3: Inland Water)
- 채널 10: GMI 경도
- 채널 11: GMI 위도
- 채널 12: DPR 경도
- 채널 13: DPR 위도
- 채널 14: 강수량 (mm/h, 결측치는 -9999.xxx 형태의 float 값으로 표기)
개념 정리
- GMI: conical(곡선 스캔) 방법
- DPR: cross(직선 스캔) 방법

두 센서의 위치를 GMI를 기준으로 가장 가까운 위치의 DPR자료를 맞추어 대회 데이터를 생산했다고 합니다.
GMI, DPR 위도 경도 뜻 - DACON: https://dacon.io/competitions/official/235591/talkboard/400751
Baseline 코드 분석
Github: https://nbviewer.jupyter.org/github/vg-rlo/TIL/blob/master/ML/modified_baseline_using_unet.ipynb