반응형

빅데이터분석기사 공부 2

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제 (2) 시간데이터

빅데이터 분석기사 시험에서는 회귀 문제중에 시간데이터를 다룰 확률이 높다. 사실 강의나 책마다 다루는 경우가 있고 다루지 않는 경우도 있으나, 추가적으로 다루어 보고자 한다. 데이터셋의 경우에는 x_train, x_test, y_train이 나누어 지지 않은 경우로 진행도 해보았지만, 실제로 dataq.or.kr 홈페이지에 들어가서 실습환경을 보면 3개의 데이터가 분리되어 있고 최종적으로 y_test값을 제출하는 형식이라서 이번에는 나누어져 있는 데이터로 진행을 해보려고 한다. (실제 실무에서는 이렇게 친절하게 나눠져 있지 않고, 앞으로의 출제 형식 자체도 전체 데이터 하나를 직접 나누어서 해야할 수 도 있을 것 같다.) 1. 데이터 read import pandas as pd import numpy a..

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제(1)

작업 2유형 분류문제에 이어서 회귀문제 코드패턴을 다루고자 한다. 사실 분류 모델과 비교 했을때, 전반적으로 달라지는 것들은 없으나, 정형화 공식 (역시 4개 파트로 나눌 수 있다.) 1. 데이터 가져오기 2. 결측치 확인 및 대체하기(제거하기) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 3. 라벨 인코딩 (범주형 -> 수치형) 4. 원핫 인코딩 (범주형 ->수치형) * 3, 4 부분에서 수치형 -> 범주형 같은 경우에는 binning의 과정을 해야 된다. (회귀(예측) 문제일 경우) 5. 파생변수 생성 6. 스케일링 (1. StandardScaler 2. MinMaxScaler) 1은 범주형 데이터일 경우 2는 수치형일 경우 변환해준다. ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

반응형