데이터분석 전문가(ADP) 시험인 경우에는 오픈북이라서 책을 들고 들어갈수 있고 시험장에서 데이터 분석 전문가 가이드 를 제공한다고 명시가 되어 있다.
반면, 빅데이터 분석기사의 실기 시험은 오픈북 시험이 아니다.
검색도 불가능하고
https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/2
groom IDE를 쓰는 형식이라서 코랩에서 제공하는 자동완성기능 또한 안된다.
그래서 실제로는 help()함수는 dir()함수를 써서 기능을 찾아가면서 할수는 있다.
print(help(StandardScaler)) # StandardScaler에 대한 정보가 쭉 출력된다.
하지만, 기본적으로 암기를 해야할 코드를 외우고 들어가야 한다.
다음과 2유형에서의 필수 패턴을 정리 하였다.
1. 패키지 import
라이브러리 import는 항상 기본적으로 첫번째 수행해야 할 코드작성이다.
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor, XGBClassifier
from sklearn.metrics import r2_score, roc_auc_score, f1_score
중요한 것은 대문자와 소문자를 구별을 해야한다는 것이다. 대문자를 소문자로 쓰면 당연히 import가 되지 않는다.
2. 파일 읽기
pd.read_csv()
x_train = pd.read_csv('/content/x_train.csv', encoding='cp949') # 사용예시
변수명 참조는 필수이다. X_train, x_train, xtrain, Xtrain 어떠한 방식을 써도 상관이 없다.
(당연한거지만서도 정말 자신이 있고 헷갈리지 않으면 kim_chaewon 이러한 식으로 변수 지정을 해도 된다.)
encoding='cp949'는 csv파일안에 정보들이 한글로 되어 있을 경우 넣어야 한다.
3. 전처리
x_train.drop(columns = []) # 컬럼 삭제
x_train[컬럼명].fillna() # 결측치 처리
x_train[컬럼명].replace(,).replace(,) # 값 교체, 결측치 처리
pd.get_dummies() # 원핫인코딩
scaler.fit_transform() # 데이터 스케일링 수행
encoder.fit_transform() # 인코딩 수행
pd.concat() # 데이터 결합
4. 데이터 분리
x_train, x_test, y_train, y_test
train_test_split(x_train, y_train, test_size = 0.2) # x_test, y_test 자동으로 20%로 분할됨
5. 모델 생성
XGBClassifier(eval_metric='error', random_state=10) # random_state는 넣지 않아도 된다.
6. 모델 학습
model.fit(x_train, y_train)
7. 값 예측
y_test_predicted = pd.DataFrame(model.predict(x_test))
8. 파일저장
y_test_predicted.to_csv('저장할 파일명', index=False) # 행번호 index는 저장하지 않으므로 필수적으로 False 지정 필요
참조 서적 : 2022 빅데이터 분석기사 실기 (프리렉 출판사)
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사] 시험환경 (설치된 파이썬 패키지 리스트) (0) | 2022.11.29 |
---|---|
[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제 (2) 시간데이터 (0) | 2022.11.26 |
[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제(1) (2) | 2022.11.24 |
[빅데이터분석기사] 작업 2유형 작성패턴 - 분류문제 (6) | 2022.11.21 |
[5회 빅데이터분석기사] 필기 합격 (0) | 2022.10.14 |