자격증/빅데이터분석기사

[실기] 작업형 2유형 필수 암기 키워드

Ddolgom 2022. 10. 26. 22:25
반응형

데이터분석 전문가(ADP) 시험인 경우에는 오픈북이라서 책을 들고 들어갈수 있고 시험장에서 데이터 분석 전문가 가이드 를 제공한다고 명시가 되어 있다.

반면, 빅데이터 분석기사의 실기 시험은 오픈북 시험이 아니다.

 

 

검색도 불가능하고 

https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/2

 

구름EDU - 모두를 위한 맞춤형 IT교육

구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/

edu.goorm.io

groom IDE를 쓰는 형식이라서 코랩에서 제공하는 자동완성기능 또한 안된다.

 

그래서 실제로는 help()함수는 dir()함수를 써서 기능을 찾아가면서 할수는 있다.

print(help(StandardScaler)) # StandardScaler에 대한 정보가 쭉 출력된다.

 

하지만, 기본적으로 암기를 해야할 코드를 외우고 들어가야 한다.

 

다음과 2유형에서의 필수 패턴을 정리 하였다.

 

1. 패키지 import 

라이브러리 import는 항상 기본적으로 첫번째 수행해야 할 코드작성이다.

import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
from sklearn.model_selection import train_test_split
from xgboost import XGBRegressor, XGBClassifier
from sklearn.metrics import r2_score, roc_auc_score, f1_score

중요한 것은 대문자와 소문자를 구별을 해야한다는 것이다. 대문자를 소문자로 쓰면 당연히 import가 되지 않는다.

 

2. 파일 읽기

pd.read_csv()
x_train = pd.read_csv('/content/x_train.csv', encoding='cp949') # 사용예시

변수명 참조는 필수이다. X_train, x_train, xtrain, Xtrain 어떠한 방식을 써도 상관이 없다.

(당연한거지만서도 정말 자신이 있고 헷갈리지 않으면 kim_chaewon 이러한 식으로 변수 지정을 해도 된다.)

encoding='cp949'는 csv파일안에 정보들이 한글로 되어 있을 경우 넣어야 한다.

 

3. 전처리

x_train.drop(columns = []) # 컬럼 삭제
x_train[컬럼명].fillna() # 결측치 처리
x_train[컬럼명].replace(,).replace(,) # 값 교체, 결측치 처리
pd.get_dummies() # 원핫인코딩
scaler.fit_transform() # 데이터 스케일링 수행
encoder.fit_transform() # 인코딩 수행
pd.concat() # 데이터 결합

4. 데이터 분리

x_train, x_test, y_train, y_test

train_test_split(x_train, y_train, test_size = 0.2) # x_test, y_test 자동으로 20%로 분할됨

5. 모델 생성

XGBClassifier(eval_metric='error', random_state=10) # random_state는 넣지 않아도 된다.

6. 모델 학습

model.fit(x_train, y_train)

7. 값 예측

y_test_predicted = pd.DataFrame(model.predict(x_test))

8. 파일저장

y_test_predicted.to_csv('저장할 파일명', index=False) # 행번호 index는 저장하지 않으므로 필수적으로 False 지정 필요

 

참조 서적 : 2022 빅데이터 분석기사 실기 (프리렉 출판사)

반응형