반응형

전체 글 58

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제(1)

작업 2유형 분류문제에 이어서 회귀문제 코드패턴을 다루고자 한다. 사실 분류 모델과 비교 했을때, 전반적으로 달라지는 것들은 없으나, 정형화 공식 (역시 4개 파트로 나눌 수 있다.) 1. 데이터 가져오기 2. 결측치 확인 및 대체하기(제거하기) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 3. 라벨 인코딩 (범주형 -> 수치형) 4. 원핫 인코딩 (범주형 ->수치형) * 3, 4 부분에서 수치형 -> 범주형 같은 경우에는 binning의 과정을 해야 된다. (회귀(예측) 문제일 경우) 5. 파생변수 생성 6. 스케일링 (1. StandardScaler 2. MinMaxScaler) 1은 범주형 데이터일 경우 2는 수치형일 경우 변환해준다. ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

[빅데이터분석기사] 작업 2유형 작성패턴 - 분류문제

빅데이터 분석기사의 2유형은 전체 100점 배점중 40점을 차지하는 한 문제가 나온다.필답형 문제 (30점)이나 1유형 (30점)을 만점을 받을 자신이 있으면 날려도 되지만, 보통 그렇게 하기 힘든 부분이다.그래서 꼭 부분점수라도 받아야 하는 파트이다. 머신러닝 모델링을 하여 결괏값을 내는 것 이외에도 마지막에 저장을 해서 제출하여야 한다.(1유형은 print함수로 결과값만 스크린에 출력하면 된다.) 현재까지의 기출이나 교재를 봤을때의 정형화 시킨 공식은 다음과 같다.사람마다 작성법이 달라지고 코딩 스타일이 다르므로 이 틀에서 살만 덧붙이면 될 것 같다. 정형화 공식 (4개파트로 나눌 수 있다.)1. 데이터 가져오기2. 결측치 확인 및 대체하기(제거하기)ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

[Python] lambda 함수 사용

Lambda 라는 함수가 있다. Lambda function(람다 함수)라는 말 말고도 Lambda expression(람다식)이라고도 한다. 간단히 말해서 이름없는 함수이다. 왜 이런 이름없는 근본도 없는(?) 함수를 쓰느냐? 간결하게 하기 위해서다 다음과 같은 함수가 있다고 가정하자. >>> divmod(3.0,15.0) >>> def greeting(a): print(a) >>> post = greeting # greeting 이라는 함수는 ref가 참조하게 된다. >>> post('hi') # hi가 출력된다. hi greeting이라는 함수를 통해서 post라는 변수에 저장을 한뒤에 post함수에 hi라는 문자열을 넣으면 hi가 출력된다. Lambda함수를 이용하여 한줄로 처리해 보겠다. >>>..

Python/Basic 2022.11.08

[Python] glob함수 사용

Python에서 데이터 분석을 위해서 데이터들을 가져오게 된다. 정형데이터나 비정형 데이터와는 상관없이 파일의 양이 많은 경우가 대부분이다. 판다스를 사용하기 위해서 excel파일이나 csv파일을 불러오는 예시를 보자. df = pd.read_excel('/content/data_01/data_day_2019.xlsx') # excel 불러오기 df df = pd.read_csv('/content/data_01/data_day_2019.csv') # csv 파일 read df 변수명인 df를 참조하고, pd.read_csv나 pd.read_excel을 입력하고 괄호안에 파일 경로를 입력해준다. ('파일이 있는 경로 입력') 물론 pd를 쓰려면 판다스 라이브러리를 import 해 놓은 상태여야 한다. im..

Python/Basic 2022.11.07

[빅데이터 분석기사 실기] 2023 이기적 빅데이터 분석기사 실기

이기적 빅분기 책을 받게 되었다. 필자는 2022 이기적 빅분기 필기책을 메인으로 봤었고 합격을 하였다. 개인적으로 2과목의 통계학 부분이 정말 알차게 설명이 되어 있었고 많은 도움이 되었다. (적분 유도라던지 이러한 부분들은 사실 문과출신이라면 어려울 수 있는 부분이었다.) 책이 애초에 2권으로 분권이 되어서 비닐로 포장이 되어 있다. 이 책의 가장 큰 장점인데, 33000원의 비교적 저렴한 가격으로 2가지 언어 모두를 공부할 수 있다. 물론 초심자들은 두 언어를 접해보고 나에게 가장 최적화된 언어를 선택해야할 것이다. 다른 서적들은 R과 파이썬 2개를 나누어서 따로 책을 판매하고 있다. 2가지 언어를 다 제공하는 부분은 정말 큰 장점이다. 총평 디자인 책의 디자인이 표지뿐만 아니라 안쪽도 개선이 되었..

[실기] 작업형 2유형 필수 암기 키워드

데이터분석 전문가(ADP) 시험인 경우에는 오픈북이라서 책을 들고 들어갈수 있고 시험장에서 데이터 분석 전문가 가이드 를 제공한다고 명시가 되어 있다. 반면, 빅데이터 분석기사의 실기 시험은 오픈북 시험이 아니다. 검색도 불가능하고 https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/2 구름EDU - 모두를 위한 맞춤형 IT교육 구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/ edu.goorm.io groom IDE를 쓰는 형식이라서 코랩에서 제공하는 자동완성기능 또한 안..

[Python] 설치된 모든 패키지 버전 확인

import pkg_resources import pandas as pd data = pd.DataFrame(sorted([(i.key,i.version) for i in pkg_resources.working_set])) data 다음과 같이 패키지가 405가지가 되는걸 알 수 있다. 모든 패키지를 쓰지 않기 때문에, 필요한 패키지의 버전을 찾아야 한다. data.loc[data[0] == 'scipy'] # scipy의 버전 찾기 전체 데이터에서 0의 열에서 scipy의 값을 찾을수 있는 예시이다. 다른 패키지도 scipy 대신에 원하는 패키지를 넣어서 확인할 수 있다. 사실, 위의 짓은 뻘짓중에 상 뻘짓으로.. !pip freeze # !(느낌표) 붙여야 한다. 를 실행하면 모든패키지의 내용을 비정..

Python/Basic 2022.10.25

[빅데이터 분석기사 실기]빅데이터 분석기사 실기 with Python 데이터에듀

데이터 에듀에서 새롭게 발간된 빅데이터 분석기사 실기 책이다. 데이터 에듀는 ADsP 시험에서 유명한 일명 민트책을 출간하는 출판사이다. 사실 민트책은 바이블이라고 할 정도로 ADsP 수험서 시장에서 점유율 1위를 하고 있는 책이다. 통계를 내어 보진 않았지만, 내가 운영진으로 있는 데이터 포럼 카페에서는 압도적으로 책에 관련된 질문이 많이 올라온다. 나머지 책은 언급되는 정도가 거의 전무한 수준 물론 필자는 ADsP 자격증을 취득했지만, 타 출판사의 책을 이용했었고 민트책으로 한번도 공부해본 적이 없었다. 때마침 이벤트로 당첨이 되어서 같은 출판사에서 출간된 빅데이터 분석기사 실기책을 받게 되었다. 원서접수 소개, 이번달에 발간된 책인 만큼 내년 예상 일정 소개까지 되어있다. 실기 응시료는 40800원..

[5회 빅데이터분석기사] 필기 합격

대망의 빅데이터분석기사 필기 시험에 합격하였다. 올초 국비교육을 받으면서 상반기에 보려고 했던 시험인데, 해커톤과 빠듯한 교육일정으로 스터디를 참여하고 있었지만, 응시를 하지못했고 이번 하반기에 응시를 해서 한번에 합격을 하였다. 3, 4과목 모델링, 결과해석 파트는 국비교육때 매번 했던 부분이였고, 1, 2과목이 조금 생소한 부분이였는데, 개인적으로는 1과목이 가장 힘들었다. 왜냐하면 순서를 외워야 할 것이 너무나도 많았기 때문이다. 저번에 치루었던 ADsP에서 1,2과목이 빅데이터 분석기사의 1과목인데, 사실상 1과목 하나만으로 ADsP1,2 과목보다 커버리지가 커서 공부량이 2배는 되는 느낌이었다. 2과목은 EDA, 기술통계, 추론통계가 주를 이루는 실질적으로 데이터 사이언티스트에게 가장 기본 덕목..

[C언어]나도코딩의 C언어 입문

C언어 입문 책이다. 사실, C언어는 컴퓨터의 근본 언어이다. 우리가 많이 쓰는 운영체제인 윈도우, 리눅스의 핵심부는 C언어로 짜여져 있다. 거기에다가.. C언어는 JAVA와 함께 많은 곳에서 쓰고 있기 때문에 좀 잘다루고 경력만 있다면, C언어와 JAVA는 아직도 개발자 시장에서는 취업깡패라고 볼 수 있다. (포퍼먼스 또한 극강이라서 게임개발자로 취업하려면 필수이다.) 이렇지만, 필자 같은 경우에는 비전공자 출신이고 컴퓨터나 전산학을 학부때 해본 경험이 전무하여 컴파일 언어인 C언어는 전혀 알지 못한다. 이와중에 받게된 C언어 입문서적 나름 코딩교육계에서 유명하신 분인거 같으나 처음봤다. (노마드코딩이나 조코딩은 많이 봤는데.. 이번 기회에 유튜브구독을...) 항상 느끼지만, 길벗 출판사책은 디자인과 ..

IT 서적 리뷰 2022.10.13
반응형