반응형

분류 전체보기 63

[데이터 시각화] 데이터 시각화와 탐색 with POWER BI

데이터 시각화와 탐색 with POWER BI 2nd - YES24 데이터 시각화와 탐색 with POWER BI 2nd - YES24 복잡하고 이해하기 힘든 데이터를 Power BI로 시각화해 보자데이터 탐색과 시각화 WITH POWER BI 2nd 가장 최신의 데이터를 바탕으로, Power BI와 함께하는 슬기로운 데이터 생활Power BI와 함께라면 데이 www.yes24.com 영진닷컴에서 데이터 시각화와 관련된 툴인 POWER BI 서적이 나왔다. 데이터 시각화 | Microsoft Power BI 데이터 시각화 | Microsoft Power BI 데이터를 즉각적인 영향력으로 전환 단일 정보 소스를 생성하고, 더 강력한 인사이트를 발견하고, 이를 통해 영향력을 줄 수 있는 엔드 투 엔드 BI ..

IT 서적 리뷰 2022.12.11

[5회 빅데이터분석기사 실기] 시험 후기와 고찰

12월 3일 5회 빅데이터분석기사 실기 시험을 보았다. 고사장은 더조은아카데미 대구지점으로 메가스터디 계열학원으로 컴퓨터 학원이다. 시설은 깔끔하였고 대구 고사장 3곳 중 1곳으로 나머지 2곳은 직업학교 였는데, 아무래도 접근성때문에 본 고사장이 빨리 마감되는 경향성이 있었다. [5회 시험후기] 본격적인 후기인데 필답형 10문제는 크게 어려운 점이 없었다라고 하지만, 카프카, 맵리듀스 등 빅데이터 프레임워크 문제 하나를 틀린 것 같고 계산문제는 2문제 정도 출제되었다. (혼동행렬은 항상 1문제가 나옴) 신박하다고 느낀것은 Leaky Relu 문제가 출제되었다는 점인데, (RELU가 아님) 딥러닝 활성화 함수의 특징들은 다 알아 놓는 것이 좋을 것 같다. 유형1의 실기문제는 다소 꼬여있는 부분들이 많았는데..

[데이터사이언스대학원입시] 경북대 데이터사이언스대학원 면접 후기

엊그제 퇴사를 하고 나와서 어제 곧바로 대학원 면접을 보았다. 경북대 데이터사이언스 대학원은 작년에 1회 입시로 1기수를 뽑은 신생 데이터사이언스 대학원이다. 데이터사이언스대학원을 여러군데 알아보고 입시도 알아보았는데, 크게 우리나라에서는 2가지 타입으로 나뉘어진다. 1. 학문을 중시하는 일반학위석사를 수여해주는 일반대학원 2. 실용성을 중시하여 실무위주의 직장인도 다닐수 있는 전문/특수 대학원 (전문석사학위가 수여됨) 2가지 타입의 장단점이 명확히 존재하여서 조금만 알아보면 내가 어느 타입의 대학원을 들어가야하는지 감을 잡을 수 있다. 정확한 예시인지는 모르겠으나, 입시설명회를 참석했을때, 서울권에 대학원중에 S대 같은 경우에는 1번 타입, H대 같은 경우에는 2번타입의 느낌이 강했다. 또는 2가지 타..

[빅데이터분석기사] 시험환경 (설치된 파이썬 패키지 리스트)

5회 시험기준 [패키지 리스트 확인 명령어] 응시환경에서 아래 명령어를 이용하여 설치된 패키지를 확인할 수 있습니다. import pkg_resources import pandas OutputDataSet = pandas.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) print(OutputDataSet) [패키지 리스트] 0 asn1crypto 0.24.0 1 beautifulsoup4 4.9.3 2 certifi 2018.1.18 3 chardet 3.0.4 4 cryptography 2.1.4 5 cycler 0.10.0 6 cython 0.29.24 7 distlib 0.3.2 8 idna 2.6 9 joblib..

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제 (2) 시간데이터

빅데이터 분석기사 시험에서는 회귀 문제중에 시간데이터를 다룰 확률이 높다. 사실 강의나 책마다 다루는 경우가 있고 다루지 않는 경우도 있으나, 추가적으로 다루어 보고자 한다. 데이터셋의 경우에는 x_train, x_test, y_train이 나누어 지지 않은 경우로 진행도 해보았지만, 실제로 dataq.or.kr 홈페이지에 들어가서 실습환경을 보면 3개의 데이터가 분리되어 있고 최종적으로 y_test값을 제출하는 형식이라서 이번에는 나누어져 있는 데이터로 진행을 해보려고 한다. (실제 실무에서는 이렇게 친절하게 나눠져 있지 않고, 앞으로의 출제 형식 자체도 전체 데이터 하나를 직접 나누어서 해야할 수 도 있을 것 같다.) 1. 데이터 read import pandas as pd import numpy a..

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제(1)

작업 2유형 분류문제에 이어서 회귀문제 코드패턴을 다루고자 한다. 사실 분류 모델과 비교 했을때, 전반적으로 달라지는 것들은 없으나, 정형화 공식 (역시 4개 파트로 나눌 수 있다.) 1. 데이터 가져오기 2. 결측치 확인 및 대체하기(제거하기) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 3. 라벨 인코딩 (범주형 -> 수치형) 4. 원핫 인코딩 (범주형 ->수치형) * 3, 4 부분에서 수치형 -> 범주형 같은 경우에는 binning의 과정을 해야 된다. (회귀(예측) 문제일 경우) 5. 파생변수 생성 6. 스케일링 (1. StandardScaler 2. MinMaxScaler) 1은 범주형 데이터일 경우 2는 수치형일 경우 변환해준다. ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

[빅데이터분석기사] 작업 2유형 작성패턴 - 분류문제

빅데이터 분석기사의 2유형은 전체 100점 배점중 40점을 차지하는 한 문제가 나온다.필답형 문제 (30점)이나 1유형 (30점)을 만점을 받을 자신이 있으면 날려도 되지만, 보통 그렇게 하기 힘든 부분이다.그래서 꼭 부분점수라도 받아야 하는 파트이다. 머신러닝 모델링을 하여 결괏값을 내는 것 이외에도 마지막에 저장을 해서 제출하여야 한다.(1유형은 print함수로 결과값만 스크린에 출력하면 된다.) 현재까지의 기출이나 교재를 봤을때의 정형화 시킨 공식은 다음과 같다.사람마다 작성법이 달라지고 코딩 스타일이 다르므로 이 틀에서 살만 덧붙이면 될 것 같다. 정형화 공식 (4개파트로 나눌 수 있다.)1. 데이터 가져오기2. 결측치 확인 및 대체하기(제거하기)ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

[Python] lambda 함수 사용

Lambda 라는 함수가 있다. Lambda function(람다 함수)라는 말 말고도 Lambda expression(람다식)이라고도 한다. 간단히 말해서 이름없는 함수이다. 왜 이런 이름없는 근본도 없는(?) 함수를 쓰느냐? 간결하게 하기 위해서다 다음과 같은 함수가 있다고 가정하자. >>> divmod(3.0,15.0) >>> def greeting(a): print(a) >>> post = greeting # greeting 이라는 함수는 ref가 참조하게 된다. >>> post('hi') # hi가 출력된다. hi greeting이라는 함수를 통해서 post라는 변수에 저장을 한뒤에 post함수에 hi라는 문자열을 넣으면 hi가 출력된다. Lambda함수를 이용하여 한줄로 처리해 보겠다. >>>..

Python/Basic 2022.11.08

[Python] glob함수 사용

Python에서 데이터 분석을 위해서 데이터들을 가져오게 된다. 정형데이터나 비정형 데이터와는 상관없이 파일의 양이 많은 경우가 대부분이다. 판다스를 사용하기 위해서 excel파일이나 csv파일을 불러오는 예시를 보자. df = pd.read_excel('/content/data_01/data_day_2019.xlsx') # excel 불러오기 df df = pd.read_csv('/content/data_01/data_day_2019.csv') # csv 파일 read df 변수명인 df를 참조하고, pd.read_csv나 pd.read_excel을 입력하고 괄호안에 파일 경로를 입력해준다. ('파일이 있는 경로 입력') 물론 pd를 쓰려면 판다스 라이브러리를 import 해 놓은 상태여야 한다. im..

Python/Basic 2022.11.07

[빅데이터 분석기사 실기] 2023 이기적 빅데이터 분석기사 실기

이기적 빅분기 책을 받게 되었다. 필자는 2022 이기적 빅분기 필기책을 메인으로 봤었고 합격을 하였다. 개인적으로 2과목의 통계학 부분이 정말 알차게 설명이 되어 있었고 많은 도움이 되었다. (적분 유도라던지 이러한 부분들은 사실 문과출신이라면 어려울 수 있는 부분이었다.) 책이 애초에 2권으로 분권이 되어서 비닐로 포장이 되어 있다. 이 책의 가장 큰 장점인데, 33000원의 비교적 저렴한 가격으로 2가지 언어 모두를 공부할 수 있다. 물론 초심자들은 두 언어를 접해보고 나에게 가장 최적화된 언어를 선택해야할 것이다. 다른 서적들은 R과 파이썬 2개를 나누어서 따로 책을 판매하고 있다. 2가지 언어를 다 제공하는 부분은 정말 큰 장점이다. 총평 디자인 책의 디자인이 표지뿐만 아니라 안쪽도 개선이 되었..

반응형