반응형

전체 글 64

[데이터사이언스대학원] 2023학년도 경북대 데이터사이언스대학원 합격후기

데이터 사이언스 대학원에 합격하였다. 면접을 무난하게 봤다고 생각을 했었지만, 발표날이라서 그런지 아침 일찍 깨서 오전 10시까지 기다렸다. 그 찰나의 순간이 마치 훈련소 수료 후 자대배치 직후만큼이나 느리게 갔다. 불합격이 뜨게 되는걸 가정하여 플랜B를 세워놓았었지만, 그렇게 좋은 계획은 아니였어서 부담감이 컸던 것 같다. 따뜻한 연말을 맞이하게 된 이상 연말까지는 프리모드를 지속하다가 연초 1월부터는 입학전이지만, 계속 담금질을 할 예정이다. 도움을 준 사람들도 많은데 내공을 쌓아서 입학 후에도, 재학중에도, 졸업 후에도 능력치를 돌려줄 수 있도록 힘을 다할 예정이다. p.s.) 면접후기에도 언급을 했지만, 학업계획서와 10~15분의 면접 시간에 어필을 하는 것이 중요해보인다. (성실성의 척도인 학부..

[데이터 시각화] 데이터 시각화와 탐색 with POWER BI

데이터 시각화와 탐색 with POWER BI 2nd - YES24 데이터 시각화와 탐색 with POWER BI 2nd - YES24 복잡하고 이해하기 힘든 데이터를 Power BI로 시각화해 보자데이터 탐색과 시각화 WITH POWER BI 2nd 가장 최신의 데이터를 바탕으로, Power BI와 함께하는 슬기로운 데이터 생활Power BI와 함께라면 데이 www.yes24.com 영진닷컴에서 데이터 시각화와 관련된 툴인 POWER BI 서적이 나왔다. 데이터 시각화 | Microsoft Power BI 데이터 시각화 | Microsoft Power BI 데이터를 즉각적인 영향력으로 전환 단일 정보 소스를 생성하고, 더 강력한 인사이트를 발견하고, 이를 통해 영향력을 줄 수 있는 엔드 투 엔드 BI ..

IT 서적 리뷰 2022.12.11

[5회 빅데이터분석기사 실기] 시험 후기와 고찰

12월 3일 5회 빅데이터분석기사 실기 시험을 보았다. 고사장은 더조은아카데미 대구지점으로 메가스터디 계열학원으로 컴퓨터 학원이다. 시설은 깔끔하였고 대구 고사장 3곳 중 1곳으로 나머지 2곳은 직업학교 였는데, 아무래도 접근성때문에 본 고사장이 빨리 마감되는 경향성이 있었다. [5회 시험후기] 본격적인 후기인데 필답형 10문제는 크게 어려운 점이 없었다라고 하지만, 카프카, 맵리듀스 등 빅데이터 프레임워크 문제 하나를 틀린 것 같고 계산문제는 2문제 정도 출제되었다. (혼동행렬은 항상 1문제가 나옴) 신박하다고 느낀것은 Leaky Relu 문제가 출제되었다는 점인데, (RELU가 아님) 딥러닝 활성화 함수의 특징들은 다 알아 놓는 것이 좋을 것 같다. 유형1의 실기문제는 다소 꼬여있는 부분들이 많았는데..

[데이터사이언스대학원입시] 경북대 데이터사이언스대학원 면접 후기

엊그제 퇴사를 하고 나와서 어제 곧바로 대학원 면접을 보았다. 경북대 데이터사이언스 대학원은 작년에 1회 입시로 1기수를 뽑은 신생 데이터사이언스 대학원이다. 데이터사이언스대학원을 여러군데 알아보고 입시도 알아보았는데, 크게 우리나라에서는 2가지 타입으로 나뉘어진다. 1. 학문을 중시하는 일반학위석사를 수여해주는 일반대학원 2. 실용성을 중시하여 실무위주의 직장인도 다닐수 있는 전문/특수 대학원 (전문석사학위가 수여됨) 2가지 타입의 장단점이 명확히 존재하여서 조금만 알아보면 내가 어느 타입의 대학원을 들어가야하는지 감을 잡을 수 있다. 정확한 예시인지는 모르겠으나, 입시설명회를 참석했을때, 서울권에 대학원중에 S대 같은 경우에는 1번 타입, H대 같은 경우에는 2번타입의 느낌이 강했다. 또는 2가지 타..

[빅데이터분석기사] 시험환경 (설치된 파이썬 패키지 리스트)

5회 시험기준 [패키지 리스트 확인 명령어] 응시환경에서 아래 명령어를 이용하여 설치된 패키지를 확인할 수 있습니다. import pkg_resources import pandas OutputDataSet = pandas.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set])) print(OutputDataSet) [패키지 리스트] 0 asn1crypto 0.24.0 1 beautifulsoup4 4.9.3 2 certifi 2018.1.18 3 chardet 3.0.4 4 cryptography 2.1.4 5 cycler 0.10.0 6 cython 0.29.24 7 distlib 0.3.2 8 idna 2.6 9 joblib..

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제 (2) 시간데이터

빅데이터 분석기사 시험에서는 회귀 문제중에 시간데이터를 다룰 확률이 높다. 사실 강의나 책마다 다루는 경우가 있고 다루지 않는 경우도 있으나, 추가적으로 다루어 보고자 한다. 데이터셋의 경우에는 x_train, x_test, y_train이 나누어 지지 않은 경우로 진행도 해보았지만, 실제로 dataq.or.kr 홈페이지에 들어가서 실습환경을 보면 3개의 데이터가 분리되어 있고 최종적으로 y_test값을 제출하는 형식이라서 이번에는 나누어져 있는 데이터로 진행을 해보려고 한다. (실제 실무에서는 이렇게 친절하게 나눠져 있지 않고, 앞으로의 출제 형식 자체도 전체 데이터 하나를 직접 나누어서 해야할 수 도 있을 것 같다.) 1. 데이터 read import pandas as pd import numpy a..

[빅데이터분석기사] 작업 2유형 작성패턴 - 회귀문제(1)

작업 2유형 분류문제에 이어서 회귀문제 코드패턴을 다루고자 한다. 사실 분류 모델과 비교 했을때, 전반적으로 달라지는 것들은 없으나, 정형화 공식 (역시 4개 파트로 나눌 수 있다.) 1. 데이터 가져오기 2. 결측치 확인 및 대체하기(제거하기) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 3. 라벨 인코딩 (범주형 -> 수치형) 4. 원핫 인코딩 (범주형 ->수치형) * 3, 4 부분에서 수치형 -> 범주형 같은 경우에는 binning의 과정을 해야 된다. (회귀(예측) 문제일 경우) 5. 파생변수 생성 6. 스케일링 (1. StandardScaler 2. MinMaxScaler) 1은 범주형 데이터일 경우 2는 수치형일 경우 변환해준다. ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

[빅데이터분석기사] 작업 2유형 작성패턴 - 분류문제

빅데이터 분석기사의 2유형은 전체 100점 배점중 40점을 차지하는 한 문제가 나온다.필답형 문제 (30점)이나 1유형 (30점)을 만점을 받을 자신이 있으면 날려도 되지만, 보통 그렇게 하기 힘든 부분이다.그래서 꼭 부분점수라도 받아야 하는 파트이다. 머신러닝 모델링을 하여 결괏값을 내는 것 이외에도 마지막에 저장을 해서 제출하여야 한다.(1유형은 print함수로 결과값만 스크린에 출력하면 된다.) 현재까지의 기출이나 교재를 봤을때의 정형화 시킨 공식은 다음과 같다.사람마다 작성법이 달라지고 코딩 스타일이 다르므로 이 틀에서 살만 덧붙이면 될 것 같다. 정형화 공식 (4개파트로 나눌 수 있다.)1. 데이터 가져오기2. 결측치 확인 및 대체하기(제거하기)ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ..

[Python] lambda 함수 사용

Lambda 라는 함수가 있다. Lambda function(람다 함수)라는 말 말고도 Lambda expression(람다식)이라고도 한다. 간단히 말해서 이름없는 함수이다. 왜 이런 이름없는 근본도 없는(?) 함수를 쓰느냐? 간결하게 하기 위해서다 다음과 같은 함수가 있다고 가정하자. >>> divmod(3.0,15.0) >>> def greeting(a): print(a) >>> post = greeting # greeting 이라는 함수는 ref가 참조하게 된다. >>> post('hi') # hi가 출력된다. hi greeting이라는 함수를 통해서 post라는 변수에 저장을 한뒤에 post함수에 hi라는 문자열을 넣으면 hi가 출력된다. Lambda함수를 이용하여 한줄로 처리해 보겠다. >>>..

Python/Basic 2022.11.08

[Python] glob함수 사용

Python에서 데이터 분석을 위해서 데이터들을 가져오게 된다. 정형데이터나 비정형 데이터와는 상관없이 파일의 양이 많은 경우가 대부분이다. 판다스를 사용하기 위해서 excel파일이나 csv파일을 불러오는 예시를 보자. df = pd.read_excel('/content/data_01/data_day_2019.xlsx') # excel 불러오기 df df = pd.read_csv('/content/data_01/data_day_2019.csv') # csv 파일 read df 변수명인 df를 참조하고, pd.read_csv나 pd.read_excel을 입력하고 괄호안에 파일 경로를 입력해준다. ('파일이 있는 경로 입력') 물론 pd를 쓰려면 판다스 라이브러리를 import 해 놓은 상태여야 한다. im..

Python/Basic 2022.11.07
반응형