자격증/빅데이터분석기사

[5회 빅데이터분석기사 실기] 시험 후기와 고찰

Ddolgom 2022. 12. 5. 12:01
반응형

12월 3일 5회 빅데이터분석기사 실기 시험을 보았다.

 

고사장은 더조은아카데미 대구지점으로 메가스터디 계열학원으로 컴퓨터 학원이다.

 

시설은 깔끔하였고 대구 고사장 3곳 중 1곳으로 나머지 2곳은 직업학교 였는데, 아무래도 접근성때문에 본 고사장이 빨리 마감되는 경향성이 있었다.

 

[5회 시험후기]

본격적인 후기인데 필답형 10문제는 크게 어려운 점이 없었다라고 하지만, 카프카, 맵리듀스 등 빅데이터 프레임워크 문제 하나를 틀린 것 같고 계산문제는 2문제 정도 출제되었다. (혼동행렬은 항상 1문제가 나옴)

 

신박하다고 느낀것은 Leaky Relu 문제가 출제되었다는 점인데, (RELU가 아님) 딥러닝 활성화 함수의 특징들은 다 알아 놓는 것이 좋을 것 같다.

 

유형1의 실기문제는 다소 꼬여있는 부분들이 많았는데 특히 BMI문제 같은 경우에는 조건작성으로 어떠한 구간에서 정상이고 비만인지를 제시를 하고 코드구현을 해야 하는데, & (교집합), | (합집합)을 잘써야하는 점에서 기존의 교재와는 좀 차별화된 문제라고 느꼈다. 

 

그리고 주어진 테이블들을 보면 한국어 컬럼과 영어 컬럼이 번갈아 나오는데 특히 연습때 많이 썼던 한국어가 깨지는 부분을 해결하는 코드인 encoding='cp949' 코드는 구름환경에서는 별 의미가 없었다. 이 코드가 없어도 한국어가 깨지는 문제는 없었다.

 

마지막 유형2 문제에서는 x_train, x_test 데이터만 나와서 결국 x_train에 있는 정답부분을 y_train으로 분리를 하여야하는데, 시험환경체험 예시 문항에서는 y_train도 따로 분리를 하여 주었는데, 시본 데이터셋에서 분리하는 연습을 많이 하여야 한다.

 

 데이터프레임화 시켜서 csv파일을 만들어 제출을 하여야하는데, 현재 시험에 프레임 형태로 주어진 부분의 양식을 못맞추었는데, 이 부분이 사실 약간 좀 불안하기는 하다.

 

아예 데이터프레임 형식이 안맞으면 0점이 나올수도 있어서 내년 상반기 시험을 다시봐야할지도 모른다는 생각이 드는데, 실제 시험에서 생각보다 시간이 빠듯했던 점, 그리고 아직까지 판다스를 자유자재로 다룰수 있는 수준까지는 아니여서 합격여부를 떠나서 계속 연습을 해야겠다는 생각이 든다.

 

* 빅데이터 분석기사 시험시 주의사항

1. 고사장마다 다르겠지만, 한 고사실에 15명 정도 들어갔고 띄워 앉지는 않았지만, 코로나 방역때문에 분리칸이 있었다. 환경 자체가 생각보다 좁아서 감안하고 들어가야 한다. 

2. 고사장에는 주감독관과 부감독관 1명씩 배치가 되었고, 메모장 이외에는 윈도우 계산기 사용금지, 컨닝 방지를 위해서 시험 시작전에 메모장까지 다 검사를 한다. (혹여나 코드를 미리 적어 컨닝을 하겠다는 생각은 아예 안하는 것이 좋다.)

3. 접속 URL을 부여받아서 들어가면 로그인을 할 수 있는데, 미리 시험전 20분쯤에 시험환경 체험문제를 미리 경험하여 이상여부를 확인할 수 있다. 필히 제출이 제대로 되는지, 인터넷 환경은 정상인지 무조건 확인하여야 한다.

4. 화장실은 오전 10시 시험 시작후 1시간 30분 후인 11시 30분부터 이용이 가능하다. 퇴실 또한 11시 30분부터 가능하다. 그전에 퇴실하면, 무효처리가 된다. (주의)

5. 제출은 시험시간동안 여러번 제출이 가능하고 최종적으로 14문제에 대해서 한번씩 더 제출을 눌러서 확인을 할 필요가 있다. (헷갈리거나 몰라서 건너뛴 부분이 있을수도 있으니 다 check)

6. 시험 종료후 pc종료는 해도 되고 안해도 된다. (필자 같은 경우에는 감독관에게 물어서 안해도 된다고 해서 안하고 나옴)

 

* 시험 공부 방향성 

1. 기본적으로 (판다스와 넘파이를 이용한) 데이터전처리가 큰 부분을 차지하고 모델링까지의 역량만 묻는다.

2. 코드를 복붙하는 성향의 개발자나 데이터사이언티스트들이 알아야 할 점은 (물론 거의 백프로겠지만...) 캐글 대회나 데이콘 같은 대회처럼 복붙이 안되고 책 참고도 안 된다는 것이다. 필자가 2유형에서 당황했던 것은 마지막 제출용 파일을 데이트프레임으로 바꾸는데, y 인자 에러가 뜨게 되었는데, 분명히 바꾸는 부분은 x_test, 학습된 pred값까지 도출이 되었는데, 왜 y인자 에러가 떳는가?라는 의문점으로 시작하여 코드에러 트러블 슈팅으로 1시간을 잡아 먹었다. 시리즈데이터의 데이터프레임 변경등 모든 부분들을 직접 데이터를 가공하고 만지는 부분을 많이 경험하여야 하며 코드에러를 평소에 많이 경험하고 해결하는 역량이 필수적인 만큼 평소에 최대한 많은 에러를 내보아야 한다. (관련 모의고사 풀이 5회분 정도는 인터넷 검색이나 교재로 구할수가 있는데, 필수적으로 시간을 재보고 시험 환경과 같은 상태로 연습해야한다. 중간에 해답을 보지말고 전체 과정을 쭉.. 필자는 공부 시간의 부족으로 그것까지는 못하였다.)

구름 IDE 환경에서 어떻게 제출을 해야하는지 index=False등 주석으로 예시코드가 친절하게 있으나, 가공된 데이터들은 각기 다르므로 연습을 안하면 필자와 같은 상황이 오게 된다.

마지막에 하는 형식에 맞는 제출이 가장 중요한 부분인데도 어떠한 빅분기 교재에는 print(pred) 또는 print(pred_proba)만 하고 끝나는 경우들이 많다. (좋은 교재라고 할수가 없다.)

무조건 dataq.or.kr에서 실습환경을 체험하고 교재에 없는 부분이라도 제출하는 연습도 해야한다. 다된밥에 코 빠뜨리지 않으려면..

3. 단답형에서는 최대한 시간을 적게 쓰고 모르는 부분은 저장을 해놓고 곧바로 필답형으로 넘어가야 한다. 1유형 같은 경우에는 문제를 잘 읽어 어떠한 것을 요구하는지 잘 파악하여 특히 groupby함수나 sort_values 함수를 잘 써야하며 문제를 잘못 읽으면 답이 완전히 다르게 나온다.(답이 다르게 나오면 0점 처리됨) 어떠한 열의 기준으로 오름차순, 내림차순 정리를 하는것인지, 어떠한 열만 잘 선택하여 결과를 내야하는지 생각을 하여야 하며, 재빨리 풀고 검토를 하여야 한다.  의외로 1유형문제 3문제중 숨겨진 복병이 있고 함정문제가 있어서 역시 비전공자라면 100문제 정도 이상은 풀어보아야 한다.

검색을 해보면 개인 블로그에 문제를 올리신 분이 있는데, 여기에 100제가 있다. 필자는 안풀어보았으나, 푸는 것을 추천드린다.

 

p.s) 개인적으로 비전공자나 전공자의 준비기간을 묻는 경우가 많다. 아직 합격을 한 것도 아니고, 불합격의 스멜도 약간은 나는 판국이지만, 미리 시험을 경험해본 사람으로서 말씀을 드린다면, 

 

1. 비전공자 (파이썬 프로그래밍이 뭔지 아예 모름) : 최소 6개월이상 꾸준히 준비

2. 비전공자 (파이썬 프로그래밍을 경험해본 사람, 반복문이나 함수의 기본적인것은 안다.) : 최소 3개월 준비

3. 전공자 (파이썬은 익숙하지 않으나, 다른 언어를 다루어본 경험이 있음) : 1개월

4. 전공자(파이썬도 익숙, 머신러닝, 딥러닝을 다루어보았다) : 2주

 

이 정도면 충분하지 않을까라는 개인적인 견해를 제시할수 있겠다.

 

 

 

 

 

 

 

반응형