본문 바로가기
카테고리 없음

빅데이터 분석기사 필기 CBT (1) 4과목

by 하랑별 2023. 9. 4.

관측값들이 어떤 이론적 분포를 따르고 있는지를 검정하는 방법으로 한 개의 요인을 대상으로 하는 것

= 적합도 검정

 

분석모형 전개 단계에서 이루어지는 활동

- 완성된 모델을 실제 업무 현장에 적용

- 개발된 분석 모델을 실제 운영데이터에서 동작시키고 성능을 평가

- 업무 적용 결과에 따라 분석 모델을 수정

 

데이터 시각화 방법에 대한 설명

- 단계 구분도는 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시간적 왜곡이 발생

- 공간시각화는 실제 지도나 지도 모양의 다이어그램을 배경으로 데이터의 위치를 시각화

- 스타차트도 여러 개의 대상을 하나의 차트에 동시에 표현할 수 있다.

- 히트맵은 여러 변수와 다수의 대상에 대해 하나의 표 형태로 표현할 수 있다.

 

교차검증의 설명

- 테스트 검증데이터가 하나로 고정되지 않게 하며 데이터 모든 부분을 사용하여 모델을 검증

- K-fold 교차검증 기법의 경우 전체 데이터셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복없이 병행 진행하여 평균을 내어 최종적 모델의 성능을 평가한다,

- 훈련 데이터셋의 일부를 훈련으로 이용하며 나머지를 검증으로 활용한다.

- 반복 횟수 증가에 따른 모델 훈련과 평가/검증시간이 오래 걸릴 수 있다.

 

초매개변수 최적화 기법

- 미니배치 크기

- 훈련반복 횟수

- 은닉층 개수조정

 

데이터 시각화 방법과 대표적 도구의 연결

분포시각화 - 누적연속그래프 / 파이차트

비교시각화 - 히트맵

공간시각화 - 카토그램

시간시각화 - 막대그래프, 점/선 그래프

 

분석모델별 시각화에서 회귀분석모델을 활용하는 시각화 기법

- 비교시각화

- 시간시각화

- 관계시각화

 

분석의 주요 목적과 거리가 있는 항목

- 제품 및 절차 효율성

- 고객 인사이트

- 위기 관리시스

 

분석모델별 활용되는 시각화 기법 설명

SVM : 비교시각화 기법의 산점도

KNN : 비교시각화 기법의 평행좌표계

의사결정나무 : 관계시각화 기법의 트리 다이어그램

회귀모델 : 관계시각화 기법의 히트맵

 

딥러닝모델에 대한 시각화 방법

- 산포도

- 차원축소

- 노드-링크 다이어그램

 

지도학습의 회귀모델 평가지표에서 실제값과 예측값의 차이에 대한 제곱의 평균을 취한 값은?

= MSE

 

막대그래프에서 데이터 값의 변화하는 경향성을 보여주는 직선 또는 곡선으로 다양한 함수를 적용해서 구할 수 있는 것

= 추세선

 

원그래프에 대한 설명

- 구성요소 사이의 직관적인 비교 가능

- 원의 크기는 데이터 값과 무관

 

분석모형 리모델링에서 수행하는 활동으로 적합한 것

- 데이터 품질 검토

- 분석 알고리즘 개선

- 매개변수 최적화

 

트리맵에 대한 설명

- 하나의 사각형 영역에 세부 사각형들의 크기로 데이터 분포를 시각화하여 표현한다,

- 계층형 구조를 가진 데이터를 표현하는데 유용하다.

- 사각형 크기를 이용하여 데이터 값을 표현한다.

- 시도별 인구분포, 취업자 분포 등 분포 데이터를 표현하는데 유용하다.

 

해석지표로 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표

= 결정계수

 

다음 중 그래프에서 표현되는 데이터 값의 범위

= 스케일

 

다수의 객체를 군집으로 나누어 그룹 클러스터별 단위로 분석하는 군집분석에서 적용되는 시각화 기법

= 산점