본문 바로가기
카테고리 없음

빅데이터 분석기사 필기 3과목 풀이

by 하랑별 2023. 9. 13.

데이터 분석의 분할 부문에서 일반화된 분석모형을 검증하기 위해 분할되는 데이터 명칭

= 테스트 데이터

 

순환신경망(Recurrent Neural Network) RNN

- 유닛 사이의 연결이 Directed Cycle을 구성하는 신경망을 말함

- 임의의 입력을 처리하기 위해 신경망 내부의 메모리 활용 가능

- 필기체 인식과 같은 분야에 활용 및 높은 인식률

- '기억'을 갖고 있음

 

분석과정에 필요한 데이터, 절차, 분석기법 등의 세부사항들을 정의, 분석과정과 결과가 어떻게 활용되는지 명확히 알 수 있다,

= 시나리오 작성을 통해

 

오차 역전파

- 실제 출력과 목표 출력값과의 오차 산출, 비례한 가중치를 출력층에서 은닉층으로 갱신

- 전달,연쉐법칙을 활용하여 가중치와 편향을 계산, 업데이트하는 기법

 

텍스트 마이닝

- 대규모 문서에서 정보추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법

- 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식을 이용하여 전처리가 필요

- 오피니언 마이닝은 사람들의 주관적인 의견을 통계 및 수치화하여 객관적인 정보로 바꾸는 기술, 감성분석이라고 불림

- 리얼리티 마이닝 통화 및 메시징 등의 커뮤니케이션 데이터, GPS/wifi 등의 위치 데이터

 

로지스틱 회귀분석이 선형 회귀분석과 비교 시 차이점

종속변수 : 범주형 변수

분포 : 이항분포

 

나이브 베이즈 분류의 특성에 대한 설명

- 분류기를 만들 수 있는 기술로 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련

- 공통적으로 모든 특성 값은 서로 독립임을 가정

- 나이브베이즈 분류의 장점은 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다.

- 나이브 베이즈 분류는 베이즈 정리를 적용한 확률 분류기를 지칭

 

앙상블 기법에 대한 설명

- 약학습기는 무작위 선정이 아닌 성공확률이 높은 즉 오차율이 일정이하(50%)인 학습 규칙

- 강학습기는 Weak Learner로 부터 만들어내는 강력한 학습 규칙

- 앙상블 기법은 동일한 학습 알고리즘을 사용해서 여러 모델을 학습하는 개념

- 한 개의 Single Leaner에 의한 분석보다는 더 나은 분석성능을 이끌어 낼 수 있다.

 

군집분석에 대한 설명

- 군집분석은 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용되는 기법

- 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법

- 판별분석과 비슷하게 군집분석에서는 집단이 사전에 정의되어있지 않음.

- 군집분석을 수행하기 위한 첫 번쨰 단계는 몇 개의 집단이 존재하는가를 알아보기 위해 각 표본들 간의 유사성 혹은 연관성을 조사하는 것

 

AR-자기회귀모형에 대한 설명

- 일정 시점전의 자료가 현재 자료에 영향을 준다는 가정하에 만들어진 시계열 예측 모형

 

자기회귀누적이동평균모형( ARIMA )

- 비정상성을 가지는 시계열 데이터 분석에 많이 사용

 

자기회귀이동평균모형( ARMA )

- AR 모형과 MA 모형의 결합형태로 이동평균모형과 결합된 형태임.

 

분해법

- 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정하에 체계적 성분을 시계열로부터 분리하여 분석, 예측을 목적으로 하는 기법

 

정보이론에서 순도가 증가하고 불확실성이 감소하는 것을 의미하는 용어

- 정보획득

 

랜덤 포레스트가 여러 개의 의사결정 나무를 활용하여 예측결정하는데 어떤 방식으로하는지

- 투표방식 or 다수결

 

과적합을 방지하기 위한 기법

- 데이터 분할

- k-fold 교차검증

- 정규화

 

다변량 분산분석에 대한 설명

- 두 개 이상의 범주형 독립변수와 다수의 계량적 종속변수 간의 관련성을 동시에 알아볼 때 이용되는 통계적 방법

- 두 개 이상의 계량적 종속변수에 대한 각 집단의 반응치의 분산에 대한 가설을 검증하는데 매우 유용

- 일변량 분산분석의 확장된 형태로 분산을 기준으로 집단 간의 통계적 연관성의 가설을 검증하는 데 사용

 

로지스틱 회귀분석

-분석하고자 하는 대상들이 두 집단으로 나누어진 경우 개별관측치들이 어느 집단으로 분류될 수 있는지를 분석할 때 사용

 

의사결정나무의 요소별 설명

자식마디 : 분리된 2개 이상의 마디

부모마디 : 자식마디의 상위 마디

가지 : 끝 마디까지 연결된 마디

깊이 : 가지를 이루는 마디의 개수

 

의사결정나무에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙

= 정지 규칙

 

분석모형 설계에서 분석기회를 발굴하는 방식

- 상향식 (Bottom-up) 접근