군집추출에 대한 설명
- 추출 모집단에 대해 사전지식이 많지 않은 경우 시행하는 것은 단순 무작위 추출방법의 특징
- 모집단을 차이가 없는 여러 개 군집으로 나누어 군집 단위의 일부 또는 전체에 대한 분석을 시행
- 모집단에 대한 추출기반을 마련하기가 어려운 경우 사용하면 편리
- 표본크기가 같은 경우 단순 임의 추출에 비해 표본오차가 증대할 가능성이 있다.
분석모형 설계에서 특정 영역을 지정, 의사결정 지점으로 진행하는 과정에서 분석기회를 발굴하는 방식을 의미하는 용어
= 상향식(Bottom-up) 접근
시계열 자료에 대한 정상성에 대한 설명
- 정상성을 가진다는 의미는 시계열 데이터가 평균과 분산이 일정한 경우
- 시계열 데이터가 정상성을 가지면 분석이 용이한 형태로 볼 수 있음
- 평균이 일정하지 않으면 차분
- 분산이 일정하지 않으면 변환
군집분석에 대한 설명
- 군집분석은 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용되는 기법
- 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법
- 판별분석과 달리 집단이 사전에 정의되어 있지 않다.
- 군집분석을 수행하기 위한 첫번쨰 단계는 몇 개의 집단이 존재하는가를 알아보기 위한 각 표본들 간의 유사서 혹은 연관성을 조사하는 것이다
인공신경망에 대한 설명
- 생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘
- 시냅스의 결합으로 네트워크를 형성한 뉴런이 학습을 통해 시냅스의 결합세기를 변화시켜 문제 해결 능력을 가지는 모델 전반을 가리킨다.
- 트레이닝 셋에만 최적화되어 실제 테스트와 예상결과의 괴리가 발생하는 단점이 있다.
- 최초 시작점의 선택에 따라 수렴, 발상, 진동 등 다양한 형태로 결과가 바뀌는 단점
범주형 분석방법에 대한 설명
- 빈도분석은 질적 자료를 대상으로 빈도와 비율을 계산할 때 사용
- T 검정은 독립변수가 범주형이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단 간의 평균 비교 등에 사용
- 독립변수가 범주형(두개 이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 분산분석이 사용된다.
분석모형 정의를 위한 사전 판단기준에 대한 세부설명
- 필요성 : 추진관점에서 분석과제가 필요한지 판단
- 추진시급성 : 당장 해소되어야 할지 여부 판단, 장기과제 성격 분리
- 모델확장성 : 과제가 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단함
- 구현가능성 : 과제구현에 대해 어려움이 없는지 판단
비지도학습의 일종인 오토인코더의 특징에 대한 설명
- 인코더를 통해 입력 데이터에 대한 특징 추출
- 오토인코더의 구조는 뉴럴 네트워크(인코더, 디코더)가 뒤집어 붙은 형태
- 출력값을 입력값의 근사로 하는 함수를 학습
- 디코더를 통해 원본 데이터를 재구성하는 학습방식
정보이론에서 순도가 증가하고 불확실성이 감소하는 것을 의미하는 용어
- 정보 획득
SVM의 핵심적 특징은 기존 분류기가 오류율 최소화에 있다면 마진 최대화로 일반화 능력의 극대화를 추구하는 점으로 마진이 가장 큰 초평면 벡터를 분류기로 사용할 떄 새로운 자료에 대한 오분류가 가장 낮아진다. 또한 경계면과 수직인 법선벡터를 W라고 할 때 마진은 2/(|W|) 으로 계산된다.
지도학습 모델은 분류와 예측모델로 구분된다. 분류모델에 해당하는 것
- 의사결정트리
- 인공신경망
- SVM
가설검정의 절차와 관계있는 항목
- 검정통계량
- 유의수준
- 확률분포
분석모형 종류 중 분석 예측모형에 해당하는 것
- 적조 발생 판단
- 지역별 범죄비율 예상
- 쇼핑 아이템 추천
인공신경망과 딥러닝에 대한 설명
- 딥러닝은 인공신경망의 단점인 속도저하, 과적합문제가 극복되면서 부각된 기계학습이다.
- 딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합으로 정의
- 인공신경망과 딥러닝은 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야
의사결정나무의 요소별 설명
자식마디 : 하나의 마디로부터 분리된 2개 이상의 마디
가지 : 하나의 마디로부터 끝 마디까지 연결된 마디
부모마디 : 자식마디의 상위 마디
깊이 : 가지를 이루는 마디의 개
데이터 분석의 분할 부문에서 일반화된 분석모형을 검증하기 위해 분할되는 데이터 명칭
= 검증 데이터
비모수 통계의 특징
- 가정을 만족시키지 못한 상태에서 그대로 모수통계 분석을 함으로써 발생할 수 있는 오류를 줄임
- 질적척도로 측정된 자료도 분석이 가능
- 비교적 신속하고 쉽게 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 용이
- 많은 표본을 추출하기 어려운 경우에 사용하기 적합
분석모형 종류
- 예측분석 모형
- 현황진단 모형
- 최적화 분석 모형
의사결정나무에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙은?
= 정지규칙
일반적인 신경망 알고리즘 학습 프로세스 순서로 적합한 것은?
= 미니배치- 가중치 매개변수 기울기 산출 - 매개변수 갱신