범주형 자료 분석
독립변수 | 종속변수 | 분석방법
범주 연속 t-검정, 분산분석
범주 범주 분할표 분석, 카이제곱 검정, 피셔의 정확도 검정
연속 범주 로지스틱 회귀분석
1) t- 검정 : 두 집단 간의 평균을 비교하는 모수적 통계방법
- 가설검정, 정규성, 등분산성, 독립성 가정
단일표본 - H0:모집단 평균 = μ
독립표본 - H0:두 집단의 평균이 같다
대응표본 - H0:사전평균 = 사후평균
2) 분산분석 : 둘 이상 집단의 평균을 비교하는 모수적 통계 방법 / F분포로 가설 검정
- 정규성, 등분산성, 독립성 가정
일원분산분석 : 범주형 변수가 한 개인 경우
-> H0:모든 집단의 평균은 같다
이원분산분석 : 범주형 변수가 두 개 이상인 경우
-> H0:두 변수는 상호작용효과가 없다
3) 카이제곱 검정
적합도 검정 = H0:특정분포(= 기대분포)
동질성 검정 = H0:두 집단의 분포가 같다
독립성 검정 = H0:두 변수는 연관성이 없다
4) 피셔의 정확 검정
- 모든 경우의 수를 직접 확인
- 표본수, 빈도수가 작은 경우 사용
- 초기하 분포 기반
다변량 분석
1) 상관관계 분석
피어슨 상관계수(r) : 비선형 관계 측정 X
스피어만 상관계수(p) : 순위의 상관계수, 비선형적 관계
2) 다차원 척도법(MDS)
- 차원축소로 개체들의 관계를 상대적 위치로 시각화하는 분석
연속형 변수 : 거리행렬 이용한 계량적 척도법
순서형 변수 : 순서척도를 거리로 변환한 비계량적 척도법
유클리드 거리 행렬로 개체들의 유사성 측정
개체를 점으로 배열
Stress value를 부적합도로 측정, 최소가 되도록 좌표 고정
3) 다변량 분산분석(MANOVA)
- 2개 이상의 종속변수에 대한 분산분석
종속변수 간 상관관계 있으면 결합된 차이 확인 없으면 개별로 분산분석
여러번 실시 -> 1종 오류 높아짐
4) PCA
주성분 개수 선택 기준 : 개별 고윳값, 정보량의 비율, Scree plot
주성분 : 선형결합 -> 다중공선성 문제 해결
누적 기여율 : 정보량의 비율
5) 요인분석(FA)
- 상관관계로 공통요인을 찾아 데이터를 요약하고 차원추곳
- 정규성 가정, 분산동일, 모든 변수 연속형
요인추출 방법 : PCA, 공통요인법
요인회전 방법 : 직각회전(베리멕스, 쿼티멕스, 이퀘멕스), 사각회전( 오블리민 )
주성분분석 : 선형적 / 주성분 추출 / 주성분 간 중요도 차이 있음
요인분석 : 잠재젹 / 잠재변수 생성 / 새로운 변수들은 서로 대등
6) 판별분석
- 연속형 독립변수들의 선형조합으로 분류/예측하는 분석
- 오분류율이 최소가 되는 판별함수 도출
시계열 분석
정상성 : 일정 / 백색잡음과정
비정상성 : 대부분 비정상 시계열 / 자기상관함수(ACF) : 선형 상관관계 함수 / 부분자기상관함수(PACF) : 다른 요인을 제외한 자기 상관함수
=> 정상화 방법 : 이상치 제거 / 평균 일정 X를 차분을 통해 정상화 / 분산 일정 X를 변환을 통해 정상화
1) 회귀분석
- 정규성, 등분산성, 독립성 가정
2) 분해법
- 서로 독립이라는 것을 가정으로 분해
3) 이동평균법
- 동일 가중치 부여, 계절성분과 불규칙 성분 제거
4) 지수평활법
- 최근 관측치에 높은 가중치 부여
5) 모형
자기회귀모형 AR(p) : 이전 값이 이후 값에 영향을 미치는 상황 / 관측치로 설명
이동평균모형 MA(q) : 평균이 시간에 따라 변화하는 경향 / 오차항으로 설명
자기회귀 이동평균모형 ARMA(p,q) : AR(p)+MA(q) / 관측치와 오차항 설명
자기회귀 누적 이동평균모형 ARIMA(p,d,q) : ARMA(p,q) + d차로 차분 변환
계절형 자기회귀 이동평균모형 (SARIMA) : 계절과 비계절 성분에 대한 모형을 순차적으로 적합
6) 시계열 모형 식별 방법
ACF(자기상관함수) : 시차에 따른 자기상관을 의미, 시차가 높으면 ACF는 0
- 정상시계열 : 빠르게 0으로 수렴
- 비정상시계열 : 천천히 감소
PCAF(편자기상관함수) : 시차에 따른 편자기상관을 의미
- 시차가 다른 두 데이터 간의 상호 연관성
베이지안 기법
1) 조건부확률 - 특정 사건이 발생했다는 가정하에 다른 사건 발생 확률
2) 베이즈 정리
- 사전/사후 확률 사이의 관계
- 신규 데이터를 기반으로 베이지안 확률을 갱신하는 방법
3) 나이브 베이즈
- 모든 독립변수가 서로 동등하고 독립적으로 기여한다 가정
- 가장 큰 범주에 할당
- 쉽고,빠름
- 실시간 / 텍스트 분류에 사영
딥러닝 분석
- 비정형 데이터 분석을 위한 인공신경망 기반 머신러닝 알고리즘
- 인공지능분야의 핵심 기술
1) 하이퍼파라미터 : 예측오차를 최소화하는 파라미터
learning rate : 파라미터의 업데이트 정도를 조절
1 epoch : 모든 학습용 데이터가 forward/backward pass를 진행
1 iteration : 한 번의 forward/backward pass 진행
mini-batch size : 1 iteration에 학습할 학습용 데이터 수
2) 학성곱신경망(CNN)
이미지 처리에 특화
- 합성곱과 풀링 영역 분류를 수행하는 완전연결신경망 영역으로 구성
ex) AlexNet, VGGNet, GoogLeNet, ResNEt, DenseNet
(1) 합성곱 : 이미지로부터 특징 추출
- 필터 이용해 유사 이미지 강조하는 특성맵 출력, 특성맵은 합성곱 거치며 사이즈 작아짐
- 패딩(Padding) : 특성맵의 사이즈 조정
(2) 풀링(Pooling) : 합성곱 거친 데이터를 요약
- 특징은 유지하면서 사이즈를 줄임 -> 파라미터 수 줄이고, 과적합 방지
- Max pooling : 최댓값을 대표값으로 산출
- Average pooling : 평균값을 대푯값으로 산출
3) 순환 신경망(RNN)
- 순차적인 데이터 학습에 특화
- 경사소멸, 장기의존성 문제 보유
과거학습을 현재학습에 반영하는 순환구조(누적)
동일한 파라미터 공유
입력과 출력 길이가 유연, 다양한 모형 설계 가능
* LSTM(장단기 메모리) : 주용도에 따라 가중치 조절로 RNN 문제 해결
4) 생성적 적대 신경망 (GAN)
- 생성자와 구분자가 대립해 서로의 성능을 개선하며 학습하는 알고리즘
- 생성자 : 진짜 같은 가짜를 만들도록 학습
- 구분자 : 가짜와 진짜를 판별하도록 학습
비정형 데이터 분석
1) 텍스트 마이닝 : 자연어처리(NLP) 방식으로 특징 추출/ 요약/분류/군집화 등 도출
텍스트 수집 및 전처리 : 코퍼스(Corpus : 문서관리 기본구조) 생성 후 전처리
전처리 방법
클렌징 : 노이즈 제거
토큰화 : 작은단위로 나누는 작업
불용어 제거 : 중요하지 않은 용어 제거
어간 추출 : 접사 제거
표제어 추출 ; 단어의 원형 추출
의미추출 : 단순화하여 의미있는 데이터로 변환
패턴분석 : 분석 및 시각화
감성분석 : 긍/부정 여부
2) 소셜 네트워크 분석(SNA)
- 관계를 네트워크 구조로 분석하고 시각화
소셜네트워크 분석 속성
명성 : 권력/책임 있는 객체 확인
응집력 : 객체 간 연결 존재 확인
범위 : 객체의 네트워크 규모
중개 : 네트워크와의 연결 정도
구조적 등위성 : 구조적 지위와 역할이 동일한 객체들의 관계
밀도( 전체 연결 중 실제연결 비율 ) : 연결정도( 총 연결 관계수) , 포괄성 ( 연결된 노드 수 )
중심성( 중심에 위치한 정도 )
- 연결정도 중심성( 직접 연결된 노드들의 합 , 연결노드 많으면 정보획득 높음 )
- 근접 중심성 ( 최소거리 기반으로 간접 연결된 노드와의 관계까지 파악 )
- 매개 중심성 ( 노드 사이의 위치정도 , 지나는 경로 많으면 매개 중심성 높음 )
- 위세 중심성 ( 연결된 노드의 영향력에 가중치 부여 )
앙상블 분석
- 다수 모형에서 출력된 결과를 종합하여 최종결과 도출
- 예측력은 높지만 설명력은 낮음
1) 배깅(Bagging)
- 부트스트랩 샘플링(랜덤복원추출)으로 추출한 여러개의 표본에 모형을 병렬적으로 학습
- 데이터 크기가 작거나 결측값이 있는 경우 유리
- 성능향상에 효과적
랜덤 포레스트
- 의사결정나무 기반
- 기본 배깅 + 특징 배깅(랜덤)
- 예측력 높아짐, 과적합 적어짐, 이상치 영향 적게 받음
2) 부스팅(Boosting)
- 약한 모형을 순차적으로 결합하여 강한 모형을 만드는 기법
- 잘못 분류한 데이터 -> 높은 가중치 부여
- 잘 분류한 데이터 -> 낮은 가중치 부여
- 정확도 높으나, 과적합 위험 높고, 이상치에 취약함
AdaBoost : 높은 가중치 부여된 표본을 잘분류할 수 있도록 학습
GBM : 경사하강법 이용 / 매순간 최선의 답 선택 -> 과적합 위험 높고, 학습시간 길다
XGB : GBM 단점 보완 / 시스템 최적화 / 알고리즘 고도화
Light GBM : 깊고 비대칭적인 트리 생성
비모수 통계
- 모집단 분포를 가정하지 않고, 명목/서열척도 활용해 검정
장점 : 모집단 분포에 대한 가정이 없음 / 단순,직관 / 이상치 영향 적게받음 / 표본 수가 작은 경우도 활용 가능
단점 : 효율 떨어짐 / 계산량 과도함
부호검정 : 부호만 기준으로 중앙값 검정 / * 연속성, 독립성 가정
월콕슨 부호 순위 검정 : 부호, 상대적 크기를 고려해 중앙값 검정 / * 연속성, 독립성, 대칭성 가정
만-위트니 U 검정 : 두 모집단 간의 중앙값 위치 비교
크루스칼 - 왈리스 검정 : 세 개 이상 집단의 분포 비교
런 검정 : 서로 독립인지 검정
스피어만 순위 상관계수 : 두 변수의 순위 값을 기반으로 상관관계 평가
피어슨 상관계수 : 선형적 관계 평가 / 스피어만 상관계수 : 단조적 관계 평가