본문 바로가기
카테고리 없음

빅데이터 분석기사 필기 3과목

by 하랑별 2023. 9. 12.

지도학습

회귀 - 선형회귀

분류 - 로지스틱회귀, 판별분석, 나이브베이즈

 

비지도학습

1) 군집화

- 계층적( 최단/ 최장/ 평균/ 와드)

- 비계층적(K-means)

  *군집개수 저하면 비계층적

 

2) 차원축소

- 주성분분석(PCA)

 

3) 연관규칙

 

4) 자기조직화지도(SOM)

 

---------------------------------------------------------------------------------------

1번

분류에 사용되는 데이터 마이닝 기법

1. 선형회귀 : 지도학습(회귀)

2. k-means : 비지도학습

3. 연관규칙 : 비지도학습

4. 랜덤포레스트 : 지도학습(분류, 회귀) 모두 가능

 

2번

분류모형으로 사용하기에 적합하지 않은 분석 방법?

1. 다중회귀분석 : 지도학습(회귀)

2. 나이브베이즈 : 지도학습(분류)

3. SVM : 지도학습(회귀/분류 모두 가능)

4. 의사결정나무 : 지도학습(회귀/ 분류 모두 가능)

 

3번

비지도학습의 예로 올바른 것은

1. 이미지학습을 통한 양품/불량품 분류 (지도학습)

2. 고객의 구매 이력을 바탕으로 할인 쿠폰을 발행 (비지도학습)

3. 강수량 예측  (지도학습)

4. 집 값을 예측  (지도학습)

 

y값( =답 =라벨 =종속변수)이 있으면 지도학습

                                               없으면 비지도학습

 

4번

데이터 내의 패턴, 관계, 규칙 등을 탐색하고 모델화하여 유용한 지식, 정보를 추출하는 것을 무엇이라 하는가?

= 데이터 마이닝

 

 

5번

분석모형 구축 절차 순서대로 나열

요건 정의 -> 모델링 -> 검증 및 테스트 -> 적용하기

 

6번

분석 모형 개발 절차

데이터 수집/처리 -> 분석알고리즘 수행 -> 분석결과 평가 및 모형선정

 

---------------------------------------------------------------------------------------

 

지도학습

회귀(Y : 연속형)

- 회귀(Regression) : 선형회귀

 

분류(X : 범주형)

- 로지스틱회귀

- 판별분석

- 나이브베이즈 분류

 

회귀 and 분류

- 의사결정나무

- 랜덤포레스트

- KNN

- SVM( 서포트벡터머신)

- 인공신경망

- 앙상블(배깅, 부스팅)

 

데이터분할

1) 하는 이유 : 분석 모델의 일반화 성능을 좋게 ( 과적합 X )

일반화 성능 : 훈련 모델의 실제 사용 시 성능

과적합 :  학습(Train) 데이터를 과하게 평가(Test) 데이터 입력 시 성능이 떨어지는 것

 

2)  Train             Validation                                Test

     (훈련)            (검증)                                      (평가)

알고리즘학습    중간에 검증, 모형 미세조정    성능평가

 

데이터 분할 방법

  • 1) 홀드아웃(hold-out) - 계산량이 적고 단순하며 랜덤 하게 학습/평가로 분할
  • 2) K-fold 교차검증 - k개의 집단으로 나누고 k-1개로 학습, 1개로 평가
  • 3) LpOCV - 비용/시간 많이 든다.
  • 4) LOOCV
  • 5) 부스트랩(단순랜덤 복원 추출)                                                                                                                                      - 특정 데이터가 학습에 포함될 확률(63.2 % ) - 학습데이터에 한 번도 포함되지 않을 확률(36.8 % )

1번

모델의 과적합/과소적합 등을 확인하고 미세조정을 수행할 수 있게 해주는 데이터셋

= 검증(validation) 데이터

모델이 훈련하는 데이터, 가장 많은 비중 차지

= 학습(train) 데이터

모델 학습(훈련)에 사용되지 않고 성능 평가에 사용되는 데이터

=평가(test) 데이터

 

회귀분석

= 독립변수(x)가 종속변수(y)에 어떻게 영향을 주는지 식으로 표현한 것,

특징 : 식을 보고 설명이 가능함

 

회귀분석의 가정

1) 선형성 : 독립변수(X)와 종속변수(Y) 간의  선형석

 

2) 잔차의 3가지 가정(등분산성, 정규성, 독립성)

- 등분산성 : 산점도

- 정규성

    *H0(귀무가설) : 정규분포를 따른다

    H1(대립가설) : not H0

    검정방법 :   Q-Q plot, 샤피로월크 검정, 콜모고로프-스미르노프(K-S) 검정 

- 독립성

: *더빈왓슨 검정

* 잔차 : 표본의 실제값과 회귀분석 예측값과의 차이 ( 실제값 - 예측값 )

 

*단순선형회귀 : 독립변수가 1개

*다중선형회귀 : 독립변수가 2개 이상

 

회귀분석에서 가설검정

(회귀모형, 회귀계수가 통계적으로 유의한지?)

                                                                  크면         ----> 귀무가설 채택

1. 회귀모형 : F검정, p-value가 0.05 보다 작아야 함 ----> 대립가설 채택

H0(귀무가설) : 회귀계수는 0이다

H1(대립가설) : 회귀계수는 0이 아니다

 

2. 회귀계수 : t 검정, p-value가 0.05 보다 작아야 함

H0(귀무가설) : i 번쨰 회귀계수는 0이다

H1(대립가설) : i 번째 회귀계수는 0이 아니다

 

회귀식의 성능

1. 결정계수(R²)

정의 : 설명력, 전체 변동에서 회귀식이 설명가능한 변동의 비율

 = SSR / SST = 1 – (SSE/SST)

. SSR : 회귀식에 의해 설명되는 변동           ( σ(𝑦ො − 𝑦ത) 2 ) 예측값 - y평균값

. SSE : 회귀식으로 설명 불가한 변동           ( σ(𝑦 − 𝑦ො) 2 ) 실제값 - 예측값

. SST : 총 변동(SSR + SSE)                        ( σ(𝑦 − 𝑦ത) 2 ) 실제값 - y평균값

 

다중회귀 분석시 변수를 선택하는 방법

1. 전진 선택법 : 하나씩 변수를 넣어보기 -> 변수선택하면 변경불가

2. 후진 선택법 : 다 넣고 하나씩 빼기 -> 변수선택하면 변경불가

3. 단계적 방법 : 모든 조합 고려 가능 -> 시간 오래걸림

 

정규화 회귀(과적합 피하려고)

1. 릿지 회귀(Ridge) : 회귀계수가 0에 가깝게(변수 그대로) / L2 규제

2. 라쏘 회귀(Lasso) : 회귀계수 0이 된다(변수 선택 효과) / L1 규제

3. 엘라스틱넷(Elastic Net) : 릿지, 라쏘결합 / L1 + L2

 

영향점 진단

= 영향점은 보통 이상치로 회귀 직선에 크게 영향을 주는 데이터

진단 방법

1. Leverage H (레버리지)

2. Cook's Distance(쿡의 거리)

3. DFBETAS

4. DFFITS

 

다중공선성

= 독립변수(X) 간에 상관관계가 존재하는 것(회귀식이 오류를 범할 수 있음)

VIF(분산팽창지수) 10 이상이면 다중공선성 존재

-> 다중공선성 있는 변수 제거해야 함

 

 

p-value(유의확률) 이 5프로(0.05)보다 작으면 유의하다.

=> 귀무가설 기각, 대립가설 채택

=> 즉, 회귀계수가 0이 아니다.

 

회귀모형 결정계수(R²)에 대한 설명

1. 결정계수는 1에 가까울 수록 좋으나, 무조건 크다고 좋은 건 아니다

2. 결정계수는 전체 변동중에 회귀식이 설명 불가능한 변동의 비율이다.

3. 결정계수는 SSR/SST로 구할 수 있다.

4. 다중 회귀분석에서 모델 선택 시 수정 결정계수도 함꼐 고려할 필요가 있다.

 

**회귀분석에서 잔차에 대한 3가지 가정

1) 등분산성

2) 정규성

3) 독립성

 

정규화 회귀에 대한 설명

1. Lasso 회귀는 L1 규제를 사용한다.

2. Ridge 회귀는 L2 규제를 사용한다.

3. Lasso 회귀는 중요하지 않은 변수의 회귀계수를 0으로 만든다./ 변수 선택가능 회귀분석

4. Ridge 회귀는 변수를 선택할 수 없는 회귀분석의 한 방법이다.

 

다중 회귀분석에서 독립변수 간 선형관계가 존재하여 회귀식이 오류를 범할 수 있는 것

= *다중공선성

 

분류

로지스틱 회귀분석( 지도학습 / 분류 )

- 종속변수(Y)가 범주형인 경우에 사용, 이진분류(0 아니면 1로 분류)

- 시그모이드 함수(S자형 곡선0 : Y가 1일 확률값을 구해준다(0~1사이 값)

  • 임계값은 보통 p = 0.5
  • 확률값이 0.5 보다 크면 1로 분류, 그렇지 않으면 0으로 분류

서포트 벡터 머신 ( SVM ) ( 지도학습 / 회귀, 분류 )

- 데이터 세트를 분할하기 위한 최상의 초평면을 구함

- 특징 : 비선형 데이터 분류시 커널 함수를 통해 다른 차원(차원증가)으로 맵핑하여 해결 / 계산량 많아서 시간 소요

- 하이퍼파라미터 *C 값 증가 = 하드마진(타이트하게) = 성능 ↑ = 과적합 위험

  하이퍼파라미터 C 값 감소 = 서프트마진(루즈하게) = 성능 ↓ = 과소적합 위험

 

의사결정 나무(지도학습 / 회귀, 분류)

- 회귀일떄( Y 연속형) 분리기준 : *분산분석, F-통계량 p값, 분산의 감소량

- 분류일떄 (Y 범주형) 분리기준 : *카이제곱 통계량 p값, 지니지수, 엔트로피 지수

  *대표적인 DT 알고리즘 CART 특징 : 지니지수(Y범주/ 분류일떄), 분산의 감소량 사용(Y연속/회귀일때)

 

장점 : 의사결정나무 시각화시 직관적 이해 쉬움, 비선형 분석 가능, 비모수적(가정 불필요)

단점 : 이상치에 영향을 크게 받음, 성능이 그리 좋지 않음

 

앙상블 모형 : 여러가지 모형을 만든 후 하나의 최종 결론을 내는 방법

장점 : 성능이 좋고 일반화 성능 좋다

 

대표적인 예

( 배깅, 부스팅, 랜덤포레스트 모두 지도학습 (회귀,분류) 가능

**1) 배깅(bagging)

-부스트랩으로 데이터셋 생성 -> 각 데이터셋마다 모델링 -> 투표해서 최종 값 결정

#부스트랩 : 단순 랜덤 복원추출(샘플에 한번도 선택되지 않은 원데이터가 발생할 확률 ->  약 36.8% 숫자기억)

 

**2) 부스팅(Boosting)

- 예측력이 약한 모델에서 오류에 가중치를 줘서 강한 모델로 발전시켜 나감

- 모델링 -> 오분류데이터에 가중치 부여 -> 모델링 -> 오분류 데이터에 가중치 부여 순

- 종류 : GBM, XGB, LightGBM(LGBM)

 

**3) 랜덤포레스트

- 다수의 의사결정나무를 랜덤으로 만들어 그 결과값을 투표하여 최종값 결정

 ( 회귀 : 평균 , 분류 : 투표 ) , 노이즈에 민감하지 않음

- 배깅보다 더 많은 무작위성(변수 임의선정하여 트리 생성)을 부여, 하나는 약하지만 다수는 강하다

+ (부스트랩 + 변수)를 임의를 생성해서 트리를 만든다.

 

**4)KNN( 지도학습 / 회귀,분류)

= 사례기반 학습(모델링 X), 게으른 모델

- 장점 : 원리 간단

- 단점 : K값, 이상치에 따라 성능이 좌지우지

 

1번

로지스틱 회귀분석에 대한 설명

- Y값은 범주형 변수이다.

- 분류에 사용이 가능한 분석 방법이다.

- 특정 클래스에 속할 확률을 구하여 2가지 범주 중 하나로 분류한다.

 

2번

서포트 벡터 머신 (SVM)에 대한 설명

- 지도학습 모델로 회귀/분류 모두 사용이 가능하다.

- 마진을 최대로 하는 초평면을 구한다.

- 초매개변수인 C값을 증가시키면 과대적합이 발생할 가능성이 있다.

- 선형/ 비선형 데이터도 분류가 가능하다.

 

3번

의사결정나무에 대한 설명

- 지도학습으로 회귀/분류 모두 사용이 가능하다.

- 이상치에 영향을 크게 받으며, 성능이 안좋다.

- 의사결정나무 시각화시 직관적으로 이해가 쉽다.

- 분류 모델로 사용할 떄 분리기준은 카이제곱 통계량, 지니지수, 엔트로피 지수 등이 있다.

 

4번

앙상블 모형에 대한 설명

- 여러 개의 부스트랩 자료를 생성하고 각 자료를 모형화한 후 결합하여 최종 결과를 산출하는 것을 배깅

- 약한 분류기를 여러개 모아 강한 분류기를 생성하는 방법을 부스팅이라 한다.

- 약한 학습기들을 생성하고 이를 선형 결합하여 최종 학습기를 만드는 방법을 랜덤포레스트라한다.

 

 인공신경망 - 딥러닝(지도(회귀,분류) / 비지도학습 / 패턴인식)

딥러닝 종류

1) CNN - 순차적 데이터 처리에 특화 / 자연어 처리(번역기,챗봇)

2) LSTM - RNN의 장기의존성 문제를 해결하기 위해 등장 / cell state 사용해서 장기적으로 기억할 정보를 조절

3) Autoencoder : 인코더-디코더 구조 / 입력과 출력이 좌우 대칭 구조 / 이상감지에 활용

 

딥러닝의 활성화 함수

1. 시그모이드

2. ReLu - 시그모이드 함수의 기울기 소실문제 해결을 위해 등장 

3. 소프트맥스 - 다중분류시 마지막에 확률이 output

4. tanh - y값이 -1 ~ 1의 값을 가짐 / RNN에서 주로 사용하는 활성화 함수

 

1번

인공신경망에 대한 설명

- Hidden layer를 많이 사용할수록 모델이 복잡 -> 과대적합

  은닉층과 은닉노드가 많으면 모델복잡, 과적합 문제 발생가능(적으면 과소적합)

  은닉층/은닉노드는 분석가가 정해야하는 초매개변수   

 

- 역전파 알고리즘은 예측값과 실제값의 차이인 에러의 역전파를 통해 가중치를 조정한다

  목적함수를 최적화하기 위해 사용 / 예측값과 실제값의 차이인 에러를 출력층에서 -> 입력층으로 역전파해서

  가중치(weight)를 갱신함-SOM(자기조직화지도)는 전방패스 알고리즘

 

- 신경망 모형은 복잡한 비선형관계에도 적용할 수 있으며 노이즈(잡음)에 민감하게 반응하지 않는다.

   반대로 의사결정나무는 잡음에 민감  

 

- 은닉층의 수가 증가하면 앞쪽에 있는 은닉층들의 가중치가 제대로 학습되지 않는 것을 기울기 소실 문제라고 한다.

   기울기 소실문제가 발생하는 대표적인 활성함수는 시그모이드 함수 -> 해결 : ReLu 함수

                                                                                    RNN 기울기소실(장기 의존성 -> 해결 : LSTM

 

- 모델 해석하기 어려움(반대로 선형 회귀는 해석 쉬움)

* 전이학습(Transfer learning) = 기 학습된 모델(Pre-training)을 미세조정(fine-tuning)해서 다른 목적에 이용하는 것

 

 

2번

인공신경망에서 초매개변수(하이퍼 파라미터) 

- 학습률(learning rate)

- Hidden Layer 수

- 뉴런의 수

- 배치의 크기

- 규제강도

 

3번

인공신경망의 활성화 함수에 대한 설명

- tanh 함수는 시그모이드 함수와 유사한 모양이지만, 출력값은 -1 ~ 1 사이의 값을 갖는다.

- Sigmoid : 0 ~ 1 (기울기소실문제 발생)

-  ReLu 함수는 0 이하이면 0을 출력하고,  0 이상에서 입력값이 그대로 출력값이 된다.

- Softmax 함수는 종속변수가 다범주인 경우에 각 범주에 속할 확률을 제공해주며, 각 범주에 속할 확률을 모두 더하면 1이 된다.

- Leaky ReLu 함수는 ReLu 함수에서 뉴런이 죽는 현상을 개선하기 위해 만들어졌으며 입력값 0 이하 일 때 입력값 대비 매우 작은값만 출력하여 뉴런이 죽는 현상을 방지한다.

 

4번

인공신경망에서 과적합을 줄이는 방법

= 가중치 조절

* Drop out / 정규화 / 배치 정규화

 

군집분석(비지도학습)

1) 계층적 군집 ( 군집개수 미리지정 X )

- 합병형 ( Agglomerative) " Bottom-up"

*단일(최단) 연결법

*완전(최장) 연결법

*평균연결법

*중심연결법

*와드연결법

 

- 분리형 ( Divisive) "Top-down"

다이아나 방법

 

- 군집 분석 결과는 덴드로그램으로 확인하고 군집의 수를 결정

- 한번 군집이 혀엉되면 다른 군집으로 이동할 수 없음

 

- 군집간 거리측정 방법

단일(최단) 연결법 : 최단거리 측정(최소값

완전(최장) 연결법 : 최장거리 측정(최대값

평균 연결법 : 평균거리

중심 연결법 : 두 군집 중심간 거리

와드 연결법 : 군집 내 오차 제곱합

 

군집 간 거리계산

연속형 변수

- 마할라노비스 거리 : 표준화+상관성 도시에 고려

- 맨하튼 거리 : 절대값들의 합

 

명목형 변수

-자카드 계수 : 유사도 측정( 0~1

-코사인 유사도 : 유사도 측정 ( -1~1

 

2) 비계층적(분할적) 군집 ( 군집개수 미리 지정 )

- 프로토타입 기반

K-중심군짐( K-평균군집, K-중앙값군집, K-메도이드군집)

- 분포기반

혼합분포군집

- 밀도기반

DBSCAN

 

기타 : SOM(자기조직화지도)

 

- 비계층적(분할적) 군집분석(군집의 개수 미리 지정 O )

K-means

1)  진행되는 과정

- 군집수(k) / 초기값(Seed) 임의선정을 임의로 선정한다.

- 데이터를 가장 가까운 Seed에 배치 (초기 Seed를 기준으로 군집이 형성)

- 각 군집의 중심을 다시 업데이트 함

- 각 군집의 중심이 변하지 않을 때 까지 2,3 반복

2) 군집수 k를 결정하는 방법

- 엘보우(Elbow) 기법

- 실루엣 기법 : 군집 내 응집도, 군집간 분리도를 사용 / 실루엣 계수 : -1 ~ 1사이 값, 1에 가까울수록 조음

 

연관분석 (비지도학습)

 - 장바구니 분석이라고도 함

- if(whrjs) - then(반응) 으로 이루어져 있음

- 물건배열, 카탈로그, 교차판매 등에 활용

 

장점 : 분석결과 쉽게 이해 가능, 사용이 편리함

단점 : 품목수가 증가하면 계산이 기하급수적으로 증가함 / 1세대 알고리즘 개선 -> FP-Growth 알고리즘

 

연관규칙 측도

*1) 지지도(Support) : 전체 거래 중, A와 B가 동시에 포함 된 거래 비율

 

*2) 신뢰도( Confidence) : 항목 A를 포함한 거래 중, A와 B가 동시에 포함된 거래 비율

 

*3) 향상도(lift) : 품목 B를 구매한 고객대비 품목 A를 구매하고 품목 B를 구매하는 고객에 대한 확률

     향상도 1 : 두 품목 간에 연관성이 없음(A와 B가 서로 독립)

     향상도 1보다 크다 : 품목 B를 구매할 확률보다 A를 구매하고 B를 구매할 확률이 더 높음( 연관성 )

     향상도 1보다 작다 : A를 구매하고 B를 구매할 확률이 낮음

 

다변량 분석

- 주성분 분석( PCA )

다수의 변수를 소수의 변수로 줄여준다 ( 단, 해석은 어려움)

-> 서로 상관성이 높은 변수들을 선형 결합을 통해

소수의 변수는 서로 상관성이 없음(서로독립, 상관계수 = 0, 다중공선성 존재X )

각 변수들의 분산 값 총합을 총 변동이라고 함, 각 주성분들 마다 기여하는 정도를 기여율이라고 함

-> 누적 기여율이 85%가 넘어갈 때의 주성분 수를 결정함 ( 첫번째 주성분이 제일 기여율이 높음 ) 

 

- 시계열 분석

1. 정상성(Stationary)

시점에 상관없이 시계열의 특성이 일정해야함

 

비정상 시계열은 특정 기간의 시계열을 다른 기간으로 일반화 X

  • 평균일정 ( 시점 의존 X ), 그렇지 않으면 차분을 통해 정상화
  • 분산일정 ( 시점 의존 X ), 그렇지 않으면 변환을 통해 정상화
  • 공분산 시차에만 의존( 시점 의존 X )

2. 시계열 모형

자기회귀 AR : 자기 자신의 과거 관측값이 영향을 줌

이동평균 MA : 자기 자신의 과거 오차항이 영향을 줌 ( 항상 정상성 만족)

자기회귀 누적 이동평균 ARIMA : 기본적으로 비정상시계열 모형이나, d=0이면 정상성 만족(d=차분횟수), 잔차 독립성

                                                                                                                                                                    (백색잡음)

3. 분해 시계열 : 시계열에 영향을 주는 요인을 분리

1) 추세(장기변동) : 오르락 내리락 트렌드

2) 계절(단기변동) : 일정기간에 따라 변함, 사계절

3) 순환(중장기변동) : 잘 알려지지 않은 자연적인 현상으로 변함

4)불규칙(설명불가) : 위 3가지로 설명 불가할때

 

시계열 데이터 분석 절차

1. 시간 그래프 그린다

2. 추세와 계절성 확인 및 제거

3. 잔차를 예측

4. 잔차에 대한 모델 적합

5. 예측된 잔차에 추세와 계절성을 더해 미래 예측

 

ARIMA 모형에 대한 설명

- d는 차분 횟수를 의미

- d가 0이 아니면 비정상시계열

- 추정된 백색잡음들이 통계적으로 독립함이 있는 모형

- 다소 비정상적인 시계열의 특성이 있어도 모델 예측이 가능하다.

 

시계열의 정상성에 대한 설명

- 평균이 일정

- 분산이 일정

- 평균 일정 -> 차분

- 분산 일정 -> 변환

- 공분산 -> 시차 의존

 

비모수 통계

모수적 : 모집단의 분포에 대해 가정하고 검정을 진행

비모수적 : 모집단의 분포를 가정하지 않음 (주로 30개 미만 자료 )

 

비모수적 검정의 종류 구분

모집단 1개(표본 1개) = 비모수검정 : 부호검정,월콕슨 부호순위검정  / 모수검정 : 단일표본 t 검정 = 1 sample t

모집단 2개(표본 2개) = 비모수검정 : 월콕슨 순위합 검정, 맨휘트니 U검정 / 모수검정 : 독립표본 t 검정 = 2 sample t

모집단 전/후 (동일객체) = 비모수검정 : 월콕슨 부호순위검정 / 모수검정 : 대응표본 t 검정 = paired-t

모집단 3개 이상 (표본 3개 이상) = 비모수검정 : 크루스칼왈리스 H검정 / 모수검정 : ANOVA = 분산분석