본문 바로가기
카테고리 없음

빅데이터 분석기사 필기 2과목 (3) 요약

by 하랑별 2023. 9. 3.

#통계기법 이해

1) 기술통계

데이터 요약 - 중심경향, 산포도, 분포 통계량

 

2) 표본추출 - 자료속성 및 척도 종류

질적자료 - 명목 척도 : 집단분류, 등호연산 ex) 성별

질적자료 - 순서 척도 : 서열/대소관계 , 비교연산 ex) 평점

양적자료 - 구간/등간 척도 : 간격이 의미 , 등호연산/비교연산 ex) 온도

양적자료 - 비율 척도 : 비율이 의미 , 사칙연산( 0 존재 ) ex) 질량

 

3) 표본추출 기법

단순무작위 추출 : 규칙 X, 간편한 방법

계통 추출 : 동일 간격으로 추출

층화 추출 : 계층별 무작위 추출 / 계층 내 동질적, 계층 간 이질적

군집 추출 : 전체 or 일부 / 계층 내 이질적, 계층 간 동질적

 

확률분포

1) 확률분포함수

확률질량함수 : 이산확률변수의 확률분포

확률밀도함수 : 밀도를 함수로 표시, 면적이 그 확률값

 

2) 이산확률분포 : 하나씩 셀 수 있는 값

이항분포 : n번 반복시, k번 성공할 확률

포아송분포 : 사건의 발생 횟수에 대한 확률

 

3) 연속확률분포 : 연속적인 값

정규분포 : σ²↓ → 뾰죡

표준정규분포 : 평균=0, 분산 = 1인 정규분포

t-분포 : 두 집단의 평균비교카이제곱분포 : 오른쪽 긴 꼬리 / 범주형 자료F-분포 : 두 집단 간 분산의 동일성 검정에 활용

 

4)표본 분포모집단 : 집단 전체모수 : 모집단에 대한 정보* 추론,추정 : 통계량 -> 모수표본 : 모집단의 일부 원소* 표본추출: 모집단 -> 표본통계량 : 표본에서 얻은 값(평균, 표준오차)추정량 : 모수 추정을 위해 구해진 통계량

 

표본분포의 법칙

1) 큰수의 법칙 : n↑ → 분산 = 0

2) 중심극한정리 : n↑ → 정규분포

 

추론통계

1) 점추정 : 모수를 하나의 값으로 추정

조건 : 불편성 효율성 일치성 충족성

통계량 : 표본평균 표본분산 중위수 최빈값

 

2) 구간추정 : 범위를 모수를 추정

조건 : 추정량 분포에 대한 전제, 구간안에 모수가 있을 가능성

통계량 : 신뢰수준, 신뢰구간

 

3) 가설검정

귀무가설(H0) : 현재까지 주장되어 온것, 차이가 없음을 나타내는 가설

대립가설(H1) : 연구가설 / 입증하고자 하는 가설

 

검정통계량 : 모수를 추론하기 위해 사용되는 표본 통계량 (귀무가설이 참이라는 전재)

p-value : 귀무가설이 참이라는 가정에 따라 표본 데이터를 얻을 확률값*p-value < 유의수준 -> 귀무가설 기각 -> 통계적으로 유의기각역 : 대립가설이 참, 받아들이는 확률

 

4) 가설검정 절차귀무가설/대립가설 설절 -> 검정의 유의수준 결정 -> 검정통계량 계산 -> 기각역 구한 뒤 귀무가설 기각

 

5) 가설검증 방법

(1) 양측검정 - H0: θ = θo,  H1: θ ≠ θo

(2) 단측검정 - H0: θ ≥ θo,  H1: θ < θo

 

6) 가설검증의 오류

실제결과(귀무가설 사실) : 가설검정결과 귀무가설 사실 : 신뢰수준, 1-α

                                                    가설검정결과 귀무가설 거짓 : 제 1종 오류, α

실제결과(귀무가설 거짓) : 가설검정결과 귀무가설 사실 : 제 2종 오류, β

                                                      가설검정결과 귀무가설 거짓 : 검정력, 1-β