본문 바로가기

분류 전체보기72

빅데이터 분석기사 필기 2과목 (3) 요약 #통계기법 이해 1) 기술통계 데이터 요약 - 중심경향, 산포도, 분포 통계량 2) 표본추출 - 자료속성 및 척도 종류 질적자료 - 명목 척도 : 집단분류, 등호연산 ex) 성별 질적자료 - 순서 척도 : 서열/대소관계 , 비교연산 ex) 평점 양적자료 - 구간/등간 척도 : 간격이 의미 , 등호연산/비교연산 ex) 온도 양적자료 - 비율 척도 : 비율이 의미 , 사칙연산( 0 존재 ) ex) 질량 3) 표본추출 기법 단순무작위 추출 : 규칙 X, 간편한 방법 계통 추출 : 동일 간격으로 추출 층화 추출 : 계층별 무작위 추출 / 계층 내 동질적, 계층 간 이질적 군집 추출 : 전체 or 일부 / 계층 내 이질적, 계층 간 동질적 확률분포 1) 확률분포함수 확률질량함수 : 이산확률변수의 확률분포 확률밀도.. 2023. 9. 3.
빅데이터 분석기사 필기 2과목 요약 (2) 데이터 탐색 개요 1) EDA(탐색적 데이터 분석) - 데이터를 이해하고 의미 있는 관계를 찾아내는 과정 - 중요변수 선별, 변수관계 이해, 초기모델 개발로 연계 설정추측수적 분석목적 설정 -> 모집단 정의 -> 표본추출 -> 자료측정 -> 데이터 수집 -> 통계기법 적용 (1) 저항성 : 결측값, 이상값에 영향을 적게 받는 성질 -> EDA는 저항성이 큰 데이터를 이용 (2) 잔차 해석 : 주 경향에서 벗어난 값이 왜 존재하는지 탐색 (3) 자료 재표현 : 적당한 척도로 바꾸어 데이터 분석과 해석을 단순화 (4) 현시성 : 시각화 2) 개별 데이터 탐색 범주형 : 질적(명목,순서형) / 빈도, 최빈, 비율, 백분율 / 데이터 분포 특성 - 중심, 변동성 / 시각화 - 막대형 그래프 수치형 : 양적(이산.. 2023. 9. 3.
빅데이터 분석기사 필기 2과목 요약 #데이터 정제 (1) 결측값 처리(N/A , 빈칸) 누락된 값 -> 제거 or 통계량으로 대체 1) 종류 MCAR ( 완전 무작위 결측 ) : 다른 변수와 무관 / 결과에 영향 X MAR ( 무작위 결측 ) : 다른 변수와 유관 / 결과에 영향 X MNAR ( 비무작위 결측 ) : 다른 변수와 유관 / 결과에 영향 O 2) 처리방법 단순 대치법 완전 분석법 : 완전한 자료만 사용 -> 시간단축 but 결과의 타당성 문제 평균 대치법 : 결측값의 발생이 다른 변수와 관련성 있는 경우 유용 단순 확률 대치법 : 적절한 확률값 부여 후 대체 -> 과소추정 문제 보완 - 핫덱(Hot-Deck) : 비슷한 성향을 가진 응답자 값으로 대체 - 콜드덱(Cold-Deck) : 외부 출처나 다른 설문조사 값으로 대체 -.. 2023. 9. 3.
[ 빡공단 38기 ] 코딩 입문 3강 강의 3강. 비트와 관련된 상식을 배웠다. ​ 1) 10진법 0부터 10까지 카운트 한다면 0 부터 9, 10부터 19 .... 이렇게 올라가게 된다. ​ 2) 요일 ( 7진법 ) 0 부터 6까지 세는 것으로 요일을 세는 것으로 알아 볼 수 있다. ​ 3) 월 ( 12진법 ) 월(month)를 세는 것에서 알아 볼 수 있다. 여기서 10,11 20,21을 A, B로 표현했다. 이것이 12진법이며 알파뱃에 불과하다. ​ 4) 컴퓨터 세계에서 자주 사용하는 (16진법) 1비트 : 2가지 2비트 : 4가지 3비트 : 8가지 4비트 : 16가지의 약속을 정할 수 있다. 이렇게 4비트까지를 숫자로 표현하고 싶었기에 4비트씩 잘라서 표현하는 것이 16진법으로 나타내게 되었다. ​ ex) 택배를 빠르게 나르는 방법 1) .. 2023. 9. 3.