분석 ROI를 고려한 과제 우선순위 평가기준으로 난이도의 평가요소
평가요소 : 데이터 획득 비용, 데이터 가공 비용, 데이터 저장 비용, 분석 적용 비용, 분석 수준
빅데이터를 활용하기 위한 데이터 기본 3 법
1) 개인정보보호법
2) 정보통신망 이용촉진 및 정보보호 등에 관한 법률
3) 신용정보의 이용 및 보호에 관한 법률
빅데이터 저장시스템 선정을 위한 분석 요소
1) 기능성 비교분석
2) 분석방식 및 환경
3) 분석대상 데이터 유형
4) 기존 시스템과의 연계성
생성 분석 변수의 전처리 방법
1) 데이터 정제
2) 데이터 통합
3) 데이터 축소
4) 데이터 변환
데이터 확보 계획 수립 시 분석 변수 점검항목
1) 데이터 적정성
2) 데이터 가용성
3) 기술적 타당성
4) 대체 분석 데이터 유무
대표적인 데이터 저장 방식
1) 파일 시스템
2) 관계형 데이터베이스
3) 분산처리 데이터베이스
외부 데이터를 수집하고자 할 때 고려해야 할 내용
1) 비용 고려
2) 저장할 방법 고려
3) 내부 데이터와 결합 가능여부 고려
정보의 특징
1) 정확성
2) 적시성
3) 적당성
4) 관련성
빅데이터의 주요 품질 지표
적정일완
1) 적시성
2) 정확성
3) 일관성
4) 완전성
원천 데이터에 대한 정보를 습득하고자 할 때 필요한 정보
1) 데이터 수집 가능성
2) 데이터 보안
3) 데이터 정확성
4) 수집 난이도
5) 수집 비용 항목
정형 데이터의 품질 진단 기법
1) 메타데이터 수집 및 분석
2) 컬럼 속성 분석
3) 누락 값 분석
4) 값의 허용 범위 분석
5) 허용 값 목록 분석
6) 문자열 패턴 분석
7) 날짜 유형 분석
8) 기타 특수 도메인 분석
9) 유일 값 분석
10) 구조 분석
딥러닝 분석 기법
1) LSTM ( Long Short-term memory)
2) RNN ( Recurrent Neural Network)
3) Auto-encoder
데이터의 가치 측정이 어려운 이유
1) 데이터 활용 방식(재사용)
2) 가치 창출 방식
3) 분석 기술 발전
비식별화된 개인정보의 재식별 가능성 검토 기법
KIT(키트)
k-익명성 / I-다양성 / t-근접성
SEMMA 분석 방법론의 분석절차
추탐수모평
추출-> 탐색 -> 수정 -> 모델링 -> 평가
Sample->Explore->Modify->Modeling->Assess
데이터 수집을 위한 시스템 구축 절차
파결수하구
수집데이터 유형파악 -> 수집기술 결정 -> 아키텍처 수립 -> 하드웨어 구축 -> 실행환경 구축
빅데이터의 도입 효과
1) 투명성을 높여 R&D 및 관리 효율성 제고
2) 시뮬레이션을 통한 수요 포착과 변수 탐색으로 경쟁력 강화
3) 비즈니스 모델이나 제품 또는 서비스의 혁신
KDD 분석 방법론의 분석절차(영어)
선전변마평
데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 데이터마이닝 결과 평가
Selection -> Preprocessing -> Transformation -> Data Mining -> Interpretation / Evaluation
데이터 산업 구조의 분류
-> 인프라와 서비스
데이터에 대한 설명
-데이터는 일반적으로 정형, 비정형, 반정형 데이터로 구분
-비정형데이터는 텍스트, 음성, 영상 등 특수한 데이터
-정형 데이터는 흔히 볼 수 있는 주로 숫자로 구성된 데이터
-정형, 비정형, 반정형 데이터의 구분은 품질과 무관
-정형데이터 보다 비정형 데이터가 다양한 분석을 시도하기에 유리