Tech for good

빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 3회 본문

IT/Data Science

빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 3회

Diana Kang 2021. 4. 16. 22:26

(책: 수제비 2021 빅데이터분석기사 필기 최종 모의고사 3회)

 

 

1과목) 빅데이터 분석 기획

- 빅데이터의 특성

  • 다양성(Variety): 정형 데이터뿐만 아니라 비정형, 반정형 데이터를 포함하는 특징
  • 휘발성(Volatility): 데이터가 얼마나 오래 저장될 수 있고, 타당하여 오랫동안 쓰일 수 있을지에 관한 특징
  • 정확성(Validity): 데이터의 규모가 아무리 크더라도 질 높은 데이터를 활용한 정확한 분석 수행이 없다면 의미가 없다는 특징

 

 

- 시스템 다이내믹스

: 사업이나 사회 시스템 등과 같은 복잡한 피드백 시스템을 연구하고 관리하는 방법

 

 

 

- 빅데이터 조직 구조

  • 기능 구조: 전사적 핵심 분석이 어려우며, 과거에 국한된 분석을 수행하는 구조 / 별도 분석조직이 없고 해당 부서에서 분석을 수행하는 구조

 

- ETL

: (데이터 수집 기술) 수집 대상 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어 하우스 및 데이터 마트에 저장하는 기술

 

 

- RDBMS

: (데이터 저장 기술) 2차원 테이블인 데이터 모델에 기초를 둔 관계형 데이터베이스를 생성하고 수정하고 관리할 수 있는 소프트웨어

 

 

- 우지(Oozie)

: 하둡의 워크플로우 스케줄러로, 코디네이터를 지원(스케줄링/모니터링)한다.

 

(cf. R: 데이터와 관련된 입출력 관리 및 분석을 수행하고, 분석에 통찰을 부여하는 그래픽 요소를 지원한다.)

 

 

- 플럼(Flume)

: 다수의 서버로부터 로그 정보 등 대용량 데이터를 실시간 수집하여 HDFS에 저장한다.

 

 

- HBase

: 컬럼 기반 저장소로, HDFS와 인터페이스 제공한다. 

 

 

- 스쿱(Sqoop)

: 정형 데이터 수집 기술

: DBMS의 자료를 HDFS로 가져오거나(Import) 내보내는(Export) 기능을 수행한다.

 

 

- 머하웃(Mahout)

: 하둡 기반으로 데이터 마이닝 알고리즘을 구현항 오픈소스로 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등의 주요 알고리즘을 지원하는 하둡 에코시스템

 

 

- 상향식 접근 방식
: 비지도 학습 방법 및 프로토타이핑 접근법을 사용해서 분석하는 접근 방식

 

 

- 하향식 접근 방식

  • 업무, 제품, 고객, 규제와 감사, 지원 인프라 5가지 영역으로 기업 비지니스를 분석한다.
  • 문제 탐색 시 분석 유스케이스를 정의한다.
  • 절차는 사전검토, 비식별 조치, 적정성 평가, 사후관리 순이다.

 

 

- SEMMA 분석 방법론

  • 샘플링 -> 탐색 -> 수정 -> 모델링 (오답: 최적화) -> 검증
  • 분석 솔루션 업체 SAS사가 주도한 통계 중심의 5단계 방법론

 

 

- 외부 데이터

  • 센서 데이터
  • 장비 간 발생 로그
  • LOD

 

 

- Rsync(Remote Sync)

: 정형 데이터 수집 기술

: 서버, 클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술

 

 

- 아파치 카프카(Apache Kafka)

: 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행(Publish), 구독(Scribe)하는 방식의 분산 스트리밍 플랫폼 기술

 

 

- XML(Extensible Markup Language)

: W3C에서 개발된, SGML(Standard Generalize Markup Lanuage) 문서형식을 가진, 다른 특수한 목적을 갖는 마크업 언어를 만드는 데 사용하는 다목적 마크업 언어

 

 

 

- 서열 척도(순위 척도)

: 비계량적인 변수를 관측하기 위하여 여러 관측 대상을 적당한 기준에 따라 상대적인 비교 및 순위화를 통해 관측한다.

 

 

- 등간 척도

: 온도에서 "10도+10도=20도"이지만 두 번 더한 것보다 더 뜨겁거나 따뜻한 것이 아니므로 덧셈은 의미가 없다.

 

 

 

- 정규화

: 데이터를 정해진 구간 내에 들도록 하는 기법(속성값으로 -1.0~1.0)으로 최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용하다. 

 

 

- 집계

: 다양한 차원의 방법으로 데이터를 요약하는 기법

 

 

- 평활화

: 구간화, 군집화 등의 기법을 사용.

 

 

- HDFS

  • 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 파일 시스템
  • 블록 구조의 파일 시스템으로 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장되는데, 블록크기는 64MB에서 하둡 2.0부터는 128MB로 증가되었다.
  • 하나의 네임 노드(Name Node)와 하나 이상의 보조 네임 노드, 다수의 데이터 노드(Data Node)로 구성된다.

 

 

- NoSQL

  • Key-Value Store, Column Family Data Store, Document Store, Graph Store
  • 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join)연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS이다. 

 


2과목) 빅데이터 탐색

- 데이터 정제 절차
: 데이터 오류 원인 분석 -> 데이터 정제 대상 선정 -> 데이터 정제 방법 결정

 

 

- 노이즈(Noise)

  • 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
  • 일정 간격으로 이동하면서 주변보다 높거나 낮으면 평균값으로 대체하거나 일정 범위 중간값으로 대체한다.

 

 

- 결측값(Missing Value)

  • 필수적인 데이터가 입력되지 않고 누락된 값
  • 중심 경향값 넣기(평균값, 중앙값, 최빈값), 분포기반(랜덤에 의하여 자주 나타나는 값 넣기)으로 대체한다. 

 

 

- 데이터 정제 기술

  • 파싱(Parsing): 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
  • 변환(Transformation): 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업
  • 보강(Enhancement): 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업이다.
  • CEP(Complex Event Processing): 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리하는 기술로 IoT 센싱 데이터, 로그, 음성 데이터 등 실시간 데이터의 처리에 사용된다.
  • 스파크/스톰(Spark/Strom)인 메모리 기반 데이터 처리 방식이다.

 

 

- 데이터 결측값

  • 완전 무작위 결측(MCAR): 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 결측값
  • 무작위 결측(MAR): 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 결측값
  • 비 무작위 결측(MNAR): 누락된 값(변수의 결과)이 다른 변수와 연관 있는 결측값

데이터 결측값'결측값 식별' -> '결측값 부호화' -> '결측값 대체 절차'로 처리된다.  

 

 

- 단순 대치법(Single Imputation)

: 결측값을 그럴듯한 값으로 대체하는 통계적 기법

  • 완전 분석법
  • 평균 대치법
  • 단순 확률 대치법 -> 핫덱 대체 / 콜드덱 대체/ 혼합방법

 

 

- 데이터 이상값 검출 방법

  • 통계 기법 활용

: ESD/ 기하평균 활용/ 사분위 수 이용/ 표준화 점수(Z-Score)활용 / 통계적 가설검정 활용

 

 

  • 시각화 활용

: 확률 밀도 함수 / 히스토그램 / 시계열 차트

 

 

 

- 데이터 이상값 검출 기법

  • 딕슨의 Q 검정(Dixon Q-Test)

: 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법

 

  • 그럽스 T-검정(Grubbs T-Test)

: 정규 분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법

 

 

 

 

- 마할라노비스 거리(Mahalanobis Distance)

: 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법으로 이상값 탐색을 위해 고려되는 모든 변수 간에 선형 관계를 만족하고, 각 변수들이 정규 분포를 따른 경우에 적용할 수 있는 이상값 탐색 기법

 

 

- 이상값 처리

  • 박스 플롯(Box-Plot)해석: 사분위 수를 이용한 이상값 제거 방법
  • 데이터 변환: 극단적인 값으로 인해 이상값이 발생했다면 자연로그를 취해서 값을 감소시키는 방법으로 실제값을 변형하는 것.

 

 

- 변수의 유형

  • 범주형
    • 명목형
    • 순서형
  • 수치형
    • 이산형
    • 연속형

 

 

 

- 변수 선택(Feature Selection)

: 데이터의 독립변수(x)중 종속변수(y)에 가장 관련성이 높은 변수(Feature)만을 선정하는 방법

 

  • 래퍼 기법(Wrapper Method): 변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 선택해나가는 기법
  • 필터 기법: 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법
  • 임베디드 기법: 모델 자체에 변수 선택이 포함된 기법
  • 변수 선택: 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합을 줄여 일반화를 해주는 장점.

 

 

- 임베디드 방법

: 모델의 정확도에 기여하는 변수를 학습하고, 좀 더 적은 계수를 가지는 회귀식을 찾는 방향으로 제약조건을 주어 이를 제어하는 방법

 

  • 라쏘(LASSO)
  • 릿지(Ridge)
  • 엘라스틱 넷(Elastic Net)
  • SelectFromModel

 

 

 

 

- 차원축소(Dimensionality Reduction)

: 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법

: 원래의 데이터를 최대한 효과적으로 축약하기 위해 목표변수(y)는 사용하지 않고 특성변수(설명변수)만 사용하기 때문에 비지도 학습 머신러닝 기법

 

 

 

- 독립성분분석(ICA)

: 변수들이 서로 독립적이라고 가정하며, 독립성분의 분포는 비정규 분포를 따르게 되는 차원축소 기법

 

- 주성분 분석(PCA)

: 원래의 데이터 세트의 변수들을 선형 변환하여 서로 직교하도록 선택된 새로운 변수들(주성분)을 생성, 이를 통해 원래 변수를 설명하고자 하는 기법

 

 

 

 

- 변수 변환(Variable Transformation)

  • 비닝(Binning): 기존 데이터를 범주화하기 위해 사용되는 하향식 구분 기술로 설정한 빈의 수에 근거하여 계산하는 방법

 

- 단순 기능 변환(Simple Functions)

  • 로그(Logarithm): 변수의 분포를 변경하기 위해서 사용하는 변환 방법으로 변수들의 분포가 오른쪽으로 기울어진 것을 감소시킨다.

 

 

 

- 불균형 데이터 처리 방법

  • 앙상블 기법: 같거나 서로 다른 여러 가지 모형들이 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법
  • 언더 샘플링: 무작위로 정상 데이터의 일부만 선택하는 방법으로 유의미한 데이터만을 남기는 방식으로 데이터의 소실이 매우 크고, 때로는 중요한 정상 데이터를 잃게 될 수 있다.
  • 오버 샘플링: 무작위로 소수의 데이터를 복제하는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 복제된 관측치를 원래 데이터 세트에 추가하면 여러 유형의 관측치를 다수 추가하여 과적합(Over-fitting)을 초래할 수 있다. 
  • 임곗값 이동 

 

 

 

 

- 탐색적 데이터 분석(EDA)

  • 저항성
  • 잔차 해석
  • 자료 재표현
  • 현시성

 

 

 

- 개별 변수 탐색

  • 범주형 - 막대형 그래프(Bar Plot)
  • 수치형 - 박스 플롯, 히스토그램

 

 

 

- 회귀 분석

: 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법

 

 

 

 

 

- 회귀 분석 전제조건

  • 선형성
  • 등분산성
  • 독립성
  • 비상관성
  • 정규성

 

 

 

- 회귀 분석 모형 종류

  • 단순 회귀 모형 - 독립변수, 종속변수 모두 1개씩이면서 수치형 변수
  • 다중 회귀 모형

 

 

- 확률 분포

: 확률 변수가 특정한 값을 가질 확률을 나타내는 분포로, 확률변수의 종류에 따라 크게 이산확률분포연속확률분포로 나뉜다.

  • 이산확률분포: 이산확률변수 X가 가지는 확률분포로 확률변수 X가 0,1,2,3, ...와 같이 하나씩 셀 수 있는 값을 취한다.

 

 

 

- 포아송 분포

: 주어진 시간 또는 영역에서 어떤 사건의 발송 횟수를 나타내는 확률분포

 

 

 

- 베르누이 분포

: 특정 실험의 결과가 성공 또는 실패 두 가지의 결과 중 하나를 얻는 확률분포

 

 

 

- 점 추정(Point Estimation)

: 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 것.

: 표본평균, 표본분산, 중위수, 최빈값등을 사용

 

 

 

- 구간 추정(Interval Estimate)

: 신뢰도를 제시하면서 범위로 모수를 추정하는 방법

 

 

 

 


3과목) 빅데이터 모델링

- 데이터 마이닝 기반 분석 모델

  • 분류 모델(Classification Model): 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 개체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델
  • 예측 모델(Prediction Model): 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결과값을 예측하는 기법
    • 회귀 분석
    • 의사결정나무
    • 인공신경망 모델
    • 시계열 분석
  • 연관규칙 모델(Association Rule Model): 데이터에 숨어있는, 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 것
  • 군집화 모델(Clustering Model): 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 모델로 크게 계층적 방법과 비계층적 방법으로 구분한다.

 

 

- 지도 학습(Supervised Learning)

  • 로지스틱 회귀
  • 인공신경망 분석(ANN)
  • 의사결정나무
  • 서포트 벡터 머신(SVM)
  • 랜덤 포레스트
  • (오답: Q-Learning)

 

 

- 서포트 벡터 머신(Support Vector Machine; SVM)

: 주어진 학습 데이터를 회귀 분석을 이용해서 2개의 그룹으로 분류하는 지도학습 모델

 

 

 

- 잔차

: 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이

 

 

- 피팅

: 적당한 모델을 선택하는 것을 뜻하며, 데이터 분석에서는 모델을 적합(Fitting)한다는 용어

 

 

- 오차

: 모집단에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이(정확치와 관측치의 차이)

 

 

- 편차

: 관측치가 평균으로부터의 떨어져 있는 정도(평균과의 차이)

 

 

 

- 데이터 마이닝 평가 지표

: 정확도, 정밀도, 검출률(Detect Rate), 향상도(Lift)

 

 

- 모델링 성능 평가(시뮬레이션) 지표

: 처리량(Throughput), 평균대기 시간(Average Waiting Time) 

 

 

 

- 분석 모형 구축 단계

: 요건 정의 -> 모델링 -> 검증 및 테스트 -> 적용 단계

 

 

- 요건 정의 단계

: 분석요건 도출 -> 수행방안 설계 -> 요건확정

 

 

- 모델링 단계

: 모델링 마트 설계 및 구축 -> 탐색적 분석과 유의 변수 도출 -> 모델링 -> 모델링 성능 평가

 

 

 

 

- R 패키지 설치:  install.packages("패키지명")

- R 패키지 불러오기: library(패키지명)

 

 

 

- 회귀 분석

: 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법

  • 단순선형 회귀 모형: 회귀 모형 중에서 가장 단순한 모형으로, 독립변수와 종속변수가 각각 한 개이며 오차항이 있는 선형관계로 이루어져 있다.
  • 로지스틱 회귀 분석: 반응변수가 범주형인 경우 적용되는 회귀 분석 모형으로, 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추적 확률을 기준치에 따라 분류하는 목적으로 사용될 수 있다.

 

 

- 의사결정나무

: 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델

 

 

 

- 최소제곱법    (오답 - 오차 제곱법)

: 회귀계수를 추정하는 데 사용.

: 측정값을 기초로 하여 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로, 오차 제곱의 합이 가장 작은 해를 구하는 것을 의미하는 것.

 

 

 

- 다중 선형 회귀 분석

  • F-통계량 -> 통계적 유의성 확인
  • 결정계수(R^2) -> 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로, 회귀선의 정확도를 평가하는 데 사용

 

 

- 의사결정나무(Decision Tree)

  • 의사결정나무는 주어진 입력값에 대하여 출력값을 예측하는 모형으로, 분류나무(오답: 분류나무 모형)트리나무 모형이 있다.
  • 의사결정 알고리즘 중 CART는 가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점을 둔 알고리즘으로 개별 입력변수 뿐만 아니라 입력변수들의 선형 결합 중에서 최적의 분리를 구할 수 있다.
  • 의사결정나무의 분석 과정은 의사결정나무 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예순 
  • 의사결정나무는 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델이다.

 

 

 

- 시그모이드 함수

: 시그모이드 함수는 기울기 소실의 원인이었지만, ReLU 함수 또는 tanh 함수를 통해 기울기 소실의 문제를 해결하였다. 

 

 

 

- 군집 간의 거리 계산

  • 연속형 변수 거리
    • 유클리드 거리
    • 맨하튼 거리
    • 민코프스키 거리
    • 표준화 거리
    • 마할라노비스 거리
  • 명목형 변수 거리
    • 단순 일치 계수(Simple Matching Coefficient)
    • 자카드(Jaccard) 계수

 

 

- 혼합 분포 군집

: 데이턱 K개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법

 

 

 

 

- 시계열 모형

  • 자기 회귀 모형(AR): 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있다는 의미이고, 자기 회귀 모형인지 판단하기 위한 모형 식별을 위해서 자료에서 자기 상관 함수, 부분 자기 상관 함수를 이용하여 식별한다.
  • 이동평균모형(MA): 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
  • 자기회귀 누적 이동평균모형(ARIMA): 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드를 분석하는 기법 

 

 

- 비모수 통계 검정 방법

  • 부호 검정(Sign Test): 차이의 크기는 무시하고 차이의 부호만을 이용한 중위수(Median)의 위치에 대한 검정 방법으로 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들의 수를 근거로 검정한다.
  • 윌콕슨 순위 합 검정(Wilcoxon Rank Sum Test): 두 표본의 혼합 표본에서 순위 합을 이용한 검정 방법으로 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정이 필요하다.
  • 대응 표본 검정(Paired Sample Test): 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정하는 방법.
  • 크루스칼 왈리스 검정(Kruscal-Wallis Test): 세 집단 이상의 분포를 비교하는 검정 방법으로 모수적 방법에서의 One-Way ANOVA와 같은 목적으로 쓰이고, 그룹별 평균이 아닌 중위수가 같은지를 검정한다.

 

 

 

- 앙상블 기법

  • 부스팅(Boosting): 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘
  • 배깅(Bagging): 학습 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘 
  • 랜덤 포레스트(Random Forest): 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 -> 배깅을 이용한 포레스트 구성, 임의노드 최적화 등

 

 

- 회귀 분석 유형

  • 단순 회귀: 독립변수가 1개, 종속변수와의 관계가 직선
  • 다중 회귀: 독립변수가 K개, 종속변수와의 관계가 선형(1차 함수)
  • 로지스틱 회귀: 종속변수가 범주형(2진변수)인 경우

 

 

 

- 혼동 행렬

:  Positive/Negative  - 예측값      /     True/False - 예측값과 실제값의 비교 결과

  • 민감도(Sensitivity) = TP / TP + FN
  • 정밀도(Precision) = TP / TP + FP

 

 

- 교차 검증(Cross Validation)

  • 홀드 아웃 교차 검증: 전체 데이터를 비복원 추출 방식을 이용하여 랜덤하게 학습 데이터와 평가 데이터로 나눠 검증하는 기법 /                                           학습 데이터는 분류기를 만들 때 사용하는 데이터이고, 검증 데이터는 분류기들의 매개변수를 최적화하기 위해                                   사용하는 데이터
  • K-fold Cross Validation: 모든 데이터를 학습과 평가에 사용할 수 있으나, K값이 증가하면 수행 시간과 계산량도 많아지는 교차 검증 기법
  • 부트스트랩: 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법

 

 

- Z-검정

 

출처: 이미지 클릭시 이동

 

 

 

 

 

- 적합도 검정(Goodness of Fit Test)

  • 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법
  • 카이제곱 검정, 샤피로-월크 검정, K-S 검정, Q-Q Plot

 

 

- 콜모고로프-스미르노프 적합성 검정(Kolmogorov-Smirnov Goodness of Fit Test; K-S 검정)

: 데이터가 어떤 특정한 분포를 따르는가를 비교하는 검정 기법이고, 비교 기준이 되는 데이터를 정규 분포를 가진 데이터로 두어서 정규성 검정을 실시할 수 있는 것

 

 

 

- 가중치 규제

: 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법 

  • L1규제
  • L2규제

 

- 분석 모형 융합

  • 취합 방법론
    • 다수결: 여러 분류기(로지스틱 회귀 ,SVM, 경사 하강법 등)로 학습시킨 후 투표를 통해 최종 모형을 선택
    • 페이스팅(Pasting):  학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법으로 비복원 추출 방식
    • 랜덤 패치(Random Patches): 학습 데이터와 독립변수 차원 모두 일부만 랜덤하게 사용하는 방식으로 학습 데이터, 특성 모두 샘플링 하는 방식
  • 부스팅 방법론
    • 에이다 부스트(AdaBoost): 각 약한 모형을 순차적으로 적용해 나가는 과정에서 잘 분류된 샘플의 가중치는 낮추고 잘못 분류된 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 기법

 

 

- 데이터 시각화

  • 공간 시각화: 등치선도 기법, 도트맵 기법, 카토그램 기법
  • 비교 시각화: 히트맵 기법, 평행 좌표 그래프 기법, 체르노프 페이스 기법

 

 

- 산점도

: 직표 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법   ----- (관계 시각화)

 

 

- 히스토그램

: 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 차트로, 수평축에는 각 계급을 나타내고, 수직축에는 도수 또는 상대도수를 나타낸다. 

 

 

 

- 차트 블록(Chart Blocks)

: 빅데이터 시각화 도구 중 코딩 없이 스프레드 시트, 데이터베이스 형태 데이터를 쉽게 가시화하는 시각화 도구

: 웹 기반 차트 구현(트위터, 페이스북 등 공유 가능)하다.

 

 

 

- 분산 분석(ANOVA; Analysis of Variance)

: 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법