Tech for good

빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 1회 본문

IT/Data Science

빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 1회

Diana Kang 2021. 4. 15. 00:30

(책: 수제비 2021 빅데이터분석기사 필기 최종 모의고사 1회)

 

1과목) 빅데이터 분석 기획

- 빅데이터의 특성

: 규모, 다양성, 속도, 신뢰성, 가치, 정확성, 휘발성   (오답: 사용성(Usability)

 

- 빅데이터의 유형

  • 정형: 관계형 데이터 베이스
  • 반정형: JSON, HTML, XML
  • 비정형: 텍스트 문서, 이미지

- 조직구조

  • 기능 조직 구조: 일반적인 형태로 별도 분석조직이 없고 해당 부서에서 분석을 수행한다.

- 빅데이터 수집 기술

: ETL, EAI, 크롤러(Crawler)    (오답: NoSQL - 빅데이터 저장 기술)

 

- 하둡 분산 파일 시스템(HDFS)

: 대용량 파일을 저장하고 처리하기 위해서 개발된 파일 시스템, 네임 노드(master)와 데이터 노드(Slave)로 구성된 것.

 

- 하둡 에코 시스템 중, 비정형 데이터 수집을 위한 시스템

: 척와(Chukwa), 플럼(Flume), 스크라이브(Scribe)     (오답: 피그(Pig) - 데이터 정제 기술)

 

 

- 하둡 에코 시스템

  • 주키퍼(Zookeeper): 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리하는 시스템 (동물원 관리자는 동물들이 분산되어 있도록 한다.)
  • 임팔라(Impala):  하둡 기반의 실시간 SQL 질의 시스템
  • 하이브(Hive): 하둡 기반의 DW(Data Warehouse) 솔루션
  • 우지(Oozie): 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템

 

- 개인정보 비식별 조치 방법

  • 데이터 마스킹: 대체값(공백, '*', OO, 노이즈 등)으로 변환하는 것

 

- 실시간 데이터

  • IoT 센서 데이터
  • 네트워크 장비 로그
  • 알람
  • (오답: 구매정보 -> 비실시간 데이터 (과거 데이터))

 

 

- 데이터 속성 측정 척도

  • 비율 척도: 균등 간격에 절대 영점이 있고, 비율 계산이 가능한 척도
  • 명목 척도: 관측 대상을 범주로 나누어 분류한 후 이에 따라 기호나 숫자를 부여하는 방법

 


2과목) 빅데이터 탐색

- 단순 확률 대치법의 유형

  • 핫덱(Hot-Deck)대체
  • 콜드덱(Cold-Deck)대체
  • 혼합방법

 

- 데이터 이상값 검출 방법

  • 시각화
  • 머신러닝 기법
  • 마할라노비스 거리 활용
  • (오답: 다중 대치법 -> 데이터 결측값 처리 기법)

 

 

- 변수 선택 기법 중, 래퍼 기법(Wrapper Method)에서 사용하는 것

  • 전진 선택법(Forward Selection)
  • 후진 제거법(Backward Elimination)
  • 단계적 방법(Stepwise Method)
  • (오답: 정보 소득(Information Gain))

 

 

- 변수 변환 방법

  • 로그 변환 기법
  • 비닝(Bining)기법
  • 정규화 기법
  • (오답: 언더 샘플링 기법 -> 불균형 데이터 처리 기법))

 

 

-어스 상관계수 

: 두 변수가 치형 데이터일 경우 두 변수 사이의 연관성을 산출하여 분석하는 방법 / 선형적인 관계 정도 측정 척도 (수피)

 

- 카토그램

: 데이터값이 큰 지역의 면적을 시각적으로 더 크게 표시하는 시각화 기법.

: 지도를 통해 시점에 따른 경향, 차이 등을 확인하기 위해 사용.

 

 

 

- 연속확률분포

  • 표준 정규 분포: 정규 분포 함수에서 X를 Z로 정규화한 분포
  • T-분포: 모집단이 정규 분포이고, 모 표준편차는 모를 때 사용
  • F-분포: 독립적인 X^2-분포(카이제곱 분포)가 있을 때, 두 확률변수의 비
  • 정규분포: 모평균이 μ, 모분산이 σ2이라고 할 때, 종 모양의 분포

 

 

- 이산확률분포

  • 포아송 분포
  • 베르누이 분포
  • 이항분포

 

 

 

- 가설검정

  • 귀무가설: H0
  • 대립가설 : H1 (표본을 통해 확실한 근거를 갖고 입증하고자 하는 가설)

 

 

- p-값

: 귀무가설이 옳다는 가정하에 얻은 통계량이 귀무가설을 얼마나 지지하는지를 나타낸 확률

 

- 제1종 오류

: 귀무가설이 인데 이를 기각하는 결정

 

- 검정 통계량

: 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량

 

- 표본 추출 기법

  • 군집 추출: 모집단을 여러 군집으로 나눈 후, 일부 군집의 전체를 추출하는 방식

 


3과목) 빅데이터 모델링

 

- 분석기법 활용사례

  • '구매자의 나이가 디지털 가전의 구매 유형에 어떤 영향을 미치는가?' -> 회귀 분석   (오답: 의사결정나무)
  • '물류비 절감을 위해 최소 배송 경로를 구하려면?' -> 유전자 알고리즘

 

 

- 데이터 분할

  • 평가용 데이터: 학습X, 평가에만 사용  (오답: 학습 과정과 모형의 평가를 위한 과정에 사용된다.)

 

 

- 회귀 모형의 가정

  • 선형성
  • 독립성
  • 등분산성
  • 비상관성
  • 정상성
  • (오답: 일관성)

 

 

 

- 회귀 분석 유형

  • 단순 회귀: 독립변수가 1개이며, 종속변수와의 관계가 직선
  • 다중 회귀: 독립변수와 종속변수와의 관계가 1차 함수(오답: 1차 함수 이상)인 관계
  • 곡선 회귀: 독립변수가 1개이며 종속변수와의 관계가 곡선
  • 로지스틱 회귀: 종속변수가 범주형(2진 변수)인 경우 적용

 

 

 

- 최소 제곱법

: 측정값을 기초로 하여 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로, 오차 제곱의 합이 가장 작은 해를 구하는 것.

 

 

- 의사결정나무 구성요소

  • 깊이(Depth): 뿌리 마디부터 끝마디까지의 중간 마디들의 수
  • 가지(Branch): 뿌리 마디로부터 끝마디까지 연결된 상태의 마디들

 

 

- 활성화 함수

  • ReLU: x값이 0보다 큰 경우에만 y값도 지속적으로 증가       (오답: x값이 증가하면 y값도 지속적으로 증가한다.)

 

- 퍼셉트론

: XOR를 선형 분리할 수 없는 문제로 다층 퍼셉트론을 통해 XOR를 선형 분리가 가능해졌다.

 

 

- 서포트 벡터 머신(SVM; Support Vector Machine)

: 훈련 시간이 상대적으로 느리지만, 정확성이 뛰어나며 다른 방법보다 과적합의 가능성이 낮은 모델

 

 

- 배깅(Bagging)

: 앙상블 기법 중, 학습 데이터에서 다수의 부트스트랩(Bootstrap)자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 것

 

 

- 비모수 통계

: 표본의 크기가 커질수록 간편하지만, 지루한 반복 계산을 요구한다.

 

 


4과목) 빅데이터 결과 해석

- 특이도(Specificity)

: '부정' -> '부정'

 

 

- ROC 곡선

  • AUC(Area Under ROC; AUROC) 값은 항상 0.5~1의 값을 가지며, 1에 가까울수록 좋은 모형
  • 거짓 긍정률(FP)과 민감도(TP)는 서로 반비례 관계

 

 

- 홀드 아웃 교차 검증

: 전체 데이터를 비복원추출 방식을 이용하여 랜덤하게 학습 데이터(Training Set)와 평가 데이터(Test Set)로 나눠 검증하는 기법

 

 

- 분산 분석(ANOVA; Analysis of Variance)

: 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법

 

 

- 카이제곱 검정

  • 가정된 확률을 검정하는 것
  • 데이터가 가정된 확률을 따르는 경우 귀무 가설(H0)(오답: 대립 가설(H1))을 채택한다. 

 

 

 

- 드롭 아웃

  • 과적합(Over-fitting)을 방지하는 방법
  • 학습 시에만 사용하고, 예측 시에는 사용하지 않음.
  • 학습 시에 인공신경망이 특정 뉴런 또는 특정 조합에 너무 의존적이게 되는 것을 방지해줌
  • 학습 과정에서 신경망의 일부를 사용하지 않는 방법
  • (오답: 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법 -> 가중치 규제(Weight Regularization)

 

 

 

- 매개변수를 최적화 하는 방법

  • 확률적 경사 하강법
  • 모멘텀
  • AdaGrad
  • (오답: 드롭아웃 -> 과적합 방지 기법)

 

 

- 투자 대비 효과(ROI)

: 자본 투자에 따른 순 효과의 비율

 

 

- 순 현재가치(NPV)

: 예상 투자 비용의 할인가치를 예상 수익의 할인가치에서 공제 했을 때 나온 값을 합한 금액

 

 

- 내부 수익률(IRR)
: 연 단위 기대수익 규모를 판단하기 위해 순 현재 가치를 "0"으로 만드는 할인율

 

 

- 데이터 시각화 절차

: 구조화 단계 -> 시각화 단계 -> 시각표현 단계

 

 

- 공간 시각화에서 사용되는 기법

  • 카토그램
  • 버블 플롯맵
  • 도트맵
  • (오답: 히스토그램)

 

- 분석 모형 리모델링

: 분기, 반기, 연 단위로 수행한다.

 

 

- 빅데이터 활용 분야 검토시, 아이디어 개발 관점의 분류

  • 마인드맵 방식
  • 친화 도표 방식
  • 피라미드 방식
  • (오답: 버블차트 방식)

 

- 부트스트랩(Bootstrap)

: 샘플에 한 번도 선택되지 않는 원 데이터 발생할 수 있다.

 

 

- 혼동 행렬

  • 특이도(Specificity): 부정 -> 부정
  • 정밀도(Precision): 긍정 -> 긍정