Tech for good

빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 2회 본문

IT/Data Science

빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 2회

Diana Kang 2021. 4. 15. 12:56

(책: 수제비 2021 빅데이터분석기사 필기 최종 모의고사 2회)

 

 

1과목) 빅데이터 분석 기획

- 데이터 수집

: ETL, 크롤러, EAI     

 

- 정보통신망법

: 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정 법령

: (오답 주의! -> 개인정보 보호법)

 

- 개인정보 비식별 조치 방법 

  • 데이터 삭제 : ex) 주민등록번호 901212-1234567   -> 90년대 생, 남자

 

- 통찰(Insight)

: 분석 대상 X / 분석 방식 O

: 분석의 대상이 명확하게 무엇인지 모르는 경우, 기존 분석 방식을 활용하여 새로운 지식을 도출하는 것

 

 

- KDD 분석 방법론

: Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론

 

 

- 데이터 확보 계획 수립 절차

: 목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립   (계획 수립이 마지막임)

 

 

- 데이터 분석과제 정의

: 분석 작업 WBS 설정 중, 분석목표 정의서를 기준으로 프로젝트 전체 일정에 맞게 사전 준비를 하는 단계

 

 

 

- 평활화

: 데이터로부터 잡음을 제거하기 위해 데이터 추세를 벗어나는 값들을 변환하는 기법

 

 

- 데이터 정확성 품질특성 세부요소

  • 정확성
  • 사실성
  • 적합성
  • 필수성
  • 연관성
  • (오답 - 무결성)

 

- 빅데이터 적재 도구

  • 플루언티드
  • 플럼
  • 스크라이브
  • (오답 - HDFS)

+ HDFS: 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 분산 파일 시스템

 

 

- 병렬 DBMS

: 다수의 마이크로프로세서를 사용하여 여러 디스크에 대한 질의, 갱신, 입출력 등의 데이터베이스 처리를 동시에 수행하는 데이터베이스 시스템

  • VoltDB
  • SAP HANA
  • Netezza
  • Vertica
  • Greenplum
  • (오답 - HBase)

 

 

- 클라우드 파일 저장 시스템

: OpenStack Swift

 

 

 

 


2과목) 빅데이터 탐색

 

- CEP(Complex Event Processing)

: 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리하는 기술

 

 

- 완전 분석법

: 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법

 

 

- 데이터 이상값 처리 방법

  • 삭제
  • 대체법
  • 변환
  • 박스 플롯 해석
  • (오답 - 히스토그램)

 

- 필터 기법

: 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법

 

 

- 주성분 분석

: 원래의 데이터 세트의 변수들을 선형 변환하여 서로 직교하도록 선택된 새로운 변수들을 생성, 이를 통해 원래 변수를 설명하고자 하는 기법

 

 

- 표준화

: 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법

 

 

- 언더 샘플링

: 무작위로 정상 데이터의 일부만 선택하는 기법

 

 

- 개별 변수 탐색 방법

  • 수치형 데이터 시각화 - 박스플롯, 히스토그램
  • 범주형 데이터 시각화 - 막대형 그래프

(+ 범주형 데이터는 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악한다.)

 

 

 

- 산점도 

: 가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화 방법

 

 

 

- 일변량 데이터 탐색 방법

  • 기술 통계량 - 평균, 분산, 표준편차 등
  • 그래프 통계량 - 히스토그램, 상자그림 등

 

 

- 다변량 데이터 탐색 도구

  • 산점도 행렬
  • 별 그림

 

 

- JSON

: 자바스크립트의 구문 형식이 언어 독립형 데이터 포맷인 것

 

 

- 구간 척도(등간 척도)

: 서열과 의미 있는 차이를 가지는 척도      (오답 주의! 순서 척도)

 

 

 

- T-분포

: 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를 때 사용하는 분포

 

 

- 모수

: 모집단의 특성을 나타내는 대표값

 

 

 

- 점 추정 조건

  • 불편성
  • 효율성
  • 일치성
  • 충족성
  • (오답: 기능성)

 


3과목) 빅데이터 모델링

-  독립변수와 종속변수 모두 연속형일 경우 사용 가능한 기법

  • 회귀 분석
  • 인공신경망 모델
  • K-최근접 이웃 기법
  • (오답 - 로지스틱 회귀 분석)

 

(* 로지스틱 회귀 분석: 종속변수가 범주형일 경우 사용가능한 기법)

 

 

- 승산비

: p/(1-p)

 

 

 

- 의사결정나무의 분석 과정

: 의사결정나무 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측

 

 

 

- XOR 연산

: 퍼셉트론으로 선형 분리가 불가능한 연산

 

 

 

- 서포트 벡터 머신의 구성요소

  • 초평면
  • 서포트 벡터
  • 결정 경계
  • 마진
  • 슬랙 변수
  • (오답 - 활성화 함수)

 

(* 활성화 함수: 인공신경망에서 순 입력함수로부터 전달받은 값을 출력값으로 변환해주는 함수)

 

 

 

- 지지도 

: P(A∩B)/전체

 

 

- 신뢰도

: P(A∩B)/P(A)

 

 

 

- 와드연결법

: 군집 내의 오차 제곱합(Error Sum of Square)에 기초하여 군집을 수행하는 기법

 

 

 

- 피셔의 정확 검정

: 독립변수(범주형) - 종속변수(범주형)

 

 

 

- 로지스틱 회귀 분석

: 독립변수(수치형) - 종속변수(범주형)

 

 

 

-  다차원 척도법 -> 스트레스 값(Stress Value)

: 0에 가까울수록 적합도 수준이 완벽 / 1에 가까울수록 나쁘다.

 

 

 

- 시계열 분석의 '정상성'

  • 정상성은 시점에 상관없이 시계열의 특성이 일정하다는 의미이다.
  • 평균이 일정하다.
  • 공분산은 단시 시차에만 의존하고 시점 자체에는 의존하지 않는다.
  • 분산이 시점에 의존하지 않는다.   (오답 - 분산이 시점에 의존한다.)

 

 

 

- 공분산(Covariance)

: 두 개 이상의 변량 데이터가 주어질 경우에 각 변량 간의 변화하는 양상을 나타내는 통계적 척도

 

 

 

- 딥러닝 알고리즘

  • DNN(Deep Neural Network): 은닉층을 심층(Deep) 구성하여 입력층에서부터 은닉층, 출력층으로 이동하고 역전파 알고리즘을 수행하는 심층 신경망
  • CNN(Convolution Neural Network): 기존 영상처리의 필터 기능(Convolution)과 신경망(Neural Network)을 결합하여 성능을 발휘하도록 만든 구조의 합성곱 신경망
  • RNN(Recurrent Neural Network): 입력층에서 전달받은 순차적인 데이터를 은닉층으로 전달하며 재귀적 구조의 순환 신경망
  • GAN(Generative Adversarial Network): 가짜 데이터를 생성하는 생성 모델과 데이터를 진짜와 가짜로 분류하는 분류 모델로 구성된 생성적 적대 신경망

 

 

 

 

 

- 랜덤 포레스트(Random Forest)

: 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

 

 

 

- 배깅(Bagging)

: 학습 데이터에서 다수의 부트스트랩(bootstrap) 자료를 생성하고, 각 자료를 모델링 한 후 결합하여 최종 예측 모형을 만드는 알고리즘

 

 

 

-  부스팅(Boosting)

: 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘.

 

 

 

- 보팅(Voting)

: 여러 개의 머신 러닝 알고리즘 모델을 학습시킨 후 새로운 데이터에 대해 각 모델의 예측값을 가지고 다수결 투표를 통해 최종 클래스를 예측하는 기법

 

 

 

- 비모수 통계량

  • 빈도
  • 부호
  • 순위

 

 

- 모수 통계량

  • 평균
  • 분산
  • 표준편차

 

 


4과목) 빅데이터 결과 해석

 

 

- SSE(Explained Sum of Squares)

: 예측값과 실제값의 차이의 제곱합

 

- SST(Total Sum of Squares)

: 제곱 편차 합계로, 실제값과 예측값 차이(편차)의 제곱합

 

 

- SSR(Residual Sum of Squares)
: 제곱 잔차 합계로, 예측값과 평균값 차이(잔차)의 제곱합

 

 

- AE(Average Error)

: 평균 오차로, 예측한 결과값이 오류 평균이다.

 

 

 

- 일반화 오류 -> 과대 적합

- 학습 오류 -> 과소 적합

 

 

 

 

- 카이제곱 검정

: 범주에 따라 분류된 변수가 정규 분포되어 있다면 빈도가 실제 기대되는 값으로부터 유의미한 차이가 관찰되는가를 보기 위한 검증

 

 

- Z-검정

: 귀무가설에서 검정 통계량의 분포를 정규 분포로 근사할 수 있는 통계 검정

 

 

- T-검정

: 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용한다.

 

 

- 분산 분석(ANOVA)

: 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산

: 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법

 

 

 

- 정규성 검정기법

  • 샤프로-월크 검정
  • 콜모고로프-스미르노프 적합성 검정
  • Q-Q Plot
  • (오답 - 카이제곱 검정)

 

(* 카이제곱 검정: 가정된 확률을 검정하는 것)

 

 

 

 

- 과대 적합(Over-fitting)을 방지하는 방법

  • 모델 복잡도 감소
  • 가중치 규제
  • 드롭아웃
  • 데이터 세트 감소  (오답 - 데이터 세트 증가)

 

 

- 편향

: 매개변수 중 하나의 뉴런에 입력된 모든 값을 다 더한 값(가중합)에 더해주는 상수

 

 

- 가중치
: 각 입력값에 각기 다르게 곱해지는 수치

 

 

- 페이스팅

: 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법

 

 

- 직접 투표(Hard Voting)

: 단순 투표 방식으로 개별 모형의 결과 기준

 

 

- 배깅(Bagging)
: 학습 데이터의 중복을 허용하며, 학습 데이터 세트를 나누는 기법으로 복원추출 방식이다.

 

 

- 랜덤 서브스페이스

: 학습 데이터를 모두 사용하고 특성은 샘플링 하는 방식

 

 

 

- 그레디언트 부스트

: 각 약한 모형을 순차적으로 적용해 나가는 과정에서 잘못 분류된 샘플의 에러(Error)를 최적화하는 기법

 

 

- 에이다 부스트

: 약한 모형들을 순차적으로 적용해 나가는 과정에서 잘 분류된 샘플의 가중치는 낮추고 잘못 분류된 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 방법

 

 

- 관계 시각화 기법

  • 산점도
  • 버블 차트
  • 히스토그램
  • (오답 - 도넛 차트 -> 분포 시각화 기법)

 

 

 

- TCO(Total Cost of Ownership;  총 소유 비용)

: 하나의 자산을 획득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용되는 평가 기법

 

 

- 산점도 행렬

: 다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프

 

 

- 버블 차트

: 산점도에서 데이터값을 나타내는 점 또는 마크에 여러 가지 의미를 부여하여 확장된 차트

 

 

- 데이터 마이닝

: 대규모로 저장된 데이터 안에서 체계적이고 자동으로 통계적 규칙이나 패턴을 찾아내는 기법

 

 

- 가용성

: 서비스의 장애 없이 정상적으로 지속해서 제공할 수 있는 능력

 

 

- 임계치

: 성능 모니터링 시 장애 상황 및 성능 상태의 경계선으로 일반적으로 임계치에 따른 등급을 설정하며, 정상 상태를 기준치로 설정하고 비정상적인 상황을 판단하는 경계