일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- codeup
- 생성형AI
- attention
- 데이터사이언스
- C#
- 머신러닝
- gcp
- GenerativeAI
- DataScience
- 코드업100제
- 알고리즘
- 한빛미디어
- Azure
- Microsoft
- 파이썬기초
- 코드업파이썬
- 블레이저
- 파이썬알고리즘
- 클라우드
- 파이썬기초100제
- 빅데이터
- 데이터분석
- 자연어처리
- Blazor
- 구글퀵랩
- 파이썬
- nlp
- GenAI
- 코드업
- Python
- Today
- Total
Tech for good
빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 2회 본문
(책: 수제비 2021 빅데이터분석기사 필기 최종 모의고사 2회)
1과목) 빅데이터 분석 기획
- 데이터 수집
: ETL, 크롤러, EAI
- 정보통신망법
: 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정 법령
: (오답 주의! -> 개인정보 보호법)
- 개인정보 비식별 조치 방법
- 데이터 삭제 : ex) 주민등록번호 901212-1234567 -> 90년대 생, 남자
- 통찰(Insight)
: 분석 대상 X / 분석 방식 O
: 분석의 대상이 명확하게 무엇인지 모르는 경우, 기존 분석 방식을 활용하여 새로운 지식을 도출하는 것
- KDD 분석 방법론
: Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
- 데이터 확보 계획 수립 절차
: 목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립 (계획 수립이 마지막임)
- 데이터 분석과제 정의
: 분석 작업 WBS 설정 중, 분석목표 정의서를 기준으로 프로젝트 전체 일정에 맞게 사전 준비를 하는 단계
- 평활화
: 데이터로부터 잡음을 제거하기 위해 데이터 추세를 벗어나는 값들을 변환하는 기법
- 데이터 정확성 품질특성 세부요소
- 정확성
- 사실성
- 적합성
- 필수성
- 연관성
- (오답 - 무결성)
- 빅데이터 적재 도구
- 플루언티드
- 플럼
- 스크라이브
- (오답 - HDFS)
+ HDFS: 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 분산 파일 시스템
- 병렬 DBMS
: 다수의 마이크로프로세서를 사용하여 여러 디스크에 대한 질의, 갱신, 입출력 등의 데이터베이스 처리를 동시에 수행하는 데이터베이스 시스템
- VoltDB
- SAP HANA
- Netezza
- Vertica
- Greenplum
- (오답 - HBase)
- 클라우드 파일 저장 시스템
: OpenStack Swift
2과목) 빅데이터 탐색
- CEP(Complex Event Processing)
: 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리하는 기술
- 완전 분석법
: 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법
- 데이터 이상값 처리 방법
- 삭제
- 대체법
- 변환
- 박스 플롯 해석
- (오답 - 히스토그램)
- 필터 기법
: 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법
- 주성분 분석
: 원래의 데이터 세트의 변수들을 선형 변환하여 서로 직교하도록 선택된 새로운 변수들을 생성, 이를 통해 원래 변수를 설명하고자 하는 기법
- 표준화
: 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법
- 언더 샘플링
: 무작위로 정상 데이터의 일부만 선택하는 기법
- 개별 변수 탐색 방법
- 수치형 데이터 시각화 - 박스플롯, 히스토그램
- 범주형 데이터 시각화 - 막대형 그래프
(+ 범주형 데이터는 빈도수, 최빈값, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악한다.)
- 산점도
: 가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
- 일변량 데이터 탐색 방법
- 기술 통계량 - 평균, 분산, 표준편차 등
- 그래프 통계량 - 히스토그램, 상자그림 등
- 다변량 데이터 탐색 도구
- 산점도 행렬
- 별 그림
- JSON
: 자바스크립트의 구문 형식이 언어 독립형 데이터 포맷인 것
- 구간 척도(등간 척도)
: 서열과 의미 있는 차이를 가지는 척도 (오답 주의! 순서 척도)
- T-분포
: 모집단이 정규 분포라는 정도만 알고, 모 표준편차는 모를 때 사용하는 분포
- 모수
: 모집단의 특성을 나타내는 대표값
- 점 추정 조건
- 불편성
- 효율성
- 일치성
- 충족성
- (오답: 기능성)
3과목) 빅데이터 모델링
- 독립변수와 종속변수 모두 연속형일 경우 사용 가능한 기법
- 회귀 분석
- 인공신경망 모델
- K-최근접 이웃 기법
- (오답 - 로지스틱 회귀 분석)
(* 로지스틱 회귀 분석: 종속변수가 범주형일 경우 사용가능한 기법)
- 승산비
: p/(1-p)
- 의사결정나무의 분석 과정
: 의사결정나무 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측
- XOR 연산
: 퍼셉트론으로 선형 분리가 불가능한 연산
- 서포트 벡터 머신의 구성요소
- 초평면
- 서포트 벡터
- 결정 경계
- 마진
- 슬랙 변수
- (오답 - 활성화 함수)
(* 활성화 함수: 인공신경망에서 순 입력함수로부터 전달받은 값을 출력값으로 변환해주는 함수)
- 지지도
: P(A∩B)/전체
- 신뢰도
: P(A∩B)/P(A)
- 와드연결법
: 군집 내의 오차 제곱합(Error Sum of Square)에 기초하여 군집을 수행하는 기법
- 피셔의 정확 검정
: 독립변수(범주형) - 종속변수(범주형)
- 로지스틱 회귀 분석
: 독립변수(수치형) - 종속변수(범주형)
- 다차원 척도법 -> 스트레스 값(Stress Value)
: 0에 가까울수록 적합도 수준이 완벽 / 1에 가까울수록 나쁘다.
- 시계열 분석의 '정상성'
- 정상성은 시점에 상관없이 시계열의 특성이 일정하다는 의미이다.
- 평균이 일정하다.
- 공분산은 단시 시차에만 의존하고 시점 자체에는 의존하지 않는다.
- 분산이 시점에 의존하지 않는다. (오답 - 분산이 시점에 의존한다.)
- 공분산(Covariance)
: 두 개 이상의 변량 데이터가 주어질 경우에 각 변량 간의 변화하는 양상을 나타내는 통계적 척도
- 딥러닝 알고리즘
- DNN(Deep Neural Network): 은닉층을 심층(Deep) 구성하여 입력층에서부터 은닉층, 출력층으로 이동하고 역전파 알고리즘을 수행하는 심층 신경망
- CNN(Convolution Neural Network): 기존 영상처리의 필터 기능(Convolution)과 신경망(Neural Network)을 결합하여 성능을 발휘하도록 만든 구조의 합성곱 신경망
- RNN(Recurrent Neural Network): 입력층에서 전달받은 순차적인 데이터를 은닉층으로 전달하며 재귀적 구조의 순환 신경망
- GAN(Generative Adversarial Network): 가짜 데이터를 생성하는 생성 모델과 데이터를 진짜와 가짜로 분류하는 분류 모델로 구성된 생성적 적대 신경망
- 랜덤 포레스트(Random Forest)
: 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 배깅(Bagging)
: 학습 데이터에서 다수의 부트스트랩(bootstrap) 자료를 생성하고, 각 자료를 모델링 한 후 결합하여 최종 예측 모형을 만드는 알고리즘
- 부스팅(Boosting)
: 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘.
- 보팅(Voting)
: 여러 개의 머신 러닝 알고리즘 모델을 학습시킨 후 새로운 데이터에 대해 각 모델의 예측값을 가지고 다수결 투표를 통해 최종 클래스를 예측하는 기법
- 비모수 통계량
- 빈도
- 부호
- 순위
- 모수 통계량
- 평균
- 분산
- 표준편차
4과목) 빅데이터 결과 해석
- SSE(Explained Sum of Squares)
: 예측값과 실제값의 차이의 제곱합
- SST(Total Sum of Squares)
: 제곱 편차 합계로, 실제값과 예측값 차이(편차)의 제곱합
- SSR(Residual Sum of Squares)
: 제곱 잔차 합계로, 예측값과 평균값 차이(잔차)의 제곱합
- AE(Average Error)
: 평균 오차로, 예측한 결과값이 오류 평균이다.
- 일반화 오류 -> 과대 적합
- 학습 오류 -> 과소 적합
- 카이제곱 검정
: 범주에 따라 분류된 변수가 정규 분포되어 있다면 빈도가 실제 기대되는 값으로부터 유의미한 차이가 관찰되는가를 보기 위한 검증
- Z-검정
: 귀무가설에서 검정 통계량의 분포를 정규 분포로 근사할 수 있는 통계 검정
- T-검정
: 두 집단 간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용한다.
- 분산 분석(ANOVA)
: 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산
: 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법
- 정규성 검정기법
- 샤프로-월크 검정
- 콜모고로프-스미르노프 적합성 검정
- Q-Q Plot
- (오답 - 카이제곱 검정)
(* 카이제곱 검정: 가정된 확률을 검정하는 것)
- 과대 적합(Over-fitting)을 방지하는 방법
- 모델 복잡도 감소
- 가중치 규제
- 드롭아웃
- 데이터 세트 감소 (오답 - 데이터 세트 증가)
- 편향
: 매개변수 중 하나의 뉴런에 입력된 모든 값을 다 더한 값(가중합)에 더해주는 상수
- 가중치
: 각 입력값에 각기 다르게 곱해지는 수치
- 페이스팅
: 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법
- 직접 투표(Hard Voting)
: 단순 투표 방식으로 개별 모형의 결과 기준
- 배깅(Bagging)
: 학습 데이터의 중복을 허용하며, 학습 데이터 세트를 나누는 기법으로 복원추출 방식이다.
- 랜덤 서브스페이스
: 학습 데이터를 모두 사용하고 특성은 샘플링 하는 방식
- 그레디언트 부스트
: 각 약한 모형을 순차적으로 적용해 나가는 과정에서 잘못 분류된 샘플의 에러(Error)를 최적화하는 기법
- 에이다 부스트
: 약한 모형들을 순차적으로 적용해 나가는 과정에서 잘 분류된 샘플의 가중치는 낮추고 잘못 분류된 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 방법
- 관계 시각화 기법
- 산점도
- 버블 차트
- 히스토그램
- (오답 - 도넛 차트 -> 분포 시각화 기법)
- TCO(Total Cost of Ownership; 총 소유 비용)
: 하나의 자산을 획득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용되는 평가 기법
- 산점도 행렬
: 다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프
- 버블 차트
: 산점도에서 데이터값을 나타내는 점 또는 마크에 여러 가지 의미를 부여하여 확장된 차트
- 데이터 마이닝
: 대규모로 저장된 데이터 안에서 체계적이고 자동으로 통계적 규칙이나 패턴을 찾아내는 기법
- 가용성
: 서비스의 장애 없이 정상적으로 지속해서 제공할 수 있는 능력
- 임계치
: 성능 모니터링 시 장애 상황 및 성능 상태의 경계선으로 일반적으로 임계치에 따른 등급을 설정하며, 정상 상태를 기준치로 설정하고 비정상적인 상황을 판단하는 경계
'IT > Data Science' 카테고리의 다른 글
자연어 언어모델 ‘BERT’ 1강 - 자연어 처리 (NLP) | T아카데미 (0) | 2021.04.18 |
---|---|
빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 3회 (0) | 2021.04.16 |
빅데이터 분석기사 개념정리 - 수제비 2021 빅데이터분석기사 필기 최종 모의고사 1회 (0) | 2021.04.15 |
한국어 임베딩 - 2. 벡터가 어떻게 의미를 가지게 되는가 (0) | 2021.04.14 |
한국어 임베딩 - 1. 서론 (0) | 2021.04.13 |