일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- C#
- Blazor
- 파이썬
- Python3
- 빅데이터
- 리트코드
- 머신러닝
- 투포인터
- 파이썬기초
- codeup
- GenerativeAI
- gcp
- nlp
- 데이터사이언스
- TwoPointer
- 코드업
- Python
- 구글퀵랩
- 릿코드
- 자연어처리
- 파이썬알고리즘
- GenAI
- Azure
- 클라우드
- 알고리즘
- 파이썬기초100제
- 생성형AI
- 코드업파이썬
- Microsoft
- LeetCode
- Today
- Total
목록IT/Data Science (30)
Tech for good
목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.2. Bag of Words(BoW) 4.2.1. Bag of Words란? 4.2.2. Bag of Words의 다른 예제들 4.2.3. CountVectorizer 클래스로 BoW 만들기 4.2.4. 불용어를 제거한 BoW 만들기 (1) 사용자가 직접 정의한 불용어 사용 (2) CountVectorizer에서 제공하는 자체 불용어 사용 (3) NLTK에서 지원하는 불용어 사용 4. 카운트 기반의 단어 표현 4.2. Bag of Words(BoW) 이번 챕터에서는 단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법인 Bag of Words에 대해 학습한다. 4.2.1. Bag of Words란..

목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.1. 다양한 단어의 표현 방법 4.1.1. 단어의 표현 방법 4.1.2. 단어 표현의 카테고리화 4. 카운트 기반의 단어 표현 자연어 처리에서 텍스트를 표현하는 방법으로는 여러가지 방법이 있지만, 머신러닝 등의 알고리즘이 적용된 본격적인 자연어 처리를 위해서는 문자를 숫자로 수치화할 필요가 있다. 그러한 측면에서 이번 4챕터에서는 문자를 숫자로 수치화하는 방법에 대해 배우게 된다. 4.1. 다양한 단어의 표현 방법 이번 챕터의 제목은 카운트 기반의 단어 표현 방법이지만, 카운트 기반의 단어 표현 방법은 다음 챕터인 Bag of Words 챕터에서부터 배우게 된다. 지금은 카운트 기반의 단어 표현 외에도 다양..

목차 6. 빅데이터 분석 기반의 구축 6.4. 클라우드 서비스에 의한 데이터 파이프라인 6.4.1. 데이터 분석과 클라우드 서비스의 관계 6.4.2. 아마존 웹 서비스(AWS) 6.4.3. 구글 클라우드 플랫폼(GCP) 6. 빅데이터 분석 기반의 구축 6.4. 클라우드 서비스에 의한 데이터 파이프라인 빅데이터를 위한 분산 시스템은 자신이 직접 구축, 유지, 보수하는 것이 아니라 클라우드 서비스를 사용하는 경우가 많아지고 있다. 이 절에서는 몇 가지 클라우스 서비스의 특징과 그 차이점에 대해 예를 들어 설명한다. 이 절에서는 다음의 클라우드 서비스에 의한 데이터 파이프라인에 대해서 설명한다. - 아마존 웹 서비스(AWS) - 구글 클라우드 플랫폼(GCP) 6.4.1. 데이터 분석과 클라우드 서비스의 관계 ..

목차 4. 빅데이터의 축적 4.4. 비구조화 데이터의 분산 스토리지 4.4.1. [기본 전략] NoSQL 데이터베이스에 의한 데이터 활용 4.4.2. 분산 KVS - 디스크로의 쓰기 성능을 높이기 ① Amazon DynamoDB ② [기초지식] ACID 특성과 CAP 정리 4.4.3. 와이드 칼럼 스토어 - 구조화 데이터를 분석해서 저장하기 ① Apache Cassandra 4.4.4. 도큐먼트 스토어 - 스키마리스 데이터 관리하기 ① MongoDB 4.4.5. 검색 엔진 - 키워드 검색으로 데이터 검색 ① Elasticsearch ② Splunk 4. 빅데이터의 축적 4.4. 비구조화 데이터의 분산 스토리지 NoSQL 데이터베이스를 활용하면 데이터를 단순히 모아서 저장할 뿐만 아니라 애플리케이션에서 온..

목차 4. 빅데이터의 축적 4.1. 벌크 형과 스트리밍 형의 데이터 수집 4.1.1. 객체 스토리지와 데이터 수집 - 분산 스토리지에 데이터 읽어들이기 ① 데이터 수집 4.1.2. 벌크 형의 데이터 전송 - ETL 서버의 설치 필요성 ① 파일 사이즈의 적정화는 비교적 간단하다 ② 데이터 전송의 워크플로우 4.1.3. 스트리밍 형의 데이터 전송 - 계속해서 전송되어 오는 작은 데이터를 취급하기 위한 데이터 전송 ① 웹 브라우저에서의 메시지 배송 ② 모바일 앱으로부터의 메시지 배송 ③ 디바이스로부터의 메시지 배송 ④ 메시지 배송의 공통화 4. 빅데이터의 축적 4.1. 벌크형과 스트리밍 형의 데이터 수집 데이터 전송에는 벌크 형과 스트리밍 형의 두 종류의 도구가 사용된다. 이 절에서는 각각의 방법으로 분산 스..

목차 1. 빅데이터의 기초 지식 1.2. 빅데이터 시대의 데이터 분석 기반 1.2.1. 빅데이터의 기술 - 분산 시스템을 활용해서 데이터를 가공해 나가는 구조 ① 데이터 파이프라인 - 데이터 수집에서 워크플로우 관리까지 ② 데이터 수집 - 벌크 형과 스트리밍 형의 데이터 전송 ③ 스트림 처리와 배치 처리 ④ 분산 스토리지 - 객체 스토리지, NoSQL 데이터베이스 ⑤ 분산 데이터 처리 - 쿼리 엔진, ETL 프로세스 ⑥ 워크플로우 관리 1.2.2. 데이터 웨어하우스와 데이터 마트 - 데이터 파이프라인 기본형 1.2.3. 데이터 레이크 - 데이터를 그대로 축적 ① 데이터 레이크와 데이터 마트 - 필요한 데이터는 데이터 마트에 정리 1.2.4. 데이터 분석 기반을 단계적으로 발전시키기 ① 애드 혹 분석 및 ..

목차 1. 빅데이터의 기초 지식 1.1. [배경] 빅데이터의 정착 1.1.1. 분산 시스템에 의한 데이터 처리의 고속화 - Hadoop과 NoSQL ① 빅데이터 기술의 요구 - Hadoop과 NoSQL의 대두 ② Hadoop - 다수의 컴퓨터에서 대량의 데이터 처리 ③ NoSQL 데이터베이스 - 빈번한 읽기/쓰기 및 분산 처리가 장점 ④ Hadoop과 NoSQL 데이터베이스의 조합 - 현실적인 비용으로 대규모 데이터 처리 실현 1.1.2. 분산 시스템의 비즈니스 이용 개척 - 데이터 웨어하우스와의 공존 1.1.3. 직접 할 수 있는 데이터 분석 폭 확대 - 클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터 활용 1. 빅데이터의 기초 지식 1.1. [배경] 빅데이터의 정착 '분산 시스템의 발전'과 '..
https://wikidocs.net/21707 03) 어간 추출(Stemming) and 표제어 추출(Lemmatization) 이번 챕터에서는 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법인 표제어 추출(lemmatization)과 어간 추출(stemming)의 개념에 대해서 알아 ... wikidocs.net * 위의 책을 참고하여 작성된 글입니다. 목차 1. 표제어 추출(Lemmatization) 2. 어간 추출(Stemming) 3. 표제어 추출(Lemmatization)과 어간 추출(Stemming) 비교 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법으로 표제어 추출(lemmatization)과 어간 추출(stemming)이 있다. 이 두 작업은 서로 다른 ..

데이터의 세부 내용에 따라 의사결정의 방향성이 달라진다. '캠핑족이 늘고 있으니 캠핑용품을 만들어야 한다'는 덜 구체적이다. '캠핑 의자를 oo브랜드와 콜라보레이션하여 oo사이즈로 만들어야 한다'는 지나치게 구체적이다. '캠퍼 성장 중에서도 oo연령층 혹은 oo특징을 가진 캠퍼가 늘고 있으므로, 그 소비자군이 선호하는 oo브랜드나 oo브랜드와 같이 편의성을 중시하는 브랜드와 콜라보레이션하자'는 제언의 방향성을 잡아내는 것이다. 이 문장도 너무 두루뭉술하거나 너무 지엽적이라고 보는 사람도 있다. 이러한 제언은 조직이나 개인의 성향에 따라 수위가 정해질 수 있으니, 여러 번 시도하면서 수위를 파악하는 것이 좋다. 사람들이 좋아할 만한 제품을 만들기 위해 다각적으로 살펴보아야 한다. (X) oo를 좋아하는 고..

출처: 조경래 , 『처음 배우는 딥러닝 챗봇』, 한빛미디어(2020), p,235-272. 목차 8. 챗봇 엔진 만들기 8.1. 챗봇 엔진 소개 8.2. 챗봇 엔진 구조 8.3. 전처리 과정 8.4. 단어 사전 구축 및 시퀀스 생성 8.5. 의도 분류 모델 8.5.1. 의도 분류 모델 학습 8.5.2. 의도 분류 모듈 생성 8.6. 개체명 인식 모델 학습 8.6.1. 개체명 인식 모델 학습 8.6.2. 개체명 인식 모듈 생성 8.6. 개체명 인식 모델 8.7. 답변 검색 8.7.1. 데이터베이스 제어 모듈 생성 8.7.2. 답변 검색 모듈 생성 8. 챗봇 엔진 만들기 8.1. 챗봇 엔진 소개 '챗봇 엔진'이란 챗봇에서 핵심 기능을 하는 모듈이며, 화자의 질문을 이해하고 알맞은 답변을 출력하는 역할을 한다..