일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- medium
- dfs
- codeup
- LeetCode
- slidingwindow
- 알고리즘
- 니트코드
- 슬라이딩윈도우
- 자연어처리
- Python3
- 생성형AI
- SQL
- Python
- 투포인터
- GenAI
- nlp
- 구글퀵랩
- stratascratch
- 리트코드
- gcp
- 릿코드
- 파이썬
- GenerativeAI
- Microsoft
- heap
- 파이썬알고리즘
- two-pointer
- 코드업
- sql코테
- 파이썬기초100제
- Today
- Total
목록IT/Data Science (38)
Tech for good

목차 5. 벡터의 유사도(Vector Similarity) 5.2. 여러가지 유사도 기법 5.2.1. 유클리드 거리(Euclidean distance) 5.2.2. 자카드 유사도(Jaccard similarity) 5. 벡터의 유사도(Vector Similarity) 5.2. 여러가지 유사도 기법 문서의 유사도를 구하기 위한 방법으로는 코사인 유사도 외에도 여러가지 방법들이 있다. 여기서는 문서의 유사도를 구할 수 있는 다른 방법들을 학습한다. 5.1.1. 유클리드 거리(Euclideam distance) 유클리드 거리(euclidean distance)는 문서의 유사도를 구할 때 자카드 유사도나 코사인 유사도만큼, 유용한 방법은 아니다. 하지만 여러 가지 방법을 이해하고, 시도해보는 것 자체만으로 다른..

목차 5. 벡터의 유사도(Vector Similarity) 5.1. 코사인 유사도(Cosine Similarity) 5.1.1. 코사인 유사도(Cosine Similarity) 5.1.2. 유사도를 이용한 추천 시스템 구현하기 5. 벡터의 유사도(Vector Similarity) 문서의 유사도를 구하는 일은 자연어 처리의 주요 주제 중 하나이다. 사람들이 인식하는 문서의 유사도는 주로 문서들 간에 동일한 단어 또는 비슷한 단어가 얼마나 공통적으로 많이 사용되었는지 의존한다. 기계도 마찬가지이다. 기계가 계산하는 문서의 유사도의 성능은 각 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지(DTM, Word2Vec 등), 문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는..

https://www.elastic.co/kr/webinars/using-nori-in-elastic-cloud/?view=1 Elastic Cloud에서 한글형태소 분석기 Nori 실전 활용하기 www.elastic.co ↑위 영상을 참고하여 제작된 글입니다.↑ https://www.elastic.co/guide/en/cloud/current/ec-custom-bundles.html Upload custom plugins and bundles | Elasticsearch Service Documentation | Elastic You cannot edit or delete a custom extension after it has been used in a deployment. To remove it f..
목차 6. 토픽 모델링(Topic Modeling) 6.3. 잠재 디리클레 할당(LDA) 실습2 6.3.1. 실습을 통한 이해 1) 뉴스 기사 제목 데이터에 대한 이해 2) 텍스트 전처리 3) TF-IDF 행렬 만들기 4) 토픽 모델링 6. 토픽 모델링(Topic Modeling) 6.3. 잠재 디리클레 할당(LDA) 실습2 앞서 gensim을 통해서 LDA를 수행하고, 시각화를 진행해보았다. 이번에는 LSA 챕터에서처럼 사이킷런을 사용하여 LDA를 수행하여 보겠다. 사이킷런을 사용하므로 전반적인 과정은 LSA 챕터와 유사하다. 6.3.1. 실습을 통한 이해 1) 뉴스 기사 제목 데이터에 대한 이해 약 15년 동안 발행되었던 뉴스 기사 제목을 모아놓은 영어 데이터를 아래 링크에서 다운받을 수 있다. 링크..

목차 6. 토픽 모델링(Topic Modeling) 6.2. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 6.2.1. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 개요 6.2.2. LDA의 가정 6.2.3. LDA의 수행하기 6.2.4. 잠재 디리클레 할당(LDA)과 잠재 의미 분석(LSA)의 차이 6.2.5. 실습을 통한 이해 (1) 정수 인코딩과 단어 집합 만들기 (2) LDA 모델 훈련시키기 (3) LDA 시각화하기 (4) 문서 별 토픽 분포 보기 6. 토픽 모델링(Topic Modeling) 6.2. 잠재 디리클레 할당(Latent Dirichlet Allocation; LDA) 토픽 모델링은 문서의 집합에서 토픽을 찾아내는 ..

목차 6. 토픽 모델링(Topic Modeling) 6.1. 잠재 의미 분석(Latent Semantic Analysis; LSA) 6.1.1. 특이값 분해(Singular Value Decomposition, SVD) (1) 전치 행렬(Transposed Matrix) (2) 단위 행렬(Identity Matrix) (3) 역행렬(Inverse Matrix) (4) 직교 행렬(Orthogonal Matrix) (5) 대각 행렬(Diagonal Matrix) 6.1.2. 절단된 SVD(Truncated SVD) 6.1.3. 잠재 의미 분석(Latent Semantic Analysis; LSA) 6.1.4. 실습을 통한 이해 (1) 뉴스그룹 데이터에 대한 이해 (2) 텍스트 전처리 (3) TF-IDF 행렬..

목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.4. TF-IDF(Term Frequency-Inverse Document Frequency) 4.4.1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) (1) tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 (2) df(t) : 특정 단어 t가 등장한 문서의 수 (3) idf(d,t) : df(t)에 반비례하는 수 4.4.2. 파이썬으로 TF-IDF 직접 구현하기 4.4.3. 사이킷런을 이용한 DTM과 TF-IDF 실습 4. 카운트 기반의 단어 표현 4.4. TF-IDF(Term Frequency-Inverse Docum..

목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.3. 문서 단어 행렬(Document-Term Matrix, DTM) 4.3.1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법 4.3.2. 문서 단어 행렬(Document-Term Matrix, DTM)의 한계 (1) 희소 표현(Sparse representation) (2) 단순 빈도 수 기반 접근 4. 카운트 기반의 단어 표현 4.3. 문서 단어 행렬(Document-Term Matrix, DTM) 이번 챕터에서는 각 문서에 대한 BoW 표현 방법을 그대로 갖고와서 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬(Document-Term Matrix, DTM..
목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.2. Bag of Words(BoW) 4.2.1. Bag of Words란? 4.2.2. Bag of Words의 다른 예제들 4.2.3. CountVectorizer 클래스로 BoW 만들기 4.2.4. 불용어를 제거한 BoW 만들기 (1) 사용자가 직접 정의한 불용어 사용 (2) CountVectorizer에서 제공하는 자체 불용어 사용 (3) NLTK에서 지원하는 불용어 사용 4. 카운트 기반의 단어 표현 4.2. Bag of Words(BoW) 이번 챕터에서는 단어의 등장 순서를 고려하지 않는 빈도수 기반의 단어 표현 방법인 Bag of Words에 대해 학습한다. 4.2.1. Bag of Words란..

목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.1. 다양한 단어의 표현 방법 4.1.1. 단어의 표현 방법 4.1.2. 단어 표현의 카테고리화 4. 카운트 기반의 단어 표현 자연어 처리에서 텍스트를 표현하는 방법으로는 여러가지 방법이 있지만, 머신러닝 등의 알고리즘이 적용된 본격적인 자연어 처리를 위해서는 문자를 숫자로 수치화할 필요가 있다. 그러한 측면에서 이번 4챕터에서는 문자를 숫자로 수치화하는 방법에 대해 배우게 된다. 4.1. 다양한 단어의 표현 방법 이번 챕터의 제목은 카운트 기반의 단어 표현 방법이지만, 카운트 기반의 단어 표현 방법은 다음 챕터인 Bag of Words 챕터에서부터 배우게 된다. 지금은 카운트 기반의 단어 표현 외에도 다양..