일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬
- 투포인터
- 생성형AI
- 코드업100제
- 파이썬기초
- 데이터사이언스
- 구글퀵랩
- Blazor
- codeup
- gcp
- 코드업파이썬
- Python
- 알고리즘
- 파이썬기초100제
- 클라우드
- 머신러닝
- Microsoft
- C#
- TwoPointer
- 빅데이터
- Azure
- nlp
- GenAI
- LeetCode
- 파이썬알고리즘
- DataScience
- 리트코드
- GenerativeAI
- 자연어처리
- 코드업
- Today
- Total
목록IT/Data Science (30)
Tech for good
re.sub(pattern, repl, string, count, flags) re.sub -> '패턴에 일치되는 문자열은 대체 문자열로 바꿔준다.' pattern = 패턴 repl = 대체될 문자열 string = 문자열 데이터 count = 최대 몇 개까지 치환할 것인가를 지정 * (만약 일치되는 문자열이 3인데 count=2라고 지정되어 있으면 마지막 세 번째 문자열은 치환되지 않는다.) flags = (아래 블로그 포스팅 표 참조) https://greeksharifa.github.io/%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D(re)/2018/07/21/regex-usage-02-basic/ Python, Machine & Deep Learning Pyth..
iteritems(): returns an iterator of the dictionary's list in the form of (key, value) tuple pairs -> 딕셔너리로 부를 수 있는 함수 / 키 값과, 밸류 값의 리스트를 부른다. 아래의 형태로 많이 쓰인다. for k, v in dic.iteritems(): ...
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/rDR5w/btrig4R4X1c/1QI4DQBm00cZzjFa93gGd1/img.png)
목차 5. 벡터의 유사도(Vector Similarity) 5.2. 여러가지 유사도 기법 5.2.1. 유클리드 거리(Euclidean distance) 5.2.2. 자카드 유사도(Jaccard similarity) 5. 벡터의 유사도(Vector Similarity) 5.2. 여러가지 유사도 기법 문서의 유사도를 구하기 위한 방법으로는 코사인 유사도 외에도 여러가지 방법들이 있다. 여기서는 문서의 유사도를 구할 수 있는 다른 방법들을 학습한다. 5.1.1. 유클리드 거리(Euclideam distance) 유클리드 거리(euclidean distance)는 문서의 유사도를 구할 때 자카드 유사도나 코사인 유사도만큼, 유용한 방법은 아니다. 하지만 여러 가지 방법을 이해하고, 시도해보는 것 자체만으로 다른..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/CglJF/btrigr8gMxd/tIWOsgk3dEAOuCTHyLuBE1/img.png)
목차 5. 벡터의 유사도(Vector Similarity) 5.1. 코사인 유사도(Cosine Similarity) 5.1.1. 코사인 유사도(Cosine Similarity) 5.1.2. 유사도를 이용한 추천 시스템 구현하기 5. 벡터의 유사도(Vector Similarity) 문서의 유사도를 구하는 일은 자연어 처리의 주요 주제 중 하나이다. 사람들이 인식하는 문서의 유사도는 주로 문서들 간에 동일한 단어 또는 비슷한 단어가 얼마나 공통적으로 많이 사용되었는지 의존한다. 기계도 마찬가지이다. 기계가 계산하는 문서의 유사도의 성능은 각 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지(DTM, Word2Vec 등), 문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dhQ4Sd/btrihbiDXcB/aH4Xs0J3BkWUkPjgUUffE1/img.png)
https://www.elastic.co/kr/webinars/using-nori-in-elastic-cloud/?view=1 Elastic Cloud에서 한글형태소 분석기 Nori 실전 활용하기 www.elastic.co ↑위 영상을 참고하여 제작된 글입니다.↑ https://www.elastic.co/guide/en/cloud/current/ec-custom-bundles.html Upload custom plugins and bundles | Elasticsearch Service Documentation | Elastic You cannot edit or delete a custom extension after it has been used in a deployment. To remove it f..
목차 6. 토픽 모델링(Topic Modeling) 6.3. 잠재 디리클레 할당(LDA) 실습2 6.3.1. 실습을 통한 이해 1) 뉴스 기사 제목 데이터에 대한 이해 2) 텍스트 전처리 3) TF-IDF 행렬 만들기 4) 토픽 모델링 6. 토픽 모델링(Topic Modeling) 6.3. 잠재 디리클레 할당(LDA) 실습2 앞서 gensim을 통해서 LDA를 수행하고, 시각화를 진행해보았다. 이번에는 LSA 챕터에서처럼 사이킷런을 사용하여 LDA를 수행하여 보겠다. 사이킷런을 사용하므로 전반적인 과정은 LSA 챕터와 유사하다. 6.3.1. 실습을 통한 이해 1) 뉴스 기사 제목 데이터에 대한 이해 약 15년 동안 발행되었던 뉴스 기사 제목을 모아놓은 영어 데이터를 아래 링크에서 다운받을 수 있다. 링크..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/WB526/btrhFwJlBza/pxHTXLi5wjkJGcL7kjbE41/img.png)
목차 6. 토픽 모델링(Topic Modeling) 6.2. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 6.2.1. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 개요 6.2.2. LDA의 가정 6.2.3. LDA의 수행하기 6.2.4. 잠재 디리클레 할당(LDA)과 잠재 의미 분석(LSA)의 차이 6.2.5. 실습을 통한 이해 (1) 정수 인코딩과 단어 집합 만들기 (2) LDA 모델 훈련시키기 (3) LDA 시각화하기 (4) 문서 별 토픽 분포 보기 6. 토픽 모델링(Topic Modeling) 6.2. 잠재 디리클레 할당(Latent Dirichlet Allocation; LDA) 토픽 모델링은 문서의 집합에서 토픽을 찾아내는 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/nbPYh/btrhGSdHLaB/VTYug0RiLuKAECvTo6QqE0/img.png)
목차 6. 토픽 모델링(Topic Modeling) 6.1. 잠재 의미 분석(Latent Semantic Analysis; LSA) 6.1.1. 특이값 분해(Singular Value Decomposition, SVD) (1) 전치 행렬(Transposed Matrix) (2) 단위 행렬(Identity Matrix) (3) 역행렬(Inverse Matrix) (4) 직교 행렬(Orthogonal Matrix) (5) 대각 행렬(Diagonal Matrix) 6.1.2. 절단된 SVD(Truncated SVD) 6.1.3. 잠재 의미 분석(Latent Semantic Analysis; LSA) 6.1.4. 실습을 통한 이해 (1) 뉴스그룹 데이터에 대한 이해 (2) 텍스트 전처리 (3) TF-IDF 행렬..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/pAqfc/btrhxr1PWN2/kLWS2XPDEH030STv1KIEkK/img.png)
목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.4. TF-IDF(Term Frequency-Inverse Document Frequency) 4.4.1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) (1) tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 (2) df(t) : 특정 단어 t가 등장한 문서의 수 (3) idf(d,t) : df(t)에 반비례하는 수 4.4.2. 파이썬으로 TF-IDF 직접 구현하기 4.4.3. 사이킷런을 이용한 DTM과 TF-IDF 실습 4. 카운트 기반의 단어 표현 4.4. TF-IDF(Term Frequency-Inverse Docum..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cB2TKv/btrhsf7YUZh/IJ6QYKsmv3Wm53hienhY3k/img.png)
목차 4. 카운트 기반의 단어 표현(Count based word Representation) 4.3. 문서 단어 행렬(Document-Term Matrix, DTM) 4.3.1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법 4.3.2. 문서 단어 행렬(Document-Term Matrix, DTM)의 한계 (1) 희소 표현(Sparse representation) (2) 단순 빈도 수 기반 접근 4. 카운트 기반의 단어 표현 4.3. 문서 단어 행렬(Document-Term Matrix, DTM) 이번 챕터에서는 각 문서에 대한 BoW 표현 방법을 그대로 갖고와서 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬(Document-Term Matrix, DTM..