[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현

Notice

Recent Posts

Recent Comments

Link

Github

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

Tech for good

[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현 - 1) 다양한 단어의 표현 방법 본문

IT/Data Science

[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현 - 1) 다양한 단어의 표현 방법

Diana Kang 2021. 10. 12. 10:04

4. 카운트 기반의 단어 표현

자연어 처리에서 텍스트를 표현하는 방법으로는 여러가지 방법이 있지만, 머신러닝 등의 알고리즘이 적용된 본격적인 자연어 처리를 위해서는 문자를 숫자로 수치화할 필요가 있다. 그러한 측면에서 이번 4챕터에서는 문자를 숫자로 수치화하는 방법에 대해 배우게 된다.

4.1. 다양한 단어의 표현 방법

이번 챕터의 제목은 카운트 기반의 단어 표현 방법이지만, 카운트 기반의 단어 표현 방법은 다음 챕터인 Bag of Words 챕터에서부터 배우게 된다. 지금은 카운트 기반의 단어 표현 외에도 다양한 단어 표현 방법에는 어떤 것이 있으며, 앞으로 이 책에서는 어떤 순서로 단어 표현 방법을 학습하게 될 것인지에 대해 먼저 설명한다.

4.1.1. 단어의 표현 방법

단어의 표현 방법은 크게 국소 표현(Local Representation)방법과 분산 표현(Distributed Representation)방법으로 나뉜다. 국소 표현 방법은 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법이며, 분산 표현 방법은 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법이다.

예를 들어 puppy(강아지), cute(귀여운), lovely(사랑스러운)이라는 단어가 있을 때 각 단어에 1번, 2번, 3번 등과 같은 숫자를 맵핑(mapping)하여 부여한다면 이는 국소 표현 방법에 해당된다. 반면 분산 표현 방법의 경우 해당 단어를 표현하기 위해 주변 단어를 참고한다. puppy(강아지)라는 단어 근처에는 주로 cute(귀여운), lovely(사랑스러운)이라는 단어가 자주 등장하므로, puppy라는 단어는 cute, lovely한 느낌이다로 단어를 정의한다. 즉 국소 표현 방법은 단어의 의미, 뉘앙스를 표현할 수 없지만, 분산 표현 방법은 단어의 뉘앙스를 표현할 수 있게 된다.

또한 비슷한 의미로 국소 표현 방법(Local Representation)을 이산 표현(Discrete Representation)이라고도 하며, 분산 표현(Distributed Representation) 을 연속 표현(Continuous Representation)이라고도 한다.

다른 의견으로는 구글의 연구원 토마스 미코로브(Tomas Mikolov)는 2016년에 한 발표에서 LSA나 LDA와 같은 방법들은 단어의 의미를 표현할 수 있다는 점에서 연속 표현(Continuous Representation).이지만, 엄밀히 말해서 다른 접근의 방법론을 사용하고 있는 워드투벡터(Word2vec)와 같은 분산 표현(Distributed Representation)은 아닌 것으로 분류하여 연속 표현을 분산 표현을 포괄하고 있는 더 큰 개념으로 설명했다.

4.1.2. 단어 표현의 카테고리화

이 책에서는 아래와 같은 기준으로 단어 표현을 카테고리화하여 작성하였다.

이번 4챕터에서 나올 Bag of Words(BoW)는 국소 표현(Local Representation)에 속하며, 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 단어 표현 방법이다. 이 챕터에서는 BoW와 그의 확장인 DTM(또는 TDM)에 대해서 학습하고, 이러한 빈도수 기반 단어 표현에 중요도에 따른 가중치를 줄 수 있는 TF-IDF를 학습하겠다.

이어지는 6챕터에서는 단어의 뉘앙스를 반영하는 연속 표현(Continuous Representation)의 일종인 LSA를 토픽 모델링이라는 주제로 학습한다.

10챕터에서는 연속 표현(Continuous Representation)에 속하면서 예측(prediction)을 기반으로 단어의 뉘앙스를 표현하는 워드투벡터(Word2Vec)와 그의 확장인 패스트텍스트(FastText)를 학습하고, 예측과 카운트라는 두 가지 방법이 모두 사용된 글로브(GloVe)에 대해서 학습한다.

'IT > Data Science' 카테고리의 다른 글

[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현 - 3) 문서 단어 행렬(Document-Term Matrix, DTM) (0)	2021.10.12
[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현 - 2) Bag of Words(BoW) (0)	2021.10.12
[빅데이터를 지탱하는 기술] 6. 빅데이터 분석 기반의 구축 - 클라우드 서비스에 의한 데이터 파이프라인 (0)	2021.10.04
[빅데이터를 지탱하는 기술] 4. 빅데이터의 축적 - 비구조화 데이터의 분산 스토리지 (0)	2021.10.02
[빅데이터를 지탱하는 기술] 4. 빅데이터의 축적 - 벌크 형과 스트리밍 형의 데이터 수집 (0)	2021.10.02

'IT/Data Science' Related Articles

Tech for good

Tech for good

[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현 - 1) 다양한 단어의 표현 방법 본문

[딥러닝을 이용한 자연어 처리 입문] 4. 카운트 기반의 단어 표현 - 1) 다양한 단어의 표현 방법

목차

4. 카운트 기반의 단어 표현

4.1. 다양한 단어의 표현 방법

4.1.1. 단어의 표현 방법

4.1.2. 단어 표현의 카테고리화

'IT > Data Science' 카테고리의 다른 글

티스토리툴바