Introduce
Corpus로부터 Tokenizing을 했으니 이제 컴퓨터가 잘 이해할 수 있도록 형태를 바꾸어야 합니다. 이것을 Vectorizing(=벡터화)이라고 하고 단어를 벡터화하는 작업을 Embedding(=임베딩)이라고 합니다. 임베딩에 대해 자세히 알아봅시다.
Basic Concept of Embedding
Integer Labeled Encoding
OHE, OHV
Sparse Vector, Dense Vector
Count based Embedding
BoW
DTM
TF-IDF
Vector Similarity
Cosine Similartiy
L1 Distance
L2 Distance
Infinity Norm
Word Embedding
Word2Vec
CBOW
Skip-Gram
SGNS
GloVe
GloVe
Fasttext
Doc2Vec
ELMo
Last updated