Page cover image

Introduce

Corpus로부터 Tokenizing을 했으니 이제 컴퓨터가 잘 이해할 수 있도록 형태를 바꾸어야 합니다. 이것을 Vectorizing(=벡터화)이라고 하고 단어를 벡터화하는 작업을 Embedding(=임베딩)이라고 합니다. 임베딩에 대해 자세히 알아봅시다.

  • Basic Concept of Embedding

    • Integer Labeled Encoding

      • OHE, OHV

      • Sparse Vector, Dense Vector

    • Count based Embedding

      • BoW

      • DTM

      • TF-IDF

    • Vector Similarity

      • Cosine Similartiy

      • L1 Distance

      • L2 Distance

      • Infinity Norm

    • Word Embedding

  • Word2Vec

    • CBOW

    • Skip-Gram

    • SGNS

  • GloVe

    • GloVe

    • Fasttext

  • Doc2Vec

  • ELMo

Last updated