Page cover image

Introduce

개인적으로 NLP Task에서 가장 중요한 것은 토크나이징이라고 생각한다. 전통적인 방법부터 현재 사용되는 방법까지 Token과 Tokenizing에 대해 알아보자.

  • Basic Concept of Tokenizing

    • Character Tokenizing

    • Word Tokenizing

  • Subword Tokenizing

    • Frequency based Tokenizing

    • BPE (Byte Pair Encoding)

    • WordPiece

    • SentencePiece

  • Korean Preprocessing

Last updated