Introduce
개인적으로 NLP Task에서 가장 중요한 것은 토크나이징이라고 생각한다. 전통적인 방법부터 현재 사용되는 방법까지 Token과 Tokenizing에 대해 알아보자.
Basic Concept of Tokenizing
Character Tokenizing
Word Tokenizing
Subword Tokenizing
Frequency based Tokenizing
BPE (Byte Pair Encoding)
WordPiece
SentencePiece
Korean Preprocessing
Last updated