🐌Basic Concept of Text data

Ai에 가장 중요한 데이터, 그중에서도 텍스트로 이루어진 데이터에 대하여 다룹니다.

Ⅰ. Preprocessing (전처리)

ⅰ. What is Corpus?

흔히 Ai에 관한 작업을 다루다보면 세부적인 종류에 따라 다양한 테스크가 존재하고 이에 따라서 사용되는 데이터도 달라지는 것을 보았을 것이다. 그중에서 텍스트로 이루어진 데이터에 대하여 알아보자.

일반적으로 '말뭉치’라고도 불리는 Corpus (=코퍼스) 는 자연어처리와 언어학에서 사용되는 용어이다. 본래 언어 데이터의 큰 집합을 의미하며 텍스트만 존재하는것은 아니나 Ai 분야로 사용되면서 일반적으로 텍스트 데이터를 의미한다. 단순한 텍스트가 아닌 특정 언어, 방언, 주제, 스타일 또는 시대나 상황을 반영하는 의미를 가질 수 있으며 NLP 분야에서는 Corpus를 가지고 언어모델을 훈련하거나 다양한 언어연구를 수행하는데 사용된다.

이러한 Corpus의 특징은 그 목적과 사용 방식에 따라 천차만별이다. NLP에서는 이것의 품질과 크기가 모델의 성능에 큰 영향을 준다. 즉 Corpus를 구성하는데 있어서 편향되지 않도록 잘 구성해야 할 것이다. 이러한 Corpus도 종류를 나누면 다음과 같이 나눌 수 있다.

  • 단일 언어 코퍼스(monolingual corpus) : 한 가지 언어로 구성된 코퍼스를 의미한다.

  • 이중 언어 코퍼스(bilingual corpus) : 2가지 언어로 구성된 코퍼스를 의미한다.

  • 다중 언어 코퍼스(multilingual corpus) : 다수의 언어로 구성된 코퍼스를 의미한다.

  • 병렬 코퍼스(parallel corpus) : 언어 간에 쌍으로 구성되는 코퍼스를 의미한다.

    영문한글

    I love to go to school.

    나는 학교에 가는 것을 좋아한다.

    I am a doctor.

    나는 의사입니다.

ⅱ. How to do preprocessing step by step

NLP 분야에서의 전처리 과정은 목적에 따라 약간씩 다르지만 대개 아래와 같은 과정을 거쳐 수행된다.

  1. 데이터 수집 (= 코퍼스 수집)

  2. 데이터 정제 (= 데이터 클리닝, 정제)

  3. 토크나이징

  4. 단어집 생성

이후 생성된 단어집을 가지고 모델학습을 수행한다. 단, 딥러닝 기반의 NLP작업에선 몇가지 과정이 합쳐지거나 통합되어 생략되기도 한다.

Last updated