Dataset
다양한 종류의 데이터셋에 대한 소개와 이를 수집하는 방식을 알아봅니다!
Ⅰ. Dataset
하나의 완전한 데이터셋을 소개합니다.
AwesomeKorean Data
KorQuad : 한국어 Machine Reading Comprehension 데이터셋
CounselGPT : 한국어 심리 상담 데이터셋
Welfare-QA : 한국어 복지제도 관련 QA 데이터셋
Korean HateSpeech Data
Korean Human Judgement
Ko-Calibration
Ⅱ. Data Collecting
주어진 문서에서 내용을 추출하거나 외부에서 데이터를 수집/크롤링하는 레퍼런스를 소개합니다.
MegaParse
Playwright
PDFMathTranslate
OpenParse : Easy PDF Chunking open-source library
Ⅲ. Data Engineering
Airflow
Prefect
Last updated