Ash Space
GitHubHuggingFace
  • Contents
  • 🥑Resume / CV
    • Reseume / CV
  • 📄Paper Review
    • Paper List
      • [2017] Attention is all you need
      • [2023] CoVe : Chain of Verification Reduces Hallucination in Large Language Models
      • [2024] RAG Survey : A Survey on Retrieval-Augmented Text Generation for Large Language Models
      • [2023] Interleaving Retrieval with Chain-of-Thought for Knowledge-Intensive Multi-Step Questions
      • [2024] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models
      • [2020] ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
      • [2024] Retrieval Augmented Generation (RAG) and Beyond
      • [2009] Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods
      • [2024] Don't Do RAG : When Cache-Augmented Generation is All you Need for Knowledge Tasks
      • [2024] Text2SQL is Not Enough : Unifying AI and Database with TAG
  • 🗂️Research Article
    • Reference List
      • Dataset
      • LLM
      • Prompt Engineering
      • LLMops
      • RAG & Agent
      • Etc
    • Compounded AI System : The Shift from Models to Compound AI Systems
    • LLM과 Grounding
    • Essence of RAG
    • How to reduce Hallucinations
    • Golden Gate Claude Review
    • Editorial Thinking
    • Embedding을 평가하는 방법
    • 나야, Chunk
    • 당신.. Chunking이 뭔지 정확히 알아..?
    • 그래서 제일 좋은 Chunking이 뭔데?
    • 웅장한 대결 AI Agent와 Agentic AI
    • UV써도 괜찮아~ 딩딩딩딩딩
    • 아무도 RAG 평가 셋 만드는 것에 관심가지지 않아~
    • Linguistic Prompts
    • Chroma야, Chunking 평가를 어떻게 한다고?
    • Generations Never Easy
    • Model Context Protocol
    • Chill칠치 못한 Function Calling
    • RAG 평가지표 정복하기
    • LLM Quantization 방법론 알아보기
    • LLM은 더우면 헛소리를 해?
    • Text2SQL 넌 내꺼야!
  • 🏵️Conference
    • 일할맛 판교 3월 세미나
    • LangChainOpenTutorial를 진행하며
    • Talk: Prompt and Language The Science of Prompts 후기
    • 2024년 회고
    • 제 7회 Kako Tech Meet Up 후기
    • Moducon 2023 행사 후기
    • GDGXGDSC DevFest Happy Career 행사 후기
    • 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #1
    • 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #2
    • 맨땅에서 구축해본 개인화시스템 구축기 Session 후기
  • ♟️Basic
    • 00 Introduction
    • 01-1 LLM 지도
    • 01-2 LLM의 중추 트랜스포머 아키텍처 살펴보기
Powered by GitBook
On this page
  • Ⅰ. Dataset
  • Ⅱ. Data Collecting
  • Ⅲ. Data Engineering
  1. Research Article
  2. Reference List

Dataset

다양한 종류의 데이터셋에 대한 소개와 이를 수집하는 방식을 알아봅니다!

Last updated 2 months ago

Ⅰ. Dataset

하나의 완전한 데이터셋을 소개합니다.

  • AwesomeKorean Data

  • KorQuad : 한국어 Machine Reading Comprehension 데이터셋

  • CounselGPT : 한국어 심리 상담 데이터셋

  • Welfare-QA : 한국어 복지제도 관련 QA 데이터셋

  • KLUE

  • Korpora

  • 국립국어원 사전

  • 한국어 챗봇데이터

  • Korean HateSpeech Data

  • Ko-Wiki-Data

  • Kor-Wiki-Hop

  • Korean Human Judgement

  • Ko-Calibration

Ⅱ. Data Collecting

주어진 문서에서 내용을 추출하거나 외부에서 데이터를 수집/크롤링하는 레퍼런스를 소개합니다.

  • MegaParse

  • FireCrawl

  • Playwright

  • MinerU

  • PDFMathTranslate

  • OpenParse : Easy PDF Chunking open-source library

Ⅲ. Data Engineering

  • Airflow

  • Prefect

https://github.com/songys/AwesomeKorean_Data
https://github.com/korquad/korquad.github.io
https://github.com/MrBananaHuman/CounselGPT
https://github.com/ash-hun/Welfare-QA
https://github.com/KLUE-benchmark/KLUE
https://github.com/ko-nlp/Korpora
https://github.com/spellcheck-ko/korean-dict-nikl
https://github.com/songys/Chatbot_data
https://github.com/kocohub/korean-hate-speech
https://huggingface.co/datasets/maywell/ko_wikidata_QA
https://huggingface.co/datasets/KETI-AIR/kor_wiki_hop
https://huggingface.co/datasets/HAERAE-HUB/Korean-Human-Judgements
https://huggingface.co/datasets/maywell/ko-calibration
https://github.com/QuivrHQ/MegaParse
https://github.com/mendableai/firecrawl
https://github.com/microsoft/playwright
https://github.com/opendatalab/MinerU
https://github.com/Byaidu/PDFMathTranslate
https://github.com/Filimoa/open-parse
https://airflow.apache.org/
https://www.prefect.io/
🗂️
Page cover image