Ash Space
GitHubHuggingFace
  • Contents
  • 🥑Resume / CV
    • Reseume / CV
  • 📄Paper Review
    • Paper List
      • [2017] Attention is all you need
      • [2023] CoVe : Chain of Verification Reduces Hallucination in Large Language Models
      • [2024] RAG Survey : A Survey on Retrieval-Augmented Text Generation for Large Language Models
      • [2023] Interleaving Retrieval with Chain-of-Thought for Knowledge-Intensive Multi-Step Questions
      • [2024] Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models
      • [2020] ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
      • [2024] Retrieval Augmented Generation (RAG) and Beyond
      • [2009] Reciprocal Rank Fusion outperforms Condorcet and individual Rank Learning Methods
      • [2024] Don't Do RAG : When Cache-Augmented Generation is All you Need for Knowledge Tasks
      • [2024] Text2SQL is Not Enough : Unifying AI and Database with TAG
  • 🗂️Research Article
    • Reference List
      • Dataset
      • LLM
      • Prompt Engineering
      • LLMops
      • RAG & Agent
      • Etc
    • Compounded AI System : The Shift from Models to Compound AI Systems
    • LLM과 Grounding
    • Essence of RAG
    • How to reduce Hallucinations
    • Golden Gate Claude Review
    • Editorial Thinking
    • Embedding을 평가하는 방법
    • 나야, Chunk
    • 당신.. Chunking이 뭔지 정확히 알아..?
    • 그래서 제일 좋은 Chunking이 뭔데?
    • 웅장한 대결 AI Agent와 Agentic AI
    • UV써도 괜찮아~ 딩딩딩딩딩
    • 아무도 RAG 평가 셋 만드는 것에 관심가지지 않아~
    • Linguistic Prompts
    • Chroma야, Chunking 평가를 어떻게 한다고?
    • Generations Never Easy
    • Model Context Protocol
    • Chill칠치 못한 Function Calling
    • RAG 평가지표 정복하기
    • LLM Quantization 방법론 알아보기
    • LLM은 더우면 헛소리를 해?
    • Text2SQL 넌 내꺼야!
  • 🏵️Conference
    • 일할맛 판교 3월 세미나
    • LangChainOpenTutorial를 진행하며
    • Talk: Prompt and Language The Science of Prompts 후기
    • 2024년 회고
    • 제 7회 Kako Tech Meet Up 후기
    • Moducon 2023 행사 후기
    • GDGXGDSC DevFest Happy Career 행사 후기
    • 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #1
    • 모두를 위한 한국어 오픈액세스 언어모델 못다한 이야기 (feat. 모두연) #2
    • 맨땅에서 구축해본 개인화시스템 구축기 Session 후기
  • ♟️Basic
    • 00 Introduction
    • 01-1 LLM 지도
    • 01-2 LLM의 중추 트랜스포머 아키텍처 살펴보기
Powered by GitBook
On this page
  • 0. Overview
  • 1. Data
  • (1). Chunking (post)
  • 2. Retrieval
  • (1). Rank Unaware Metric
  • (2). Rank Aware Metric
  • 3. Generation
  • (1). Task specific metric
  • (2). Domain specific / Scenario based metric
  1. Research Article

RAG 평가지표 정복하기

2025.03.29.

Last updated 2 months ago

0. Overview

사실 예정되어있던 포스트는 아니었고 RAG 성능평가에 대한 고민이 많던 요즘 총정리를 한번 해보자는 생각으로 작성하게 되었다. 널리 알려진 평가 metric부터 개인적으로 생각하는 부분까지 이 한번의 포스트로 끝내보자. 평가 metric은 크게 아래의 3가지 카테고리로 정리했다.

  • Data : Chunking에 대한 평가지표

  • Retrieval : Ranking을 고려했을 때와 그렇지 않았을 때의 Retrieval 평가지표

  • Generation : 공통된 기준이나 Domain / Scenario에 따른 Generation 평가지표

1. Data

  • Retrieval Metric

2. Retrieval

(1). Rank Unaware Metric

  • Precision

  • Recall

  • F1 Score

(2). Rank Aware Metric

  • MRR

  • MAP

  • nDCG

3. Generation

(1). Task specific metric

  • QA task

    • G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )

  • Summerization task

    • Sem Score, ROUGE

  • Translation task

    • BLEU, BERT Score

  • Conversation task

    • G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )

    • Knowledge Retention

  • Safety(=SafeGuard) task

    • G-Eval (e.g. Toxicity, Bias, Harmfulness, etc )

(2). Domain specific / Scenario based metric

  • Design a custom metric that reflects domain-specific characteristics. The evaluation method is generally as follows:

    • MCQA (=Multiple Choices Question Answering)

    • G-Eval

(1). Chunking ()

🗂️
post
IoU
RAG 평가지표 정복하기