⌘Ctrlk

GitHub HuggingFace

RAG 평가지표 정복하기

2025.03.29.

0. Overview

사실 예정되어있던 포스트는 아니었고 RAG 성능평가에 대한 고민이 많던 요즘 총정리를 한번 해보자는 생각으로 작성하게 되었다. 널리 알려진 평가 metric부터 개인적으로 생각하는 부분까지 이 한번의 포스트로 끝내보자. 평가 metric은 크게 아래의 3가지 카테고리로 정리했다.

Data : Chunking에 대한 평가지표
Retrieval : Ranking을 고려했을 때와 그렇지 않았을 때의 Retrieval 평가지표
Generation : 공통된 기준이나 Domain / Scenario에 따른 Generation 평가지표

1. Data

(1). Chunking (post)

IoU
Retrieval Metric

2. Retrieval

(1). Rank Unaware Metric

Precision
Recall
F1 Score

(2). Rank Aware Metric

MRR
MAP
nDCG

3. Generation

(1). Task specific metric

QA task
- G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
Summerization task
- Sem Score, ROUGE
Translation task
- BLEU, BERT Score
Conversation task
- G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
- Knowledge Retention
Safety(=SafeGuard) task
- G-Eval (e.g. Toxicity, Bias, Harmfulness, etc )

(2). Domain specific / Scenario based metric

Design a custom metric that reflects domain-specific characteristics. The evaluation method is generally as follows:
- MCQA (=Multiple Choices Question Answering)
- G-Eval

Last updated 10 months ago