RAG 평가지표 정복하기
2025.03.29.
Last updated
2025.03.29.
Last updated
사실 예정되어있던 포스트는 아니었고 RAG 성능평가에 대한 고민이 많던 요즘 총정리를 한번 해보자는 생각으로 작성하게 되었다. 널리 알려진 평가 metric부터 개인적으로 생각하는 부분까지 이 한번의 포스트로 끝내보자. 평가 metric은 크게 아래의 3가지 카테고리로 정리했다.
Data : Chunking에 대한 평가지표
Retrieval : Ranking을 고려했을 때와 그렇지 않았을 때의 Retrieval 평가지표
Generation : 공통된 기준이나 Domain / Scenario에 따른 Generation 평가지표
Retrieval Metric
Precision
Recall
F1 Score
MRR
MAP
nDCG
QA task
G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
Summerization task
Sem Score, ROUGE
Translation task
BLEU, BERT Score
Conversation task
G-Eval (e.g. Answer Relevancy, Coherence, Correctness, Fluency, Faithfulness, etc )
Knowledge Retention
Safety(=SafeGuard) task
G-Eval (e.g. Toxicity, Bias, Harmfulness, etc )
Design a custom metric that reflects domain-specific characteristics. The evaluation method is generally as follows:
MCQA (=Multiple Choices Question Answering)
G-Eval