본문 바로가기
AI/RAG

RAG 시스템 성능, 어떻게 평가할까? RAGAS로 살펴보는 네 가지 핵심 지표

by lt.mj 2025. 3. 25.

RAG(Retrieval-Augmented Generation)는 대규모 언어 모델이 잘 알지 못하는 질문에 대해, 외부 지식 문서를 검색해 보다 정확하고 신뢰할 수 있는 답변을 생성하는 구조입니다. 하지만 RAG는 단일 모델이 아니라 검색(Retrieval) + 생성(Generation) 두 단계를 함께 사용하는 시스템이기 때문에 평가가 어렵다는 단점이 있습니다.

단순히 RAG의 답변이 맞았는지만 보는 것은 부족하고, 답변이 어디서 왔는지, 질문에 적절한지, 검색이 잘 됐는지 등 다양한 요소를 함께 고려해서 평가해야 합니다.

이런 복잡성을 고려해서 등장한 것이 바로 RAGAS(Retrieval-Augmented Generation Assessment Suite) 프레임워크입니다. RAGAS는 RAG 평가를 위해 네 가지의 핵심 평가 지표를 제공하고 있습니다. 본 포스트에서는 RAGAS의 주요 지표 4가지인 Faithfulness, Answer Relevancy, Context Precision, Context Recall 을 살펴보겠습니다.

 

1. RAGAS

https://github.com/explodinggradients/ragas

 

RAGAS(Retrieval-Augmented Generation Assessment Suite)는 RAG 파이프라인의 성능을 정밀하게 평가하기 위해 설계된 오픈소스 평가 프레임워크입니다. 기존의 BLEU, ROUGE와 같은 정량 지표들은 단순한 문장 유사도만 판단하지만, RAG은 Retrieval(검색)과 Generation(생성)이 결합된 복합 시스템이기 때문에 이 두 부분을 나누어 따로 평가할 수 있는 정교한 지표들이 필요합니다.

 

 

2. 평가 지표

RAGAS는 RAG의 두 핵심 축인 검색과 생성 각각에 대해 따로 성능을 평가할 수 있도록 구성되어 있습니다. 생성된 답변의 정확성과 관련성을 평가하는 지표(Faithfulness, Answer Relevancy)와 검색된 문서의 품질을 측정하는 지표(Context Precision, Context Recall)가 있습니다.

https://dkaarthick.medium.com/ragas-for-rag-in-llms-a-comprehensive-guide-to-evaluation-metrics-3aca142d6e38

 

2-1. Faithfulness (충실성)

Faithfulness는 답변이 근거 문서에 실제로 기반하고 있는지를 측정합니다.

 

  • 정의: 생성된 답변이 제공된 컨텍스트(context)에 얼마나 충실한가?
  • 중요성: 아무리 자연스러운 답변이라도, 컨텍스트에 없는 정보를 포함하면 hallucination 가능성이 있음
  • 점수 범위: 0 ~ 1 (1에 가까울수록 좋음)
  • 계산 방식:
    1. 답변에서 claim 문장 추출 (LLM 사용)
    2. 해당 claim이 context에서 추론 가능한지 평가

 

아무리 자연스러운 답이라도, 문서에 없는 내용을 만들어낸다면 그것은 hallucination입니다. Faithfulness는 거짓 없는 LLM을 만들기 위한 핵심 지표입니다.

 

2-2. Answer Relevancy (답변 관련성)

Answer Relevancy는 생성된 답변이 문과 얼마나 관련성이 있는지 평가합니다.

  • 정의: 생성된 답변이 질문에 대해 적절하고 관련 있는 내용을 담고 있는가?
  • 점수 범위: -1 ~ 1 (1에 가까울수록 질문과 관련 있음)
  • 계산 방식:
    1. 생성된 답변 기반으로 질문을 다시 생성 
    2. 원래 질문과 재생성된 질문의 cosine 유사도 측정

컨텍스트에 기반한 답변이라도, 질문에 어긋난 응답이라면 사용자 입장에선 부정확한 결과입니다. Answer Relevancy는 질문의 의도에 맞는 답변을 만들었는지를 측정합니다.

 

2-3. Context Precision (컨텍스트 정밀도)

  • 정의: 검색된 여러 문서들 중, 실제 답변에 도움이 되는 문서가 얼마나 상위에 위치하는가?
  • 점수 범위: 0 ~ 1
  • 계산 방식:
    1. 검색된 문서들(chunk)이 질문, 정답과 관련 있는지 평가
    2. 관련성 있는 문서의 비율로 precision 계산

정확한 정보를 위쪽에 보여주는 것이 중요합니다. 아래쪽에 정답이 있어도 LLM이 참고하지 않으면 소용이 없습니다.

 

2-4. Context Recall (컨텍스트 재현율)

  • 정의: 답변에 필요한 모든 정보를 검색 결과에서 찾을 수 있었는가?
  • 점수 범위: 0 ~ 1
  • 계산 방:
    1. ground truth를 여러 개의 statement로 나눔
    2. 각 statement가 검색된 context가 존재하는지 확인
    3. 포함된 비율로 recall 계산

필요한 정보를 빠짐없이 찾지 못하면, 아무리 좋은 생성 모델을 써도 정확한 답을 만들기 어렵습니다.

 

 

 

결국 RAG의 성능은 단순히 "정답을 잘 맞췄는가?" 만으로는 설명되지 않습니다. Faithfulness와 Relevancy는 ‘답변 품질’을, Precision과 Recall은 ‘검색 품질’을 측정합니다.

이 네 가지를 함께 보아야, 어디에서 문제가 생겼는지 정확히 진단할 수 있습니다.

 


 

https://smilegate.ai/2024/11/18/ragas-rag-%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%84%B1%EB%8A%A5-%ED%8F%89%EA%B0%80-%EC%9D%B4%EC%A0%9C%EB%8A%94-%EC%A0%9C%EB%8C%80%EB%A1%9C-%ED%95%B4%EB%B3%B4%EC%9E%90/

https://mywork.tistory.com/19

https://dkaarthick.medium.com/ragas-for-rag-in-llms-a-comprehensive-guide-to-evaluation-metrics-3aca142d6e38

https://arxiv.org/abs/2309.15217

https://dkaarthick.medium.com/ragas-for-rag-in-llms-a-comprehensive-guide-to-evaluation-metrics-3aca142d6e38

'AI > RAG' 카테고리의 다른 글

Model Context Protocol (MCP)  (0) 2025.04.02
ReRanker  (2) 2025.03.06
RAG 프레임워크 비교하기: Haystack, RAGFlow, txtai  (1) 2025.03.04
Retrieval Augmented Generation (RAG)  (4) 2025.02.28