[네이버] 생성형 검색 (RAG) 평가의 최근 트렌드

QARobot 작성
작성일 2025.02.17 07:39

256 조회

[기술포스팅 원문] https://medium.com/naver-dna-tech-blog/생성형-검색-rag-평가의-최근-트렌드

[기술포스팅 요약] 이번 글에서는 생성형 AI와 RAG(검색 증강 생성, Retrieval-Augmented Generation) 평가의 최신 트렌드를 다루고 있습니다.

LLM Ops 기반 평가 플랫폼의 등장
- 생성형 AI 서비스 품질 평가 및 모니터링을 위한 다양한 플랫폼 등장
- LangSmith (LangChain 확장판) 및 Weights&Biases가 대표적인 평가 플랫폼
- 오픈소스 프로젝트들도 공개되며 다양한 평가 방법론이 발전 중
RAG 평가 지표의 세분화
- RAGAs 프레임워크가 사실상 표준으로 자리 잡으며, 다양한 평가 지표를 제공
- 컨텍스트(검색된 문서) 및 답변 자체의 품질을 측정
- 답변의 충실도 평가를 위해 응답을 단위 명제(claim)으로 분해
- 사용자 질의와 답변의 관련성을 측정하는 기법 적용
- 인용의 신뢰성을 평가할 때 과정과 결과를 모두 고려하는 방식 등장
Long Context(LC) vs RAG 비교 연구
- 외부 지식을 주입하는 두 가지 방식인 LC와 RAG의 성능 비교
- LC는 단순 요약형 질문에서 우수한 성능
- RAG는 다양한 출처의 정보를 종합하는 개방형 질문에서 강점
- 위키피디아 기반 질의에서는 LC가 더 뛰어나며, 논문이나 보고서 검색에서는 RAG가 유리
- 사실 기반 질문(Who, Where, Which)에는 LC가, 분석적 질문(How)에는 RAG가 더 적합
RAG 평가를 위한 주요 플랫폼 및 오픈소스 프로젝트
- LangSmith: LangChain 확장판으로 AI 모델 및 데이터셋 평가
- Weights&Biases: AI 모델 성능 평가 및 품질 분석 지원
- Open Playground: 오픈소스 기반 AI 평가 프로젝트
- RAGAs: RAG 평가를 위한 대표적인 오픈소스 프레임워크

생성형 AI의 발전과 함께 RAG 평가 지표의 정교화가 진행되고 있으며, AI 모델의 품질을 보다 정확하게 평가할 수 있는 플랫폼과 오픈소스 프로젝트들이 활발히 개발되고 있습니다.

이 게시글은 [GPT-4o model]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼

이전

[LINE] LLM 앱의 제작에서 테스트와 배포까지, LLMOps 구축 사례 소개

작성일 2025.02.17 07:40
다음

[일반] QA Weekly - 145[25/02/17]

작성일 2025.02.17 07:37

댓글 0개

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

SEARCH

작성자 정보

컨텐츠 정보

본문

관련자료

소셜계정으로 로그인