[SKT] AI 시대, 새로운 품질 기준 SPeCTRA

QARobot 작성
작성일 2024.08.06 17:25

901 조회

[기술포스팅 원문] https://devocean.sk.com/blog/techBoardDetail.do?ID=166588&boardType=techBlog

[기술포스팅 요약]

최근 소프트웨어 서비스에 LLM(대형 언어 모델)이 도입되고 AGI(인공지능 일반화) 시대로 접어들면서, 전통적인 소프트웨어 공학에서의 품질 보증 지표들이 AI 소프트웨어에 어떻게 적용될 수 있을지에 대한 고민이 시작되었습니다. 이에 따라 29CM는 LLM 기반 어플리케이션인 에이닷(A.)의 품질을 평가하기 위해 SPeCTRA라는 시스템을 개발하였습니다.

SPeCTRA는 안전(Safety), 성능(Performance), 톤 앤 매너(Tone & Manner), 정확성(Accuracy)을 의미합니다.
SPeCTRA는 에이닷 서비스의 주요 품질 항목을 정의하고 평가하는 방법을 제시합니다.
체계적인 평가: Safety, Performance, Tone & Manner, Accuracy 품질 지표를 고려하여 에이닷을 평가하기 위한 체계적인 접근 프로세스를 개발하였습니다.
LLM 품질 측정: 도메인별 프로덕트 사용 사례에 초점을 맞춰 모델 기반 테스트 데이터를 마련하고, Primary, Sub 에이전트 특성에 맞는 품질을 측정합니다.
자동화된 테스트: 휴먼 검증과 더불어 모델 기반 검증을 수행하여 모델 배포마다 에이닷 응답을 정기적으로 평가하고 일관성과 신뢰성을 보장합니다.
Nightly Test 통한 철저한 검증: 자동화 테스트로 야간 시간 검증을 수행하고 결과를 검토하는 방식으로 24시간 검증 플랫폼을 구축합니다.

SPeCTRA는 서비스 관점과 모델 데이터 관점에서 품질 항목을 검증합니다:

서비스 관점: Safety와 Tone & Manner (T&M)
모델 데이터 관점: Performance와 Accuracy

Safety 평가 항목:

윤리성: 민감하거나 부적절한 요청을 인식하고 필터링
보안성: 고객 개인정보 보호
공정성: 중립성과 공정성을 유지
준수성: 국내 법률과 회사 방침 준수

Performance 평가 항목:

기능성: 도메인에 대한 기능 제공
신속성: 빠른 응답 시간
반응성: 항상 답변 제공
적응성: 새로운 요구 사항에 대한 적응력

Tone & Manner 평가 항목:

톤 일관성: 언어와 어조의 일관성
유창성: 자연스러운 대화 흐름
이해도: 사용자의 의도 파악
정중성: 예의 바른 언어 사용

Accuracy 평가 항목:

적절성: 사용자의 상황에 맞는 결정과 방법 제시
내용 일관성: 정보의 일관성과 정확성
사실성: 정확한 정보 제공
유연성: 다양한 질문과 상황에 대한 적응력

SPeCTRA의 여정은 계속됩니다. AI 모델이 진화함에 따라 SPeCTRA도 지속적으로 개선되고 있습니다. 이를 통해 품질 항목이 추가되거나 사라지며, 사용자 경험을 최적화하고 있습니다. QA의 품질 활동에 있어 SPeCTRA는 중요한 역할을 수행하며, LLM 어플리케이션의 품질을 보장합니다.

이 게시글은 [GPT-4 모델]를 통해 요약되었으며, 정보 공유 목적으로 게시되었습니다. 원문 게시물에 대한 책임이나 이해 관계가 없습니다. - 소프트웨어QA 포럼

이전

[카카오페이] 사내 공통 목서버로 카카오페이 테스트 진입 장벽 낮추기

작성일 2024.08.07 14:10
다음

[토스] 토스에서 말하는 “가독성 좋은 코드” 란 무엇일까?

작성일 2024.08.05 13:56

댓글 0개

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.

SEARCH

작성자 정보

컨텐츠 정보

본문

관련자료

소셜계정으로 로그인