인공지능 모델 성능 평가

허깅페이스 모델 성능 평가 척도

  • ARC(AI2 Reasoning Challenge) - (추론능력)는 초등학교 수준의 과학문제로 이뤄진 데이터셋
  • HellaSwag (상식능력) 는 상식 추론능력을 평가하기 위한 데이터셋
  • MMLU (언어이해력) 는 모델의 초등 수학, 미국역사, 컴퓨터 화학, 법률 등 57개의 주제에 대한 지식 정확도를 테스트
  • 진실성 검사(TruthfulQA - 환각방지능력)는 할루시네이션(환각) 정도를 평가하는 척도
  • 추론능력(ARC)
  • 상식 추론(WinoGrade)
  • 수학적 추론(GSM8K)

평가척도

PPL(Perplexity)

펄플렉서티(perplexity)는 언어 모델을 평가하기 위한 평가 지표입니다. 보통 줄여서 PPL이 라고 표현합니다. 왜 perplexity라는 용어를 사용했을까요? 영어에서 'perplexed'는 '헷갈리는'과 유사한 의미를 가집니다. 그러니까 여기서 PPL은 '헷갈리는 정도'로 이해합시다. PPL를 처음 배울때 다소 낯설게 느껴질 수 있는 점이 있다면, PPL은 수치가 높으면 좋은 성능을 의미하는 것이 아니라, '낮을수록' 언어 모델의 성능이 좋다는 것을 의미

BLEU(Bilingual Evaluation Understudy) Score

Machine translation에서 주로 사용하는 BLEU가 n-gram Precision에 기반한 지표

BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 측정 기준은 n-gram에 기반합니다. n-gram의 정의는 언어 모델 챕터를 참고하시기 바랍니다.

BLEU는 완벽한 방법이라고는 할 수는 없지만 몇 가지 이점을 가집니다. 언어에 구애받지 않고 사용할 수 있으며, 계산 속도가 빠릅니다. BLEU는 PPL과는 달리 높을 수록 성능이 더 좋음을 의미합니다. BLEU를 이해하기 위해 기계 번역 성능 평가를 위한 몇 가지 직관적인 방법을 먼저 제시하고, 문제점을 보완해나가는 방식으로 설명

https://wikidocs.net/31695

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) Score

ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표

정답 문장의 n-gram이 생성 문장에 얼마나 포함 되는지의 비율

n-gram recall

https://velog.io/@yoonene/ROUGE-Score%EB%9E%80

이미지 생성 모델

이미지 생성 모델의 성능 평가 방법

참고자료

RAG 성능 평가