인공지능 모델 성능 평가
허깅페이스 모델 성능 평가 척도
- ARC(AI2 Reasoning Challenge) - (추론능력)는 초등학교 수준의 과학문제로 이뤄진 데이터셋
- HellaSwag (상식능력) 는 상식 추론능력을 평가하기 위한 데이터셋
- MMLU (언어이해력) 는 모델의 초등 수학, 미국역사, 컴퓨터 화학, 법률 등 57개의 주제에 대한 지식 정확도를 테스트
- 진실성 검사(TruthfulQA - 환각방지능력)는 할루시네이션(환각) 정도를 평가하는 척도
- 추론능력(ARC)
- 상식 추론(WinoGrade)
- 수학적 추론(GSM8K)
평가척도
PPL(Perplexity)
펄플렉서티(perplexity)는 언어 모델을 평가하기 위한 평가 지표입니다. 보통 줄여서 PPL이 라고 표현합니다. 왜 perplexity라는 용어를 사용했을까요? 영어에서 'perplexed'는 '헷갈리는'과 유사한 의미를 가집니다. 그러니까 여기서 PPL은 '헷갈리는 정도'로 이해합시다. PPL를 처음 배울때 다소 낯설게 느껴질 수 있는 점이 있다면, PPL은 수치가 높으면 좋은 성능을 의미하는 것이 아니라, '낮을수록' 언어 모델의 성능이 좋다는 것을 의미
BLEU(Bilingual Evaluation Understudy) Score
Machine translation에서 주로 사용하는 BLEU가 n-gram Precision에 기반한 지표
BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 측정 기준은 n-gram에 기반합니다. n-gram의 정의는 언어 모델 챕터를 참고하시기 바랍니다.
BLEU는 완벽한 방법이라고는 할 수는 없지만 몇 가지 이점을 가집니다. 언어에 구애받지 않고 사용할 수 있으며, 계산 속도가 빠릅니다. BLEU는 PPL과는 달리 높을 수록 성능이 더 좋음을 의미합니다. BLEU를 이해하기 위해 기계 번역 성능 평가를 위한 몇 가지 직관적인 방법을 먼저 제시하고, 문제점을 보완해나가는 방식으로 설명
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) Score
ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표
정답 문장의 n-gram이 생성 문장에 얼마나 포함 되는지의 비율
n-gram recall
이미지 생성 모델
이미지 생성 모델의 성능 평가 방법