벤치마크 (Benchmark)

AI 모델의 성능을 객관적으로 평가하기 위해 사용되는 표준화된 테스트

1 / 2

용례

"M2.5는 SWE-Bench, BrowseComp 등 다양한 벤치마크에서 최고 수준의 성능을 보여주었습니다."

"Anthropic은 Claude 모델의 성능을 기준으로 새로운 테스트의 난이도를 조정했습니다."