벤치마크 (Benchmark)
AI 모델의 성능을 객관적으로 평가하기 위해 사용되는 표준화된 테스트
1 / 2
용례
"M2.5는 SWE-Bench, BrowseComp 등 다양한 벤치마크에서 최고 수준의 성능을 보여주었습니다."
"Anthropic은 Claude 모델의 성능을 기준으로 새로운 테스트의 난이도를 조정했습니다."
AI 모델의 성능을 객관적으로 평가하기 위해 사용되는 표준화된 테스트
"M2.5는 SWE-Bench, BrowseComp 등 다양한 벤치마크에서 최고 수준의 성능을 보여주었습니다."
"Anthropic은 Claude 모델의 성능을 기준으로 새로운 테스트의 난이도를 조정했습니다."