大语言模型评测排行榜

以下是一些知名的大语言模型评测平台和排行榜，可以用来比较不同模型的性能表现。

国际评测平台

Open LLM Leaderboard - Hugging Face 维护的开源大语言模型排行榜（已归档）
Chatbot Arena（大模型竞技场） - 通过人类偏好对比评测大语言模型

中文评测平台

SuperCLUE - 中文通用大模型综合评测基准
CMMLU - 中文多任务语言理解基准测试
C-Eval - 中文基础模型评测榜单
OpenCompass - 面向大模型评测的一站式平台
FlagEval - 智源研究院推出的大模型评测平台