大语言模型评测排行榜
以下是一些知名的大语言模型评测平台和排行榜,可以用来比较不同模型的性能表现。
国际评测平台
- Open LLM Leaderboard - Hugging Face 维护的开源大语言模型排行榜(已归档)
- Chatbot Arena(大模型竞技场) - 通过人类偏好对比评测大语言模型
中文评测平台
- SuperCLUE - 中文通用大模型综合评测基准
- CMMLU - 中文多任务语言理解基准测试
- C-Eval - 中文基础模型评测榜单
- OpenCompass - 面向大模型评测的一站式平台
- FlagEval - 智源研究院推出的大模型评测平台
