第三十五篇-各大模型测评地址和阐明聚集

守听 · 2024-9-2 00:35:13

1.Open LLM Leaderboard - 开放式LLM排行榜

测评地址：https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
阐明：使用Eleuther AI的语言模型评估工具，针对六个核心任务进行基准测试，包罗AI2推理挑战、HellaSwag、MMLU等。
2.MTEB Leaderboard - 海量文本嵌入基准排行榜

测评地址：https://huggingface.co/spaces/mteb/leaderboard
阐明：覆盖八大核心嵌入任务，横跨58个数据集及112种语言，对33种不同模型进行基准测试。
3.Big Code Models Leaderboard - 大型代码模型排行榜

测评地址：https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
阐明：专注于多语言代码生成模型，特别是在HumanEval与MultiPL-E基准测试上的性能对比。
4.SEAL Leaderboards - SEAL排行榜

测评地址：https://scale.com/leaderboard
阐明：采用Elo等级分制度来比力不同数据集上模型的表现，使用Bradley-Terry模型进行统计分析。
5.Berkeley Function-Calling Leaderboard - 伯克利大模型函数调用排行榜

测评地址：https://gorilla.cs.berkeley.edu/leaderboard
阐明：评估大型语言模型在调用函数和实用工具方面的能力，涵盖2,000对问答对。
6.Occiglot Euro LLM 排行榜 - Occiglot Euro LLM排行榜

测评地址：https://huggingface.co/spaces/occiglot/euro-llm-leaderboard
阐明：是Open LLM排行榜的补充，特别增加了翻译任务的评估维度。
7.LMSYS Chatbot Arena Leaderboard - LMSYS谈天机器人竞技场排行榜

测评地址：
https://arena.lmsys.org/
https://chat.lmsys.org/?leaderboard=
阐明：众包平台，用于评测大型语言模型在对话交互中的表现，通过超过一百万次的人工配对比力。
8.Artificial Analysis LLM Performance Leaderboard - 人工分析LLM性能排行榜

测评地址：https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard
阐明：在无服务器API端点上对大型语言模型实行基准测试，综合评价性能与质量。
9.Open Medical LLM Leaderboard - 开放医学模型排行榜

测评地址：https://huggingface.co/spaces/openlifescienceai/open_medical_llm_leaderboard
阐明：依托专业医学数据集，评估模型在解决医学相干问题的能力。
10.Hughes Hallucination Evaluation Model (HHEM) Leaderboard - 休斯幻觉评价模型排行榜

测评地址：https://huggingface.co/spaces/vectara/leaderboard
阐明：权衡语言模型在生成文档摘要时出现幻觉征象的频度。
11.OpenVLM Leaderboard - OpenVLM排行榜

测评地址：https://huggingface.co/spaces/opencompass/open_vlm_leaderboard
阐明：展示针对视觉语言模型的综合评估概况，覆盖23项多模态基准测试。
12.LLM-Perf Leaderboard - LLM-Perf排行榜

测评地址：https://huggingface.co/spaces/optimum/llm-perf-leaderboard
阐明：依托Optimum-Benchmark，对部署在多样化的硬件、后端及优化方案中的大型语言模型（LLM）进行了全方位的性能评测，具体涵盖延迟、吞吐量、内存占用及能耗四大关键指标。
13.大模型综合能力评测对比表

大模型综合能力评测对比表 https://www.datalearner.com/ai-models/leaderboard/datalearner-llm-leaderboard#google_vignette
大模型的编程能力参考DataLearner大模型能力排行榜： https://www.datalearner.com/ai-models/llm-coding-evaluation

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

第三十五篇-各大模型测评地址和阐明聚集

0 个回复

快速回复

楼主热帖

标签云