迪士尼彩乐园168你的位置:迪士尼彩乐园 > 迪士尼彩乐园168 >

迪士尼彩乐园3登录 Meta 开源大模子 Llama-4-Maverick 基准测试排名暴跌

发布日期:2024-11-07 08:22    点击次数:190

IT之家 4 月 14 日音讯,LMArena 更新了 Meta 最新发布的开源大模子 Llama-4-Maverick 的排名,其从此前的第 2 名直线下落至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模子的质疑。

4 月 6 日,Meta 发布了最新的大模子 Llama 4,包含 Scout、Maverick 和 Behemoth 三个版块。其中,Llama-4-Maverick 在 LMArena 公布的 Chatbot Arena LLM 排名榜中排名第二,仅次于 Gemini 2.5 Pro。可是,跟着开发者现实使用 Llama 4 大模子开源版的恶果不绝曝光,Llama 4 的口碑急转直下。有开发者发现 Meta 提供给 LMArena 的 Llama 4 版块与提交给社区的开源版块不同,因而质疑 Meta 刷榜舞弊。

4 月 8 日,Chatbot Arena 官方发文证明了用户的上述质疑,公开默示 Meta 提供给他们的是“特供版”,并接洽更新排名榜。字据 Chatbot Arena 官方音讯,Meta 初度提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版块,那时该版块的排名为第二。修正后的模子为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 群众的辅导微调模子。

IT之家提神到,目下开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),迪士尼彩乐园以致连英伟达基于上一代 Llama 3.3 转变的 Llama-3.3-Nemotron-Super-49B-v1(17)王人不如。

Meta 的 Llama-4-Maverick-03-26-Experimental 为何推崇欠安?该公司在上周六发布的一张图表中讲解称,该模子是“针对对话性进行优化”的。这些优化显著在 LM Arena 上得回了可以的恶果,因为 LM Arena 的东说念主类评分者会比拟不同模子的输出,并聘用他们更偏好的戒指。

在今天的圣诞大战中,穆雷出战39分钟,10投4中,得到13分6篮板6助攻4失误。威斯布鲁克出战27分钟,12投6中,得到17分6篮板2助攻4失误。

由于各式原因,LM Arena 从未被视为策划 AI 模子性能的最可靠见解。尽管如斯,针对基准测试调遣模子不仅具有误导性,还使得开发者难以准确预计该模子在不同场景下的推崇。

Meta 的一位发言东说念主向 TechCrunch 默示,Meta 会尝试“各式类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是咱们尝试的一个针对聊天优化的版块,它在 LM Arena 上也推崇可以,”该发言东说念主说,“咱们目下已发布了开源版块,将望望开发者若何字据我方的使用案例定制 Llama 4。咱们期待看到他们构建的内容,并期待他们合手续的反映。”



Powered by 迪士尼彩乐园 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024