娱乐

现金九游体育app平台但到了多样第三方基准测试中-九游「中国」Ninegame·官方网站-登录入口
发布日期:2025-04-25 08:12    点击次数:58

梦晨 发自 凹非寺现金九游体育app平台

量子位 | 公众号 QbitAI

Meta最新基础模子Llama 4发布36小时后,挑剔区真的是这个画风:

失望,相配失望

不知说念他们后老师若何搞的,总之不太行

在[多样测试]2中失败

……

失望,相配失望

不知说念他们后老师若何搞的,总之不太行

在[多样测试]2中失败

……

还被作念成色彩包辱弄,归来起来便是一个“差评如潮”。

具体来看,世界的挟恨主要围聚在代码才智。

最直不雅的要数经典“氛围编程”小球反弹测试,小球径直穿过墙壁掉下去了。

伸开剩余82%

反馈在榜单上,收成也相配割裂。

发布时的官方测评(LiveCodeBench)分数和在大模子竞技场施展明明齐很可以。

但到了多样第三方基准测试中,情况大多径直逆转,名次末尾。

让东说念主不由得怀疑,这个竞技场名次到底是数据过拟合,仍是刷票了。

就在Llama 4行将发布前几天,Meta AI谋划驾驭Joelle Pineau在使命8年之后短暂告示下野,总之便是不太妙。

Llama 4若何了?

大模子心思者们火热实测吐槽之际,一则联系Llama 4的匿名爆料,短暂引起山地风云:

有网友称我方已向Meta GenAI部门提交提交辞职,并条件不要签字在Llama 4的时刻阐发上。

原贴发布在外洋留学求职商量平台一亩三分地,在国内也引起许多商榷。

此爆料尚未取得确认,但有东说念主搬出Meta GenAI崇拜东说念主Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模子竞技场里运行的是寥落版块模子。

还有Meta前职工借此话题贴出2024年11月的一项谋划,指出从Llama 1运转数据裸露的问题就存在了。

也不单是编程才智一个方面有问题,在EQBench测评基准的的长著述写稿榜中,Llama 4系列也径直垫底。

榜单珍藏者_sqrkl评释了具体情况。

测试相配通俗,模子需要先完成一个短篇演义的头脑风暴、反念念并修改写稿预备,最终每轮写1000字,重叠8轮以上。

由Claude-Sonnet 3.7来当裁判,先对每个章节单独打分,再对整个这个词作品打分。

Llama 4的低分表刻下写到背面运转大段的实质重叠,以及写稿相配公式化。

对此效力,有一个揣测是之前的版权诉讼让Meta删除了网罗和册本数据,使用了更多的合成数据。

在这场诉讼中,许多作者发现我方的作品可能被用于AI老师,还到伦敦的Meta办公室近邻发起抗议。

Llama 4发布后的种种,让东说念足下预想岁首的匿名职工爆,有网友示意当初只是敷衍望望,刻下却运转服气了:

在这条爆料中,Deepseek v3出来之后,老师中的Llama4就显得过时了,中层措置的薪水齐比DeepSeek V3的老师本钱齐高,Meta里面堕入惊惧形式。

让东说念主不由得陈赞,DeepSeel-R1横空出世只是两个月时期,却像过了几辈子。

参考聚拢:

[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/现金九游体育app平台

发布于:北京市