梦晨 发自 凹非寺现金九游体育app平台
量子位 | 公众号 QbitAI
Meta最新基础模子Llama 4发布36小时后,挑剔区真的是这个画风:
失望,相配失望
不知说念他们后老师若何搞的,总之不太行
在[多样测试]2中失败
……
失望,相配失望
不知说念他们后老师若何搞的,总之不太行
在[多样测试]2中失败
……
还被作念成色彩包辱弄,归来起来便是一个“差评如潮”。
具体来看,世界的挟恨主要围聚在代码才智。
最直不雅的要数经典“氛围编程”小球反弹测试,小球径直穿过墙壁掉下去了。
伸开剩余82%反馈在榜单上,收成也相配割裂。
发布时的官方测评(LiveCodeBench)分数和在大模子竞技场施展明明齐很可以。
但到了多样第三方基准测试中,情况大多径直逆转,名次末尾。
让东说念主不由得怀疑,这个竞技场名次到底是数据过拟合,仍是刷票了。
就在Llama 4行将发布前几天,Meta AI谋划驾驭Joelle Pineau在使命8年之后短暂告示下野,总之便是不太妙。
Llama 4若何了?
大模子心思者们火热实测吐槽之际,一则联系Llama 4的匿名爆料,短暂引起山地风云:
有网友称我方已向Meta GenAI部门提交提交辞职,并条件不要签字在Llama 4的时刻阐发上。
原贴发布在外洋留学求职商量平台一亩三分地,在国内也引起许多商榷。
此爆料尚未取得确认,但有东说念主搬出Meta GenAI崇拜东说念主Ahmad Al-Dahle的帖子,至少能看出在Llama 4大模子竞技场里运行的是寥落版块模子。
还有Meta前职工借此话题贴出2024年11月的一项谋划,指出从Llama 1运转数据裸露的问题就存在了。
也不单是编程才智一个方面有问题,在EQBench测评基准的的长著述写稿榜中,Llama 4系列也径直垫底。
榜单珍藏者_sqrkl评释了具体情况。
测试相配通俗,模子需要先完成一个短篇演义的头脑风暴、反念念并修改写稿预备,最终每轮写1000字,重叠8轮以上。
由Claude-Sonnet 3.7来当裁判,先对每个章节单独打分,再对整个这个词作品打分。
Llama 4的低分表刻下写到背面运转大段的实质重叠,以及写稿相配公式化。
对此效力,有一个揣测是之前的版权诉讼让Meta删除了网罗和册本数据,使用了更多的合成数据。
在这场诉讼中,许多作者发现我方的作品可能被用于AI老师,还到伦敦的Meta办公室近邻发起抗议。
Llama 4发布后的种种,让东说念足下预想岁首的匿名职工爆,有网友示意当初只是敷衍望望,刻下却运转服气了:
在这条爆料中,Deepseek v3出来之后,老师中的Llama4就显得过时了,中层措置的薪水齐比DeepSeek V3的老师本钱齐高,Meta里面堕入惊惧形式。
让东说念主不由得陈赞,DeepSeel-R1横空出世只是两个月时期,却像过了几辈子。
参考聚拢:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/现金九游体育app平台
发布于:北京市