图片源头@视觉中国
文 | 三言Pro
明天 ,笔者分心中刷到一张图片。多前
据该图片展现 ,排名OpenAI的垫底GPT-4在11个大模子中(第一位序号为0),已经排到了最后 。半年尚有网友配上了“GPT4:我的多前委曲奈何样诉 ?”的字样 。
这不禁让人好奇,排名往年年初,垫底ChatGPT爆火之后 ,半年其余公司才开始提大模子的多前意见 。
这才半年多 ,排名GPT就已经“垫底”了 ?
于是垫底 ,笔者想看看GPT排名事实咋样了 。半年
测试光阴差距 ,多前测试团队差距 ,GPT-4排第十一
曩昔文中图片上展现的信息来看,这个排名是出自C-Eval榜单 。
C-Eval榜单 ,全称C-Eval全天下大模子综合性魔难测试榜,是由清华大学、上海交通大学以及爱丁堡大学相助构建的中口语语模子综合性魔难评估套件。
据悉,该套件拆穿困绕人文 、社科、理工、其余业余四个悭吝向 ,搜罗52个学科 ,涵盖微积分、线性代数等多个知识规模。共有13948道中文知识以及推理型问题,难度分为中学、本科、钻研生 、职业等四个魔难级别。
于是笔者魔难了最新的C-Eval榜单 。
C-Eval榜单的最新排名与前文中图片所展现的排名适宜 ,排名前十一的大模子中 ,GPT-4排最后。
据C-Eval榜单介绍,这些服从代表zero-shot(零样本学习)概况few-shot(少样本学习)测试,但few-shot不用定比zero-shot下场好 。
C-Eval展现 ,在其测试中发现良多经由指令微调之后的模子在zero-shot下更好