热头条丨模型“日日新”:商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT
上证报中国证券网讯(记者宋薇萍)商汤科技近日公布了自研中文语言大模
上海证券报·中国证券网 2023-06-21 22:08:17
(资料图)
上证报中国证券网讯(记者 宋薇萍)商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。
截至目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat 2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
商汤科技公布的评测结果中,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平。
其中,MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。
在该评测中,“商量SenseChat 2.0”综合得分为68.6,远超GLM-130B(45.7分)的得分,同时还超过了ChatGPT(67.3分)、LLaMA-65B(63.5分)仅落后GPT-4(86.4分),位居第二。
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。
在该评测中,“商量SenseChat 2.0”测出49.91的分数,遥遥领先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中的AGIEval(GK)评测子集中,“商量SenseChat 2.0”以58.5分全面领先,仅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
面对C-Eval评测基准,“商量SenseChat 2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了8个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,“商量SenseChat 2.0”也表现居于前列。
据悉,今年4月,商汤正式发布“商汤日日新SenseNova”大模型体系,以及自研中文语言大模型“商量SenseChat”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。
上证报中国证券网讯(记者宋薇萍)商汤科技近日公布了自研中文语言大模
文 羊城晚报全媒体记者沈婷婷9月15日-17日,2023年首届国际智慧养老产
证券时报网讯,据北京通信业消息,6月21日,由北京市通信管理局、中国
人民网广州6月21日电(朴馨语)今年的6月25日是第33个全国土地日,活动
1、应该是ghost。2、Ghost(是GeneralHardwareOrientedSoftwareTrans
广汽集团公告,为有利于有序、平稳推进广汽三菱后续经营发展,经股东各
汇安成长优选混合增聘基金经理单柏霖柳预才离任---中国经济网北京6月21
2023年第一季度,国产机器人龙头企业在锂电、光伏、汽车零部件等领域与
6月20福建省福清市星尚 托管一名老师歇斯底里式的捶打一名学生。据悉,
每经AI快讯,中伟股份(300919)公告,全资子公司与POSCOFutureM签署合
1、考生之家删除报名信息可以联系客服帮忙解决。以上就是【考生之家登
中国经济网北京6月21日讯大连汇隆活塞股份有限公司(以下简称“汇隆活塞
端午节将至,海口秀英区开展最具海南特色的端午节习俗——“上山下海”
林志玲一家三口首被拍,夫妻私下时髦得像出街,儿子个头超大真胖,西装,
上证报中国证券网讯据国家邮政局6月21日消息,国家邮政局公布2023年5月