高级搜索投稿爆料
6000MHz超频能手!威刚XPG龙耀Lancer DDR5 6000内存图赏
6000MHz超频能手!威刚
Nreal Air AR眼镜评测:79g机身就能投出201吋巨幕!
Nreal Air AR眼镜
手表屏幕也可以常亮!OPPO Watch 3 Pro评测:续航拉满的安卓表皇
手表屏幕也可以常亮!OPPO
再次印证锐龙7 6800HS是最佳轻薄本处理器!小新Air 14 Plus 2022评测
再次印证锐龙7 6800HS
16线程轻薄本对决!酷睿i5-12500H VS.锐龙7 6800H
16线程轻薄本对决!酷睿i5

您现在的位置:硅谷网 > 要闻>

国研经济研究院:讯飞星火已达国际一流水平,7 个测评行业超越 ChatGPT 部分行业优于 GPT4

2023-11-08 10:43  来源:网络 编辑:秦开   阅读量:19431   会员投稿

经过一年时间追赶,国产大模型正在逐步实现对ChatGPT的领先和超越。

过去一年,中国已发布的大模型数量已达158个,10亿级参数以上大模型数量超80个,大模型数量与美国不相上下,成为全球人工智能的又一座高峰。

在底座能力上突发猛进的同时,市场也逐步达成共识:大模型本身并不产生价值,它的价值必须通过赋能千行百业来实现。

近日,国务院发展研究中心国研经济研究院就开展了一项大模型行业应用能力测评,来对比国产大模型与国际一流大模型的行业表现,并在此基础上提出我国大模型产业高水平发展的政策建议。

据了解,此次测评选取星火大模型3.0版、ChatGPT、GPT-4及国内其他大模型为测评对象进行对比,测评行业方面选择了知识密集型的生产性服务业(法律服务与工业设计)、个性化需求高的生活性服务业(医疗、教育与零售)以及部分制造业(汽车工程、计算机),并基于临床执业医师资格考试、中医执业医师资格考试、国家统一法律职业资格考试、机动车检测维修专业技术人员执业资格、全国计算机技术与软件专业技术资格等权威职业资格考试构建了测评题目,以评估大模型在行业知识、技能掌握水平、生产经营场景理解能力等维度的表现。

经过对比测评,科大讯飞最新发布的讯飞星火3.0综合能力已达国际一流水平,在所有7个测评行业中表现均大幅超越ChatGPT,并在部分行业优于GPT-4,国内领先。

国研经济研究院:讯飞星火已达国际一流水平,7 个测评行业超越 ChatGPT 部分行业优于 GPT4

(图:各行业综合准确率对比)

从具体的测评结果来看,星火大模型3.0版在医学、法律、教育、零售、汽车工程、计算机和工业设计的综合准确率分别达到69.3%、71.4%、82.2%、61.2%、78.4%、76.9%和66.4%,平均准确率达72.3%,在所有测评行业中表现均优于GPT3.5版,并且与GPT4.0各有优劣,且相对落后项的差距也均在10%以内。

国研经济研究院在报告中总结:“星火大模型3.0版的知识储备与语言理解能力已具备独立完成部分行业任务和辅助人类完成复杂任务的能力。”

在医疗、法律、教育等行业,星火大模型表现更是格外突出。报告称,星火3.0在医疗、法律领域的中文领域知识和语言理解能力已分别超越GPT4表现5.3%和4.1%,在教育领域基础能力的表现与GPT4的表现差距小于1%。

从应用能力上看,星火大模型的行业知识掌握水平较高,且已经初步具备处理行业内复杂问题的能力。星火大模型在各行业基础知识与领域知识问答中的表现突出,在所有测评行业中准确率均超过GPT3.5。

其中,医学临床诊断、法律案例判决和零售企业战略制定等考核领域属于较为复杂的题目,需要模型在具备行业知识的同时从给定场景中提取出关键信息,并作出判断。星火大模型在该类问题中的表现优异,正确率分别达到65.2%、63.0%、66.7%,均优于GPT3.5表现,在医学临床诊断、法律案例判决中的正确率与GPT4.0表现接近,仅在零售企业战略制定方面略弱于GPT4.0。

星火大模型在医疗场景下的领先并非一蹴而就。事实上,早在2017年讯飞智医助理就已经通过国家执业医师资格考试,排名超过96.3%的人类考生,并且已经向基层医院及等级医院的医生提供帮助。据了解,讯飞的医疗能力已经在全国400多个县区实现了规模化的成功应用,累计为医生提供了6.9亿次辅助诊断,并修正了100多万次基层医生的首次不合适诊断。

但因为医疗场景的特殊性,“需要非常严谨地对待”,星火医疗大模型一直未对外公开。直到近期打磨成熟,医疗整体超越GPT4才对外正式发布。据了解,科大讯飞的医疗大模型是首个通过信通院和国家卫健委制定的医疗健康大模型标准规范测评的大模型。

国研经济研究院指出,行业应用将是大模型未来发展的必由之路,而随着大模型底座技术的不断提升,探索赋能不同行业场景的落地方式将成为我国大模型企业快速发展的重要方向,而行业应用价值也将成为评判大模型的核心指标。

上海财经大学校长刘元春此前在接受媒体采访时指出,对于通用人工智能,大模型的长期价值将通过行业应用实现,而应用场景是关键。清华大学人工智能研究院视觉智能研究中心主任、教授邓志东同样表示,大模型的价值在于应用,而只有在多样化的实际应用场景中赋能智能经济与智能社会的发展,才能找到产业价值。

今年年中,高盛研究院在一份报告中指出,生成式AI具有巨大的经济潜力,预计在未来十年内广泛应用后,每年可提高全球劳动生产率超过1个百分点以上。通过使用生成式AI,企业可以提高生产效率、降低成本,甚至创造全新的商业模式。

然而,想要实现这一大规模的转型并不容易。对于大多数企业而言,面向垂直场景、垂直行业、垂直领域探索基于大模型的应用创新,都将是未来重点攻克的方向。

国研经济研究院总结道,参照移动互联网的发展路径,唯有出现成千上万个解决生产、生活真实需求的AI原生应用,大模型才能真正由“样板间”变为“商品房”,深入社会经济的各个角落,助力各行各业的产业升级,推动中国经济的快速复苏,深刻改变人们的生活方式。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

 最新推荐  
颜值当世无敌!鑫谷斜杠青年MINI机箱评测:1599元很贵吗? 颜值当世无敌!鑫谷斜
一、前言:你愿意花1599买一款超高颜值的ITX机箱吗?你愿意花1599...
新国货崛起!鼠标品牌英菲克上央视啦
以产学研医筑牢技术“护城河” AMIRO觅光
usmile笑容加双11开门红战报:中国牙刷全
店匠科技携手TrustDecision 构筑
探索无止尽,西普尼金表开启智能穿戴新篇章
国企匠心 筑梦前行 — 首钢地产 25 周年,
安证通新品发布暨生态渠道资源分享会圆满举行,共
APUS大模型:从AI技术中来,到应用中去
中国不需要SaaS吗?可能用友YonSuite
ETCP智慧停车与腾讯地图战略签约,探索智慧停
 热点推荐  
联发科拍照正名之作!荣耀70 Pro/Pro+首发评测:首发IMX800 照亮黑夜 联发科拍照正名之
一、前言:升级旗舰双芯+定制超大底荣耀数字系列大升级要说今年上半年买旗舰...
能效电气荣获最佳质量奖 - 2023集度—
有实力就可以为所欲为,看哪吒X如何吊打元P
重磅:亿邦智库发布《2023产业带品牌出海
包装材料开发中的“善用可用 创造可能”肉眼
联想工作站双11钜惠来袭,AMD爆款产品价
能效时刻丨蔚来7kW直流桩月产破万!总交付
ACEMAGIC T8-PLUS迷你主机苹
完善产学医研科研链条 AMIRO觅光拥抱“
英菲克参加深圳礼品展,国货鼠标备受欢迎
好商品好内容好运营,图文免佣这些爆单技巧你
图文推荐  
2022CFS第十一届财经峰会-7月28日-北京
2022CFS第
华鹰CDI数字化服务商Top100评选 品牌方项目负责人在线投票
华鹰CDI数字化
2022 GOPS 全球运维大会深圳站-GOPS 2022
2022 GOP
深圳物联网展-IOTE 2022 第十八届国际物联网展深圳站
深圳物联网展-I
硅谷网 |  网站地图 |  RSS订阅
网站联系邮箱:boss_11@teag.net
Copyright © 2007- 硅谷网. 版权所有. All Rights Reserved.