研究:GPT-4 在执行多项现实任务中击败其他大语言模型
本文概要:
(资料图片)
1. GPT-4在大型语言模型中表现出色,取得最高总分4.41。
2. GPT-4在几乎所有领域都领先于其他模型,只有在网购任务中,GPT-3.5表现更好。
3. 开源模型整体表现不佳,远远落后于商业模型和 GPT-3.5。
市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明,GPT-4在这一领域脱颖而出。
编程客栈()8月11日 消息:最新的研究显示,在 “现实世界语用任务” 中,GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。
“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅python助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。
操作系统:LLM必须执行与计算机操作系统的使用相关的任务。
数据库:这个环境是关于LLM如何与数据库合作。
知识图:此环境测试LLM如何使用知识图。
数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。
横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。python
预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。
互android联网购物:此场景测试LLM在与在线购物相关的任务上的表现。
网页浏览:基于 Mind2Web 数据集,此场景测试LLM执行与使用互联网相关的任务的能力。
结果显示,GphpPT-4以最高总分4.41领先于其他模型,在几乎所有领域都表现出色,只在网购任务中稍逊于 GPT-3.5。
竞争对手 Anthropic 的 Claude 模型紧随其后,总得分为2.77,领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比,GPT-4的优势更加明显,开源模型的平均得分只有0.42。
研究人员指出,开源模型在所有复杂任务中普遍表现不佳,远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界,以编程客栈便进行更广泛的性能比较。
关键词:
相关阅读
-
研究:GPT-4 在执行多项现实任务中击败...
本文概要:1 GPT-4在大型语言模型中表现出色,取得最高总分4 41。2 GPT- -
残健共融 健身也精彩
为了帮助智力残疾人更好地融入社会、增强自信,河东区智力残疾人亲友会 -
电信网络诈骗花样翻新 如何守好“钱袋...
一公司法人代表被骗子利用人工智能“换脸”技术诈骗430万元,某单位... -
国家发展改革委印发通知 努力调动民间...
民间投资是民营经济发展的重要环节。为更好激发民间投资内生动力,国家 -
旅游板块异动拉升
旅游板块异动拉升,桂林旅游(000978)涨停,峨眉山A(000888)、张家界(00 -
2023大学生村官考试申论综合分析题:抓...
申论考试中,综合分析题是考查考生综合能力和应用能力的重要题型之一。 -
2023年5月江苏扬州市宝应县教育系统直属...
根据《2023年5月宝应县教育系统直属高级中学公开招聘教师公告》,经过 -
两部门紧急下达15亿元支持受灾地区做好...
新华社北京8月10日电受台风“杜苏芮”影响,海河流域遭遇严重洪涝灾... -
越南电动汽车制造商VinFast预计最快下周...
【越南电动汽车制造商VinFast预计最快下周在美国上市】越南电动汽车制 -
俄罗斯莫斯科州一工厂发生爆炸 已致1人...
8月11日电据俄罗斯卫星通讯社11日报道,据俄罗斯卫生部新闻处表示,莫 -
2023湖北黄石市下陆区义务教育教师招聘...
根据《湖北省2023年义务教育学校教师公开招聘公告》和《黄石市下陆区20 -
2005年出生的日本人中,半数男性以及42%...
易富贤表示,日本在中亚地区的情况是最好的,日本的生育率最高,目前是 -
日本东北部沿海发生5.9级地震!福岛有明...
日本气象厅发布消息,当地时间11日9时14分,日本东北部沿海发生5 9级地 -
台风“卡努”将影响东北地区 华北华南...
昨日(8月10日),四川、云南、福建、广东及甘肃、吉林、黑龙江等地出 -
TFBOYS都长大了 粉丝们呢?
【TFBOYS都长大了粉丝们呢?】8月6日,TFBOYS组合在西安举行十周年演唱 -
83371辆车召回!涉及宝马、林肯、保时捷...
其中华晨宝马汽车有限公司、宝马(中国)汽车贸易有限公司召回29辆;福 -
贵州金元黔北电厂荣获三项国家新型实用专利
贵州金元黔北电厂荣获三项国家新型实用专利贵州金元黔北电厂“劳模... -
【融中早报】吉利与百度成立汽车科技公...
美国东部时间7月27日,福特汽车在发布2023年第二季度财报后对外表示, -
受境内外经济环境影响 上半年中国并购...
上半年中国并购市场喜忧参半不乏亮点(主题)国际商报记者何芬兰日前, -
中国移动杨杰:正在规划建设亚洲最大智...
8月10日,中国移动公布了2023年度中期业绩,上半年中国移动营运收入完