看来能打败ChatGPT的只有它了!
前不久,ChatGPT的横空出世引爆了整个科技领域。人们也在一直讨论人工智能 (AI) 的下一步发展又会是怎样的呢?其中有不少学者都提到了多模态。
这不,北京时间3月15日凌晨1点,OpenAI发布了全网期待已久的多模态预训练大模型 GPT-4。
那么GPT-4的看点都有哪些呢?
- 强大的逻辑推理
- 文字输入限制提升至2.5万字
- 回答准确性显著提高
- 多模态
- 能够生成创意文本、歌词,实现风格变化
- 更安全
GPT-4
有哪些提升?
UPGRADING
GPT-4:我的高级推理能力超越了ChatGPT!
在下面这个例子中,如果要进行这种多角度的复杂推理,ChatGPT最后会给出一个错误答案。
用户:Andrew上午11点到下午3点有空,Joanne中午到下午2点有空,然后是下午3:30到5点。Hannah中午有空半小时然后是下午4点到6点。Andrew、Hannah和Joanne的30分钟会议的开始时间有哪些选择?
ChatGPT:以下是他们的可用时间表。
- Andrew:上午11点至下午3点
- Joanne:中午至下午2点,以及下午3点半至5点
- Hannah:中午至12:30,以及下午4点至6点
根据他们的工作时间,有一个30分钟的窗口,他们三个人都有时间,也就是从下午4点到4点半。因此,会议可以安排在下午4点。
然而,在这种类型的推理上,GPT-4却完成的很好。三个人重叠的时间只有中午的12点到12点30。
GPT-4:Andrew:上午11点至下午3点
Joanne:下午12点至2点,下午3点半至5点
Hannah:下午12点至12点半,下午4点至6点
30分钟会议的通用时间:下午12点至12点30分
GPT-4:我能代你考律师!
GPT-4是OpenAI在扩大深度学习方面的最新里程碑。它是一个大型的多模态模型(接受图像和文本输入以及文本输出)。虽然在许多现实世界的场景中它的能力不如人类,但在各种专业和学术基准上却体现出了人类水平。
例如,GPT-4通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
OpenAI花了6个月的时间,利用对抗性测试程序和ChatGPT的经验教训对GPT-4进行了反复调整,从而在真实性、可控性等方面取得了有史以来最好的结果。
在过去的两年里,OpenAI重建了整个深度学习堆栈,并与Azure一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI在训练GPT-3.5时第一次尝试了这一超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。而这些改进的结果也帮助GPT-4的训练运行获得了前所未有的稳定,并成为了OpenAI第一个实现提前准确预测的大模型。OpenAI表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全是至关重要的。
为了理解这两个模型之间的差异,OpenAI对多种基准进行了测试,括模拟最初为人类设计的考试。通过下图的考试测试结果,不难发现GPT-4的得分基本全部优于GPT-3.5。这也说明了,GPT-4更可靠、更有创造力,并能够处理更加微妙的指令。
GPT-4:我都能看得懂梗图了!
GPT-4可以接受文本和图像形式的提示,这与纯本文设置平行,允许用户指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像。在一系列的领域中,包括带有文本和照片的文件、图标或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外,它还可以通过为纯本文语言模型开发的测试时间技术得到增强,包括少数样本和思维链提示。
© hmmm (Reddit)
用户:这张图有什么好笑的?请逐一描述一下。
GPT-4:该图显示了带有三个面板的"Lightning Cable"适配器的包装。
面板1:带有VGA连接器(一种大的蓝色15针连接器,通常用于计算机显示器)的智能手机已插入其充电端口。
面板2:"Lightning Cable"适配器的报上,上面有VGA连接器的图片。
面板3:VGA连接器特写,末端有一个小型闪电连接器(用于为iPhone和其他Apple设备充电)。
这张图片的幽默感来自将过时的大型VGA连接器插入小型现代智能手机充电端口的荒谬做法。
GPT-4:要找到格鲁吉亚和西亚的日均肉类消费总和,我们将遵循以下步骤:
- 确定格鲁吉亚的日均肉类消费
- 确定西亚的平均每日肉类消费量
- 添加步骤 1 和 2 中的值
第1步:从提供的图表中,我们看到格鲁吉亚的日均肉类消费量为每人每天79.84克。
第2步:从图表中,我们看到西亚的平均每日肉类消费是每人每天69.62克。
第3步:将第1步和第2步的数值相加。
79.84克(格鲁吉亚)+69.62克(西亚)=149.46克
因此,格鲁吉亚和西亚的日均肉类消费之和为每人每天149.46克。
©Barnorama
用户:这张图有什么不寻常之处?
GPT-4:这张图片的不寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。
GPT-4比以往更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,如作曲、写剧本或学习用户的写作风格。
比如,以下示例输入的是:用一句话解释《灰姑娘》的情节,每个词都必须以字母表中从A到Z的下一个字母开头,不要重复任何字母。
GPT-4输出:美丽的灰姑娘,渴望居住,终于获得了幸福;激发嫉妒的亲人,爱情神奇地培养了富裕的王子;悄悄地拯救,拖鞋的胜利,非常奇妙地结合,热心的青年。
GPT-4能够处理超过25,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。例如,大多数的时候,只需要丢给它一个链接,就可以帮我们总结出其中的内容。而GPT-3.5只能分析一小段。
打工人要失业了?
UNEMPLOYMENT
GPT-4这么强大,难道职场打工人真的要失业了吗?
除了前文中我们所提到的GPT-4的强大功能外,GPT-4还接入了微软OFFICE全家桶。Word、PPT、EXCEL几乎是我们职场打工人天天接触的干活三件套,而现在接入GPT-4的OFFICE已经可以实现自动写文档、自动做PPT、自动计算复杂的EXCEL公式。
这么说来,好像企业对于员工使用办公软件的门槛又进一步降低了。
当然,也有网友直接在推特上列出了将近20个可能被GPT-4替代的岗位工作,其中包括翻译员、市场研究分析师、社交媒体经理、虚拟助力、技术支持分析师、内容管理员等。
有哪些局限?
LIMITATION
尽管GPT-4具有很强的功能,但它仍然也存在局限性。最重要的是,它仍然不是完全可靠的(它会对事实产生“幻觉”并出现错误推理)。在使用语言模型输出时,应该特别注意,在高风险的情境下尤其如此,需要根据特定用例的需求采用确切的协议。例如人工审核、加入额外的上下文或完全避免高风险使用。
总的来说,GPT-4相对于之前的模型,已经显著减少了幻觉现象。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%。
基于GPT-4的产品
BUILT WITH GPT-4
OpenAI给了6个加入GPT-4的产品,借此我们可以看到它的广阔应用空间。
Duolingo是一款语言学习类APP,它把GPT-4接入产品,以推进产品的两个新功能。通过角色扮演 (Role Play) 让人工智能与用户对话,纠正语法错误。并融入产品的游戏化方面。
自2012年以来,Be My Eyes一直在为超过2.5亿的盲人或低视力者群体创造技术。这家丹麦初创公司将盲人或低视力者与志愿者联系起来,帮助他们完成数百项日常生活任务,如识别产品或导航机场。
有了GPT-4的新视觉输入能力,Be My Eyes开始在其应用程序中开发由GPT-4驱动的虚拟志愿者,可以产生与人类志愿者相同水平的背景和理解。
Stripe为整个互联网上的大小企业提供支付服务。虽然它建立了自己的生态系统来支持支付过程的各个方面,但那些使用Stripe软件进行构建和整合的人群才是他们的主要用户。Stripe的开发者越是善于部署Stripe,Stripe就会在数字支付领域传播得越远,并使互联网的GDP增长。
通过GTP-4,可以轻松简化Stripe的用户体验,并打击欺诈。
作为财富管理领域的领导者,摩根士丹利拥有一个内容丰富的图书馆,其中包括数十万页的知识和见解,涵盖投资策略、市场研究和评论,以及分析师的见解。这些大量的信息被放置在许多内部网站上,主要是以PDF形式存在,这就要求顾问们在大量的信息中寻找特定问题的答案。这样的搜索可能会很耗时和繁琐。
在OpenAI的GPT-4的帮助下,摩根士丹利正在改变其财富管理人员查找相关信息的方式。
以上就是有关GPT-4的所有内容了。不难看出,目前GPT-4无疑是最强的,但是它的未来又是怎样的呢?会不会又出现一个新的系统来打破现在的局面呢?就让我们拭目以待吧~
同学们也可以在留言区积极讨论哦
来聊一聊对于GPT-4你有哪些看法呢?
GPT-4
文中信息来源:
https://openai.com/research/gpt-4
https://openai.com/product/gpt-4
侵权告知即删
本文来自微信公众号“交互设计小站”(ID:racjiaohu)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。