/GPT-4强势来袭!职场打工人即将面临失业?

GPT-4强势来袭!职场打工人即将面临失业?

看来能打败ChatGPT的只有它了!

前不久,ChatGPT的横空出世引爆了整个科技领域。人们也在一直讨论人工智能 (AI) 的下一步发展又会是怎样的呢?其中有不少学者都提到了多模态。

这不,北京时间3月15日凌晨1点,OpenAI发布了全网期待已久的多模态预训练大模型 GPT-4。


© Twitter

那么GPT-4的看点都有哪些呢?

- 强大的逻辑推理

- 文字输入限制提升至2.5万字

- 回答准确性显著提高

- 多模态

- 能够生成创意文本、歌词,实现风格变化

- 更安全

 GPT-4 

GPT-4具有跟广泛的通识知识和问题解决能力,可以更有效的解决难题。接下来,小编就来为大家详细介绍下GPT-4吧。

有哪些提升?

UPGRADING

01
超强逻辑推理

GPT-4:我的高级推理能力超越了ChatGPT!

在下面这个例子中,如果要进行这种多角度的复杂推理,ChatGPT最后会给出一个错误答案。

用户:Andrew上午11点到下午3点有空,Joanne中午到下午2点有空,然后是下午3:30到5点。Hannah中午有空半小时然后是下午4点到6点。Andrew、Hannah和Joanne的30分钟会议的开始时间有哪些选择?

ChatGPT:以下是他们的可用时间表。

- Andrew:上午11点至下午3点

- Joanne:中午至下午2点,以及下午3点半至5点

- Hannah:中午至12:30,以及下午4点至6点

根据他们的工作时间,有一个30分钟的窗口,他们三个人都有时间,也就是从下午4点到4点半。因此,会议可以安排在下午4点。


 

然而,在这种类型的推理上,GPT-4却完成的很好。三个人重叠的时间只有中午的12点到12点30。

GPT-4:Andrew:上午11点至下午3点

Joanne:下午12点至2点,下午3点半至5点

Hannah:下午12点至12点半,下午4点至6点

30分钟会议的通用时间:下午12点至12点30分


 

GPT-4:我能代你考律师!

GPT-4是OpenAI在扩大深度学习方面的最新里程碑。它是一个大型的多模态模型(接受图像和文本输入以及文本输出)。虽然在许多现实世界的场景中它的能力不如人类,但在各种专业和学术基准上却体现出了人类水平。

例如,GPT-4通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。

OpenAI花了6个月的时间,利用对抗性测试程序和ChatGPT的经验教训对GPT-4进行了反复调整,从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里,OpenAI重建了整个深度学习堆栈,并与Azure一起为其工作负载从头开始设计了一台超级计算机。一年前,OpenAI在训练GPT-3.5时第一次尝试了这一超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。而这些改进的结果也帮助GPT-4的训练运行获得了前所未有的稳定,并成为了OpenAI第一个实现提前准确预测的大模型。OpenAI表示他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的提前预测性能和规划未来的能力,这对安全是至关重要的。

为了理解这两个模型之间的差异,OpenAI对多种基准进行了测试,括模拟最初为人类设计的考试。通过下图的考试测试结果,不难发现GPT-4的得分基本全部优于GPT-3.5。这也说明了,GPT-4更可靠、更有创造力,并能够处理更加微妙的指令


 

 

02
视觉输入


GPT-4:我都能看得懂梗图了!

GPT-4可以接受文本和图像形式的提示,这与纯本文设置平行,允许用户指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),给定的输入包括穿插的文本和图像。在一系列的领域中,包括带有文本和照片的文件、图标或屏幕截图,GPT-4表现出与纯文本输入类似的能力。此外,它还可以通过为纯本文语言模型开发的测试时间技术得到增强,包括少数样本和思维链提示。


 

© hmmm (Reddit)

用户:这张图有什么好笑的?请逐一描述一下。

GPT-4:该图显示了带有三个面板的"Lightning Cable"适配器的包装。

面板1:带有VGA连接器(一种大的蓝色15针连接器,通常用于计算机显示器)的智能手机已插入其充电端口。

面板2:"Lightning Cable"适配器的报上,上面有VGA连接器的图片。

面板3:VGA连接器特写,末端有一个小型闪电连接器(用于为iPhone和其他Apple设备充电)。

这张图片的幽默感来自将过时的大型VGA连接器插入小型现代智能手机充电端口的荒谬做法。


 

GPT-4:我还能看懂图表,帮你分析!
 

 
用户:格鲁吉亚和西亚的日均肉类消费之和是多少?在提供你的答案之前,请提供一步步的推理。

GPT-4:要找到格鲁吉亚和西亚的日均肉类消费总和,我们将遵循以下步骤:

- 确定格鲁吉亚的日均肉类消费

- 确定西亚的平均每日肉类消费量

- 添加步骤 1 和 2 中的值

第1步:从提供的图表中,我们看到格鲁吉亚的日均肉类消费量为每人每天79.84克。

第2步:从图表中,我们看到西亚的平均每日肉类消费是每人每天69.62克。

第3步:将第1步和第2步的数值相加。

79.84克(格鲁吉亚)+69.62克(西亚)=149.46克

因此,格鲁吉亚和西亚的日均肉类消费之和为每人每天149.46克。


 

GPT-4:我能理解图片中的逻辑!
 

©Barnorama

用户:这张图有什么不寻常之处?

GPT-4:这张图片的不寻常之处在于,一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。


 

03
更具创造力

GPT-4比以往更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,如作曲、写剧本或学习用户的写作风格。

比如,以下示例输入的是:用一句话解释《灰姑娘》的情节,每个词都必须以字母表中从A到Z的下一个字母开头,不要重复任何字母

GPT-4输出:美丽的灰姑娘,渴望居住,终于获得了幸福;激发嫉妒的亲人,爱情神奇地培养了富裕的王子;悄悄地拯救,拖鞋的胜利,非常奇妙地结合,热心的青年。


 

04
更长的上下文

GPT-4能够处理超过25,000 个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。例如,大多数的时候,只需要丢给它一个链接,就可以帮我们总结出其中的内容。而GPT-3.5只能分析一小段。


 

打工人要失业了?

UNEMPLOYMENT

GPT-4这么强大,难道职场打工人真的要失业了吗?

除了前文中我们所提到的GPT-4的强大功能外,GPT-4还接入了微软OFFICE全家桶。Word、PPT、EXCEL几乎是我们职场打工人天天接触的干活三件套,而现在接入GPT-4的OFFICE已经可以实现自动写文档、自动做PPT、自动计算复杂的EXCEL公式。

这么说来,好像企业对于员工使用办公软件的门槛又进一步降低了。


 

当然,也有网友直接在推特上列出了将近20个可能被GPT-4替代的岗位工作,其中包括翻译员、市场研究分析师、社交媒体经理、虚拟助力、技术支持分析师、内容管理员等。


 
GPT-4也可以取代人类的一些技能,比如:研究和组织、数学技能、语言能力、创造力和写作、分析能力、内容创建和策划、说服和沟通、倾听和打字技能、事实核查和协作、批判性思维和判断、面试和评估等等。

 

有哪些局限?

LIMITATION

尽管GPT-4具有很强的功能,但它仍然也存在局限性。最重要的是,它仍然不是完全可靠的(它会对事实产生“幻觉”并出现错误推理)。在使用语言模型输出时,应该特别注意,在高风险的情境下尤其如此,需要根据特定用例的需求采用确切的协议。例如人工审核、加入额外的上下文或完全避免高风险使用。

总的来说,GPT-4相对于之前的模型,已经显著减少了幻觉现象。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%。


 
GPT-4在TruthfulQA等外部基准上取得了进展。OpenAI测试了模型从对抗性选择的不正确陈述中分离事实的能力。结果如下图所示:

 
结果表明,GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹;然而,经过RLHF的后期训练后,二者的差距就非常大了。以下是 GPT-4 的测试示例,并不是所有时候它都能做出正确的选择。

 
该模型在其输出中可能存在偏见,OpenAI在这些方面已经取得了进展,其目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

基于GPT-4的产品

BUILT WITH GPT-4

OpenAI给了6个加入GPT-4的产品,借此我们可以看到它的广阔应用空间。

01
Duolingo

Duolingo是一款语言学习类APP,它把GPT-4接入产品,以推进产品的两个新功能。通过角色扮演 (Role Play) 让人工智能与用户对话,纠正语法错误。并融入产品的游戏化方面。


 

02
Be My Eyes

自2012年以来,Be My Eyes一直在为超过2.5亿的盲人或低视力者群体创造技术。这家丹麦初创公司将盲人或低视力者与志愿者联系起来,帮助他们完成数百项日常生活任务,如识别产品或导航机场。

有了GPT-4的新视觉输入能力,Be My Eyes开始在其应用程序中开发由GPT-4驱动的虚拟志愿者,可以产生与人类志愿者相同水平的背景和理解。


 

03
Stripe

Stripe为整个互联网上的大小企业提供支付服务。虽然它建立了自己的生态系统来支持支付过程的各个方面,但那些使用Stripe软件进行构建和整合的人群才是他们的主要用户。Stripe的开发者越是善于部署Stripe,Stripe就会在数字支付领域传播得越远,并使互联网的GDP增长。

通过GTP-4,可以轻松简化Stripe的用户体验,并打击欺诈。


 

04
Morgan Stanley

作为财富管理领域的领导者,摩根士丹利拥有一个内容丰富的图书馆,其中包括数十万页的知识和见解,涵盖投资策略、市场研究和评论,以及分析师的见解。这些大量的信息被放置在许多内部网站上,主要是以PDF形式存在,这就要求顾问们在大量的信息中寻找特定问题的答案。这样的搜索可能会很耗时和繁琐。

在OpenAI的GPT-4的帮助下,摩根士丹利正在改变其财富管理人员查找相关信息的方式。


 

以上就是有关GPT-4的所有内容了。不难看出,目前GPT-4无疑是最强的,但是它的未来又是怎样的呢?会不会又出现一个新的系统来打破现在的局面呢?就让我们拭目以待吧~

同学们也可以在留言区积极讨论哦

来聊一聊对于GPT-4你有哪些看法呢?

 GPT-4 

文中信息来源:

https://openai.com/research/gpt-4

https://openai.com/product/gpt-4

侵权告知即删

本文来自微信公众号“交互设计小站”(ID:racjiaohu)。大作社经授权转载,该文观点仅代表作者本人,大作社平台仅提供信息存储空间服务。