GPT-4强势来袭！职场打工人即将面临失业？

看来能打败ChatGPT的只有它了！

前不久，ChatGPT的横空出世引爆了整个科技领域。人们也在一直讨论人工智能 (AI) 的下一步发展又会是怎样的呢？其中有不少学者都提到了多模态。

这不，北京时间3月15日凌晨1点，OpenAI发布了全网期待已久的多模态预训练大模型 GPT-4。

那么GPT-4的看点都有哪些呢？

- 强大的逻辑推理

- 文字输入限制提升至2.5万字

- 回答准确性显著提高

- 多模态

- 能够生成创意文本、歌词，实现风格变化

- 更安全

GPT-4

GPT-4具有跟广泛的通识知识和问题解决能力，可以更有效的解决难题。接下来，小编就来为大家详细介绍下GPT-4吧。

有哪些提升？

UPGRADING

超强逻辑推理

GPT-4：我的高级推理能力超越了ChatGPT！

在下面这个例子中，如果要进行这种多角度的复杂推理，ChatGPT最后会给出一个错误答案。

用户：Andrew上午11点到下午3点有空，Joanne中午到下午2点有空，然后是下午3:30到5点。Hannah中午有空半小时然后是下午4点到6点。Andrew、Hannah和Joanne的30分钟会议的开始时间有哪些选择？

ChatGPT：以下是他们的可用时间表。

- Andrew：上午11点至下午3点

- Joanne：中午至下午2点，以及下午3点半至5点

- Hannah：中午至12:30，以及下午4点至6点

根据他们的工作时间，有一个30分钟的窗口，他们三个人都有时间，也就是从下午4点到4点半。因此，会议可以安排在下午4点。

然而，在这种类型的推理上，GPT-4却完成的很好。三个人重叠的时间只有中午的12点到12点30。

GPT-4：Andrew：上午11点至下午3点

Joanne：下午12点至2点，下午3点半至5点

Hannah：下午12点至12点半，下午4点至6点

30分钟会议的通用时间：下午12点至12点30分

GPT-4：我能代你考律师！

GPT-4是OpenAI在扩大深度学习方面的最新里程碑。它是一个大型的多模态模型（接受图像和文本输入以及文本输出）。虽然在许多现实世界的场景中它的能力不如人类，但在各种专业和学术基准上却体现出了人类水平。

例如，GPT-4通过了模拟律师考试，且分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

OpenAI花了6个月的时间，利用对抗性测试程序和ChatGPT的经验教训对GPT-4进行了反复调整，从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去的两年里，OpenAI重建了整个深度学习堆栈，并与Azure一起为其工作负载从头开始设计了一台超级计算机。一年前，OpenAI在训练GPT-3.5时第一次尝试了这一超算系统，之后他们又陆续发现并修复了一些错误，改进了其理论基础。而这些改进的结果也帮助GPT-4的训练运行获得了前所未有的稳定，并成为了OpenAI第一个实现提前准确预测的大模型。OpenAI表示他们将继续专注于可靠的扩展，进一步完善方法，以帮助其实现更强大的提前预测性能和规划未来的能力，这对安全是至关重要的。

为了理解这两个模型之间的差异，OpenAI对多种基准进行了测试，括模拟最初为人类设计的考试。通过下图的考试测试结果，不难发现GPT-4的得分基本全部优于GPT-3.5。这也说明了，GPT-4更可靠、更有创造力，并能够处理更加微妙的指令。

视觉输入

GPT-4：我都能看得懂梗图了！

GPT-4可以接受文本和图像形式的提示，这与纯本文设置平行，允许用户指定任何视觉或语言任务。具体来说，它可以生成文本输出（自然语言、代码等），给定的输入包括穿插的文本和图像。在一系列的领域中，包括带有文本和照片的文件、图标或屏幕截图，GPT-4表现出与纯文本输入类似的能力。此外，它还可以通过为纯本文语言模型开发的测试时间技术得到增强，包括少数样本和思维链提示。

用户：这张图有什么好笑的？请逐一描述一下。

GPT-4：该图显示了带有三个面板的"Lightning Cable"适配器的包装。

面板1：带有VGA连接器（一种大的蓝色15针连接器，通常用于计算机显示器）的智能手机已插入其充电端口。

面板2："Lightning Cable"适配器的报上，上面有VGA连接器的图片。

面板3：VGA连接器特写，末端有一个小型闪电连接器（用于为iPhone和其他Apple设备充电）。

这张图片的幽默感来自将过时的大型VGA连接器插入小型现代智能手机充电端口的荒谬做法。

GPT-4：我还能看懂图表，帮你分析！

用户：格鲁吉亚和西亚的日均肉类消费之和是多少？在提供你的答案之前，请提供一步步的推理。

GPT-4：要找到格鲁吉亚和西亚的日均肉类消费总和，我们将遵循以下步骤：

- 确定格鲁吉亚的日均肉类消费

- 确定西亚的平均每日肉类消费量

- 添加步骤 1 和 2 中的值

第1步：从提供的图表中，我们看到格鲁吉亚的日均肉类消费量为每人每天79.84克。

第2步：从图表中，我们看到西亚的平均每日肉类消费是每人每天69.62克。

第3步：将第1步和第2步的数值相加。

79.84克（格鲁吉亚）+69.62克（西亚）=149.46克

因此，格鲁吉亚和西亚的日均肉类消费之和为每人每天149.46克。

GPT-4：我能理解图片中的逻辑！

©Barnorama

用户：这张图有什么不寻常之处？

GPT-4：这张图片的不寻常之处在于，一名男子正在行驶中的出租车车顶上的熨衣板上熨烫衣服。

更具创造力

GPT-4比以往更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务，如作曲、写剧本或学习用户的写作风格。

比如，以下示例输入的是：用一句话解释《灰姑娘》的情节，每个词都必须以字母表中从A到Z的下一个字母开头，不要重复任何字母。

GPT-4输出：美丽的灰姑娘，渴望居住，终于获得了幸福；激发嫉妒的亲人，爱情神奇地培养了富裕的王子；悄悄地拯救，拖鞋的胜利，非常奇妙地结合，热心的青年。

更长的上下文

GPT-4能够处理超过25,000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。例如，大多数的时候，只需要丢给它一个链接，就可以帮我们总结出其中的内容。而GPT-3.5只能分析一小段。

打工人要失业了？

UNEMPLOYMENT

GPT-4这么强大，难道职场打工人真的要失业了吗？

除了前文中我们所提到的GPT-4的强大功能外，GPT-4还接入了微软OFFICE全家桶。Word、PPT、EXCEL几乎是我们职场打工人天天接触的干活三件套，而现在接入GPT-4的OFFICE已经可以实现自动写文档、自动做PPT、自动计算复杂的EXCEL公式。

这么说来，好像企业对于员工使用办公软件的门槛又进一步降低了。

当然，也有网友直接在推特上列出了将近20个可能被GPT-4替代的岗位工作，其中包括翻译员、市场研究分析师、社交媒体经理、虚拟助力、技术支持分析师、内容管理员等。

GPT-4也可以取代人类的一些技能，比如：研究和组织、数学技能、语言能力、创造力和写作、分析能力、内容创建和策划、说服和沟通、倾听和打字技能、事实核查和协作、批判性思维和判断、面试和评估等等。

有哪些局限？

LIMITATION

尽管GPT-4具有很强的功能，但它仍然也存在局限性。最重要的是，它仍然不是完全可靠的（它会对事实产生“幻觉”并出现错误推理）。在使用语言模型输出时，应该特别注意，在高风险的情境下尤其如此，需要根据特定用例的需求采用确切的协议。例如人工审核、加入额外的上下文或完全避免高风险使用。

总的来说，GPT-4相对于之前的模型，已经显著减少了幻觉现象。在OpenAI的内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5模型高40%。

GPT-4在TruthfulQA等外部基准上取得了进展。OpenAI测试了模型从对抗性选择的不正确陈述中分离事实的能力。结果如下图所示：

结果表明，GPT-4基础模型在这项任务上只比GPT-3.5略胜一筹；然而，经过RLHF的后期训练后，二者的差距就非常大了。以下是 GPT-4 的测试示例，并不是所有时候它都能做出正确的选择。

该模型在其输出中可能存在偏见，OpenAI在这些方面已经取得了进展，其目标是使建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观。

基于GPT-4的产品

BUILT WITH GPT-4

OpenAI给了6个加入GPT-4的产品，借此我们可以看到它的广阔应用空间。

Duolingo

Duolingo是一款语言学习类APP，它把GPT-4接入产品，以推进产品的两个新功能。通过角色扮演 (Role Play) 让人工智能与用户对话，纠正语法错误。并融入产品的游戏化方面。

Be My Eyes

自2012年以来，Be My Eyes一直在为超过2.5亿的盲人或低视力者群体创造技术。这家丹麦初创公司将盲人或低视力者与志愿者联系起来，帮助他们完成数百项日常生活任务，如识别产品或导航机场。

有了GPT-4的新视觉输入能力，Be My Eyes开始在其应用程序中开发由GPT-4驱动的虚拟志愿者，可以产生与人类志愿者相同水平的背景和理解。

Stripe

Stripe为整个互联网上的大小企业提供支付服务。虽然它建立了自己的生态系统来支持支付过程的各个方面，但那些使用Stripe软件进行构建和整合的人群才是他们的主要用户。Stripe的开发者越是善于部署Stripe，Stripe就会在数字支付领域传播得越远，并使互联网的GDP增长。

通过GTP-4，可以轻松简化Stripe的用户体验，并打击欺诈。

Morgan Stanley

作为财富管理领域的领导者，摩根士丹利拥有一个内容丰富的图书馆，其中包括数十万页的知识和见解，涵盖投资策略、市场研究和评论，以及分析师的见解。这些大量的信息被放置在许多内部网站上，主要是以PDF形式存在，这就要求顾问们在大量的信息中寻找特定问题的答案。这样的搜索可能会很耗时和繁琐。

在OpenAI的GPT-4的帮助下，摩根士丹利正在改变其财富管理人员查找相关信息的方式。

以上就是有关GPT-4的所有内容了。不难看出，目前GPT-4无疑是最强的，但是它的未来又是怎样的呢？会不会又出现一个新的系统来打破现在的局面呢？就让我们拭目以待吧~

同学们也可以在留言区积极讨论哦

来聊一聊对于GPT-4你有哪些看法呢？

GPT-4

文中信息来源：

https://openai.com/research/gpt-4

https://openai.com/product/gpt-4

侵权告知即删

本文来自微信公众号“交互设计小站”（ID：racjiaohu）。大作社经授权转载，该文观点仅代表作者本人，大作社平台仅提供信息存储空间服务。

TAGS: AIGPT-4 OpenAI 模型用户

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

相关文章