数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析

52次阅读

最新发布的 GPT 模型 GPT-4 又在互联网掀起了一波讨论热潮。GPT-4 是 OpenAI 目前最为先进的系统，具备更广泛的知识和解决问题的能力，可以更准确地解决复杂问题。

本文将分析比较 GPT-3、GPT-4 以及介于两者之间的 GPT-3.5，介绍它们之间的相似点和不同点，以及哪些用例最适合它们。

一、GPT 三大版本介绍

（一）GPT-3

GPT-3 是由 OpenAI 开发的一种语言模型，于 2020 年 6 月发布。凭借其出色的语言生成能力，迅速在业内引起广泛的关注。

GPT- 3 有多个基础模型，它们的参数数量和所需计算资源各不相同，最被认可的是 Ada、Babbage、Curie 和 Davinci。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图

OpenAI 于 2022 年 3 月 15 日发布了名为 "text-davinci-003" 的全新版本 GPT-3，据称比之前的版本更加强大。该模型基于截至 2021 年 6 月的数据进行训练，这使得它比之前版本的模型（在截至 2019 年 10 月的数据上进行训练）更具有时效性。随后的八个月后，OpenAI 开始将这个模型称为属于“GPT-3.5”系列。

（二）GPT-3.5

有 5 大不同的模型属于 GPT-3.5 系列，其中四款是针对文本完成任务而优化的，一款是针对代码完成任务而优化的。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图1

最新版本的 GPT-3.5 模型——gpt-3.5-turbo 于 2023 年 3 月 1 日正式发布，其发布引起了人们对 GPT-3.5 的极大兴趣。然而，这只是 GPT- 4 发布前的热身。

（三）GPT-4

GPT- 4 是 OpenAI 语言模型的最新、也是最先进的版本。它于 2023 年 3 月 14 日推出，被定义为是深度学习发展的新里程碑。

GPT- 4 能够生成比之前版本更加符合事实的准确陈述，从而确保了更高的可靠性和可信度。它还是多模态的，意味着它可以接受图像作为输入并生成标题、分类和分析。同时 GPT- 4 还具备了一定的创造力。正如在官方产品更新中所介绍的，“它可以生成、编辑并与用户一起迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格。”

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图2

目前，在 2023 年 3 月，GPT-4 有两种型号：

gpt-4-8K
gpt-4-32K

它们的上下文窗口大小不同。尽管 GPT-4 已经投入商业使用，但大多数用户仍需要等待一段时间才能访问 GPT-4 API 并构建 GPT-4 支持的应用程序和服务。

二、GPT 三大版本对比

当被问及 GPT- 4 与 GPT- 3 的比较时，OpenAI 的联合创始人兼总裁 Greg Brockman 用了一个词来回答：“不同”。正如他在接受 Techcrunch 采访时所说，“这个模型仍然存在很多问题和错误…但你可以真正看到某些领域的技能水平从非常糟糕到实际上相当好的跳跃性进步，比如微积分或法律等领域。”

OpenAI 发布的 GPT-4 研究揭示了关于新模型的许多细节, 接下来我们进一步详细说明。

（一）GPT-4 与 GPT-3 的功能对比

GPT- 3 和 GPT- 4 之间最大的区别之一是它们的功能。GPT- 4 比 GPT-3.5 更可靠、更有创意、更具协作性，并且能够处理更细微的指令。

为了了解这两种模型之间的区别，OpenAI 开发人员在不同的基准测试中对它们进行了测试，包括模拟最初为人类设计的考试测试。

我们通过使用最新的公开测试，或者购买 2022-2023 年版的模拟考试来进行测试。我们没有针对这些考试进行专门培训。虽然考试中的少数问题是模型在训练中看到的，但我们认为结果具有代表性。

考试结果非常惊人，在 AP 微积分 BC 考试中，GPT- 3 的得分仅为 1 分，而 GPT- 4 的得分是 4 分。在模拟的律师考试中，GPT- 4 的通过率约为应试者的前 10%，而 GPT-3.5 则是在后 10%。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图3

此外，GPT- 4 是一个真正的多语言模型。虽然在 GPT- 3 和 GPT-3.5 版本中，GPT 的英语水平已经很高（准确率为 70.1%），但在最新版本中，它的准确率提高到了 85% 以上。实际上，GPT- 4 还能够理解 25 种其他语言，包括普通话、波兰语和斯瓦希里语。考虑到大多数现有的 ML 基准测试都是用英语编写的，你会发现这是很令人难以置信的。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图4

此外，GPT- 4 还能够在单个请求中处理更长的文本，而这都要归功于更高的上下文长度。

GPT-3 与 GPT-4 中的 token 限制对比

上下文长度是一个参数，用于描述在单个 API 请求中可以使用多少个标记 (token)。原始的 GPT- 3 模型在 2020 年将最大请求值设置为 2,049 个。在 GPT-3.5 中，这个限制增加到 4,096 个（大约 3 页单行英文文本）。GPT- 4 有两种变体，其中一个（GPT-4-8K）的上下文长度为 8,192 个，第二个（GPT-4-32K）则可以处理多达 32,768 个标记，相当于大约 50 页文本。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图5

虽然如此，我们可以考虑 GPT- 4 的所有新用例。凭借其处理 50 页文本的能力，将有可能使用新的 OpenAI 模型来创建更长的文本、分析和总结更大的文档或报告，或者在不丢失上下文的情况下处理对话。正如 Greg Brockman 在接受 Techcrunch 采访时所说：“以前，该模型对你是谁、你对什么感兴趣等等没有任何了解。有了这种历史，肯定会使它更有能力…它将使人们能够做的事情更多。”

但这还不是全部，因为除了处理文本输入外，GPT- 4 还可以解释其他输入类型。

GPT-4 和 GPT-3 中的输入类型对比

GPT- 3 和 GPT-3.5 模型仅支持一种类型的输入，即文本（更准确地说是代码），但 GPT- 4 支持额外的输入类型：图像。具体而言，它可以根据由文本和图像组成的输入生成文本输出。

根据用户对 GPT- 4 模型的操作要求，它可以生成说明文字、对可见元素进行分类或分析图像。在 GPT- 4 的研究文档中提供的示例中，我们可以看到该模型分析图表、解释模因，甚至总结由文本和图像组成的论文。我们必须承认，GPT- 4 的图像理解能力令人印象深刻。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图6

与更高的 token 限制结合，处理图像的能力为使用 GPT-4 开辟了新的可能性——从学术研究到个人培训或购物助手。不过，在你能够利用 GPT-4 的这种新技能之前，不要过于兴奋。正如我们可以在 OpenAI 网站上看到的那样，图像输入仍然是一个研究预览，暂时不对外公开提供。

GPT- 4 与 GPT- 3 中定义对话语境对比

GPT- 3 和 GPT- 4 之间还有一个重大区别，即我们如何确定模型的基调、风格和行为。

在 GPT 的最新版本中，我们可以通过向模型提供所谓的“系统”消息（这些消息在 OpenAI 的使用政策中有详细描述）来指示信息的基调，并描述模型应如何行事。例如，“你永远不要给学生答案，而总是试图提出正确的问题，以帮助他们学会自己思考”。这些指令能够作为“护栏”来限制 GPT- 4 的互动，防止它在用户要求下改变其行为。这为 GPT- 4 的使用建立了界限，从而更符合用户的期望和需求。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图7

正如上图中的例子，尽管用户提出要求，但 GPT- 4 仍然保持其在系统信息中定义的角色。

在最近发布的 GPT-3.5-Turbo 中，我们已经可以在某种程度上体验类似模型的能力。通过在系统提示中定义模型的角色，我们可以得到不同的回复，看看信息如何根据 GPT 模型扮演的角色而有所不同。

数云融合｜探究GPT家族的进化之路：GPT-3、GPT-3.5和GPT-4的比较分析插图8

在 2023 年 3 月之前，GPT-3.5-Turbo 无法提供系统信息的模型。上下文信息需要在提示中给出，并且在整个对话过程中很容易改变。新的 GPT- 4 具备更一致的行为，并能根据外部规范进行调整。

GPT-4 与 GPT-3 的使用成本对比

当然，这一切是有价格的。虽然 GPT- 3 模型的成本从每 1K tokens 0.0004 美元到 0.02 美元不等，最新的 GPT-3.5-Turbo 比最强大的 GPT davinci 模型便宜 10 倍（每 1K tokens 0.002 美元），但使用 GPT- 4 的成本没有给你留下任何幻想：如果你想使用最先进的模型，你需要额外付费。

带有 8K 上下文窗口的 GPT- 4 每 1K 提示符将花费 0.03 美元，每 1K 完成符花费 0.06 美元。另一方面，带有 32K 上下文窗口的 GPT- 4 将花费每 1K 提示符 0.06 美元和每 1K 完成符 0.12 美元。

如果处理平均长度为 1500 个提示符和 500 个完成符的 10 万个请求，用 text-davinci-003 花费 4000 美元，用 gpt-3.5-turbo 花费 400 美元，用 GPT-4，用 8K 上下文窗口将花费 7500 美元，用 32K 上下文窗口花费 15000 美元。

它不仅昂贵，而且计算起来也更复杂。这是因为提示（输入）token 的成本与完成（输出）token 的成本不同。如果你还记得我们的 GPT- 3 定价实验，你已经知道估计 token 使用量是很困难的，因为输入和输出长度之间的相关性非常低。由于输出（完成）令牌的成本较高，使用 GPT- 4 模型的成本将更难预测。

OpenAI 模型的 Fine-tuning

还记得我们如何在 GPT-4 和 GPT-3.5-Turbo 的系统消息中定义上下文吗？微调（Fine-tuning）基本上是一种变通方法，用于定义模型的基调、风格和行为，并针对特定应用程序自定义 GPT 模型。

为了微调模型，你在比提示所能适应的更多的例子上训练它，一旦模型被微调，你就不需要在提示中提供例子，这就节省了成本（每 1K 个代币都算！），并实现了低延迟请求。听起来不错，但遗憾的是，目前唯一可供微调的 OpenAI 模型是原始的 GPT- 3 基础模型（davinci、curie、ada 和 babbage）。

GPT- 4 的错误和局限性

当出现关于 GPT- 4 的各种传言时（例如，有人传言它使用的参数数量），OpenAI 的 CEO 发表评论说：“GPT- 4 的传言是很荒谬的事情，我不知道这一切从何而来。人们对它期望过高，最终会失望的。”

尽管 GPT- 4 具有创造力和惊人的能力，但重要的是要认识到它的局限性。我们可以在产品研究文件中读到，与该模型的前几个版本相比，它们并没有太大变化。

就像它的前辈们一样，GPT- 4 缺乏对 2021 年 9 月之后发生的事件的了解。此外，无论 ChatGPT 看起来多么聪明，它仍然不是完全可靠的，即使在使用 GPT- 4 自身变得更强大时也是如此。虽然它声称相对于以前的模型大大减少了“幻觉”（在其内部评估中比 GPT-3.5 得分高 40%），但它仍然会对事实产生“幻觉”，并出现推理错误。它仍然可能产生有害的建议（尽管它更有可能拒绝回答）、错误的代码或不准确的信息，因此，它不应该被用在成本高而错误风险较大的领域中。