生成式人工智能：一个创造性的新世界

风落青屿 · 发表于 2022-11-27 16:13:20

生成式人工智能有潜力产生数万亿美元的经济价值。

人类善于分析事物。机器甚至更好。机器可以分析一组数据并在其中找到用于大量用例的模式，无论是欺诈还是垃圾邮件检测，预测交付的 ETA 或预测接下来要向您展示的 TikTok 视频。他们在这些任务上变得越来越聪明。这被称为“分析人工智能”或传统人工智能。
但人类不仅擅长分析事物——我们也擅长创造。我们写诗、设计产品、制作游戏和编写代码。直到最近，机器还没有机会在创造性工作上与人类竞争——它们只能进行分析和死记硬背的认知劳动。但是机器刚刚开始擅长创造感性和美丽的东西。这个新类别被称为“生成式人工智能”，这意味着机器正在生成新的东西，而不是分析已经存在的东西。
生成式 AI 不仅变得更快、更便宜，而且在某些情况下比人类手工创造的更好。从社交媒体到游戏，从广告到建筑，从编码到平面设计，从产品设计到法律，从市场营销到销售，每一个需要人类创作原创作品的行业都需要进行改造。某些功能可能会被生成式 AI 完全取代，而其他功能更有可能从人机之间紧密的迭代创新周期中蓬勃发展——但生成式 AI 应该会在广泛的终端市场上解锁更好、更快、更便宜的创造。我们的梦想是生成式人工智能将创造和知识工作的边际成本降至零，从而产生巨大的劳动生产率和经济价值——以及相应的市值。
生成式人工智能涉及的领域——知识工作和创造性工作——包括数十亿工人。生成式人工智能可以使这些工人的效率和/或创造力至少提高 10%：他们不仅变得更快、更有效率，而且比以前更有能力。因此，生成式人工智能有潜力产生数万亿美元的经济价值。
为什么现在？

生成式 AI 与更广泛的 AI 具有相同的“为什么现在”：更好的模型、更多的数据、更多的计算。该类别的变化速度比我们所预料的要快，但值得概括地叙述最近的历史，以宏观地理解当前进展。
第1波：小型模型至高无上（2015 年之前） 5 多年前，小型模型是语言理解中最先进的方法。这些小型模型擅长分析任务，并被部署用于从交货时间预测到欺诈分类的工作。然而，对于通用的生成任务，它们的表现力不够。生成人类水平的写作或代码仍然是一个白日梦。
第2波: 规模化竞赛 (2015-今天) Google Research 的一篇具有里程碑意义的论文（Attention is All You Need）描述了一种新的用于自然语言理解的神经网络架构，称为transformer，它可以生成高质量的语言模型，同时具有更高的可并行性和要求训练时间明显减少。这些模型是小样本学习器，可以相对容易地针对特定领域进行定制。

果然，随着模型变得越来越大，它们开始提供人类水平，然后是超人类的结果。从 2015 年到 2020 年，用于训练这些模型的计算量增加了 6 个数量级，其结果超过了人类在手写、语音和图像识别、阅读理解和语言理解方面的性能基准。OpenAI 的 GPT-3 脱颖而出：该模型的性能是相对GPT-2 的巨大飞跃，并提供了从代码生成到尖刻笑话写作等任务的诱人演示。
尽管取得了所有基础研究进展，但这些模型并不普遍。它们很大且难以运行（需要 GPU 阵列），无法广泛访问（不可用或仅限封闭测试版），并且用作云服务的成本很高。尽管存在这些限制，但最早的生成式 AI 应用程序开始加入竞争。
第 3 波：更好、更快、更便宜（2022 年以上）计算变得更便宜。新技术，如扩散模型，降低了训练和运行推理所需的成本。研究界继续开发更好的算法和更大的模型。开发人员访问权限从封闭测试版扩展到公开测试版，或者在某些情况下是开源的。
对于一直无法获得 LLM 的开发人员来说，闸门现在已经打开，可供探索和应用程序开发。应用程序开始开花。

MidJourney生成的图片

第四波：杀手级应用出现（现在）随着平台层的巩固，模型继续变得更好/更快/更便宜，模型访问趋向于免费和开源，应用层已经成熟，可以激发创造力。
正如移动设备通过 GPS、摄像头和移动连接等新功能释放了新型应用程序一样，我们预计这些大型模型将激发新一轮的生成式 AI 应用程序。正如十年前移动的拐点为少数杀手级应用打开了市场一样，我们预计生成式人工智能的杀手级应用也会出现。比赛正在进行中。
市场格局

下面的示意图描述了将为每个类别提供支持的平台层以及将在其上构建的潜在应用程序类型。

模型

文本是最高级的领域。然而，自然语言很难做到正确，质量很重要。今天，这些模型非常擅长通用短/中型写作（但即便如此，它们通常用于迭代或初稿）。随着时间的推移，随着模型变得更好，我们应该期望看到更高质量的输出、更长形式的内容和更好的垂直特定调整。
代码生成可能会在短期内对开发人员的生产力产生重大影响，正如 GitHub CoPilot 所示。它还将使非开发人员更容易创造性地使用代码。
图像是一种较新的现象，但它们已经病毒式传播：在 Twitter 上分享生成的图像比文字更有趣！我们正在看到具有不同审美风格的图像模型以及用于编辑和修改生成图像的不同技术的出现。
语音合成已经存在了一段时间（你好 Siri！），但消费者和企业应用程序正在变得越来越好。对于像电影和播客这样的高端应用，对于听起来不机械的一次性人类质量语音的标准相当高。但就像图像一样，今天的模型为实用应用程序的进一步细化或最终输出提供了一个起点。
视频和 3D 模型正在迅速上升。人们对这些模型打开电影、游戏、VR、建筑和实体产品设计等大型创意市场的潜力感到兴奋。正如我们所说，研究机构正在发布基础 3D 和视频模型。
其他领域：从音频和音乐到生物学和化学（生成蛋白质和分子，有人知道吗？），许多领域都在进行基础模型研发。

下图说明了我们可能期望如何看到基本模型进展以及相关应用成为可能的时间表。2025 年及以后只是一个猜测。

应用程序
以下是一些令我们感到兴奋的应用程序。

文案：对个性化网络和电子邮件内容的需求不断增长，以推动销售和营销策略以及客户支持，这些都是语言模型的完美应用。措辞的简短形式和程式化性质加上这些团队的时间和成本压力应该会推动对自动化和增强解决方案的需求。
垂直特定写作助理：当今大多数写作助理都是水平的；我们相信有机会为特定的终端市场构建更好的生成应用程序，从法律合同写作到剧本写作。这里的产品差异化在于针对特定工作流程对模型和 UX 模式进行微调。
代码生成：当前的应用程序加速了开发人员并提高了他们的生产力：GitHub Copilot 现在在安装它的项目中生成了近 40% 的代码。但更大的机会可能是为消费者开放编码。学习提示可能会成为终极的高级编程语言。
艺术生成：艺术史和流行文化的整个世界现在都被编码在这些大型模型中，任何人都可以随意探索以前需要一生才能掌握的主题和风格。
游戏：梦想是使用自然语言创建可操纵的复杂场景或模型；最终状态可能还有很长的路要走，但有更直接的选项在短期内更可行，例如生成纹理和天空盒艺术。
媒体/广告：想象一下自动化代理工作并为消费者动态优化广告文案和创意的潜力。这里是多模态生成的绝佳机会，可以将销售信息与互补的视觉效果结合起来。
设计：对数字和实体产品进行原型设计是一个劳动密集型的迭代过程。来自粗略草图和提示的高保真渲染已经成为现实。随着 3-D 模型变得可用，生成式设计过程将延伸到制造和生产——从文本到对象。你的下一个 iPhone 应用程序或运动鞋可能是由机器设计的。
社交媒体和数字社区：是否有使用生成工具表达自己的新方式？随着消费者学会在公共场合创作，像 Midjourney 这样的新应用正在创造新的社交体验。

MidJourney生成的图片

生成式 AI 应用剖析

生成式 AI 应用程序会是什么样子？以下是一些预测。
智能和模型微调
Generative AI 应用程序构建在 GPT-3 或 Stable Diffusion 等大型模型之上。随着这些应用程序获得更多的用户数据，他们可以微调他们的模型以：1）针对他们的特定问题空间提高模型质量/性能；以及 2) 减小模型尺寸/成本。
我们可以将生成式 AI 应用程序视为 UI 层和位于大型通用模型“大脑”之上的“小大脑”。
外形
今天，生成式 AI 应用程序主要作为现有软件生态系统中的插件存在。代码完成发生在您的 IDE 中；图像生成发生在 Figma 或 Photoshop 中；甚至 Discord 机器人也是将生成 AI 注入数字/社交社区的工具。
还有少量独立的生成式 AI 网络应用程序，例如用于文案的 Jasper 和 Copy.ai、用于视频编辑的 Runway 和用于记笔记的 Mem。
插件可能是引导您自己的应用程序的有效楔子，它可能是克服用户数据和模型质量的先有鸡还是先有蛋的问题的精明方法（您需要分发以获得足够的使用来改进您的模型；您需要吸引用户的好模型）。我们已经看到这种分销策略在其他市场类别中得到了回报，例如消费者/社交。
交互范式
今天，大多数生成式 AI 演示都是“一次性完成”的：你提供一个输入，机器吐出一个输出，你可以保留它，也可以扔掉它再试一次。模型越来越具有迭代性，您可以在其中使用输出来修改、优化、升级和生成变化。
今天，生成式 AI 输出被用作原型或初稿。应用程序非常擅长提出多种不同的想法以使创意过程继续进行（例如，徽标或建筑设计的不同选项），并且它们非常擅长生成需要用户精修以达到最终状态的初稿（例如博客文章或代码自动完成）。随着模型变得越来越智能，部分依赖于用户数据，我们应该期望这些草稿会越来越好，直到它们足够好用作最终产品。
持续的品类领导
最好的生成式人工智能公司可以通过在用户参与/数据和模型性能之间的飞轮上不懈地执行来产生可持续的竞争优势。为了获胜，团队必须让这个飞轮运转起来：1) 具有出色的用户参与度 → 2) 将更多的用户参与度转化为更好的模型性能（及时改进、模型微调、用户选择作为标记的训练数据）→ 3) 使用出色的模型性能以推动更多用户增长和参与度。他们可能会进入特定的问题空间（例如，代码、设计、游戏），而不是试图成为所有人的一切。他们可能会首先深入集成到应用程序中以进行利用和分发，然后尝试用 AI 原生工作流替换现有应用程序。
障碍和风险

尽管 Generative AI 具有潜力，但围绕商业模式和技术还有很多问题需要解决。关于版权、信任与安全以及成本等重要问题的问题远未解决。
睁大眼睛

生成式人工智能还很早。平台层刚刚好，应用空间几乎没有开始。
需要明确的是，我们不需要大型语言模型来编写托尔斯泰小说来充分利用生成式 AI。这些模型在今天足以编写博客文章的初稿并生成徽标和产品界面的原型。中短期内将发生大量价值创造。
第一波生成式 AI 应用程序类似于 iPhone 刚问世时的移动应用程序环境——有点噱头和薄弱，竞争差异化和商业模式不明确。然而，其中一些应用程序提供了对未来可能发生的情况的有趣一瞥。一旦你看到一台机器产生复杂的功能代码或精美的图像，就很难想象未来机器不会在我们的工作和创造方式中发挥基本作用。
如果我们允许自己在几十年后做梦，那么很容易想象生成式人工智能将深深嵌入我们的工作、创造和娱乐方式的未来：自己写的备忘录；3D打印任何你能想象到的东西；从文字到皮克斯电影；类似于 Roblox 的游戏体验，能够以我们可以想象的最快速度生成丰富的世界。虽然这些经历在今天看起来像科幻小说，但进展速度非常快——我们已经在几年中从狭窄的语言模型发展到代码自动完成——如果我们继续沿着这种变化速度前进并遵循“大模型摩尔定律”，那么这些牵强附会的场景可能刚刚进入可能的领域。
PS：这篇文章是与 GPT-3 共同编写的。GPT-3 并没有生成整篇文章，但它负责克服作家的障碍，生成整个句子和段落的文本，以及生成式 AI 的不同用例。用 GPT-3 写这篇文章很好地体验了可能形成新常态的人机共创交互。我们还用 Midjourney 为这篇文章制作了插图，非常有趣！
参考：

立财 · 发表于 2025-4-2 04:37:23

呵呵。。。

淡定者 · 发表于 2025-12-16 23:47:23

我只是路过，不发表意见

欣儿的港湾 · 发表于前天 08:09

啥玩应呀

低云 · 发表于前天 20:22

占位编辑

		自动登录	找回密码
密码			立即注册

生成式人工智能：一个创造性的新世界

浏览过的版块