谁能狙击OpenAI，马斯克？

北京时间11月7日凌晨，人工智能公司OpenAI正式开启了它的第一届开发者大会。

短短45分钟的发布会，却让不少科技公司们沸腾，OpenAI吸引的目光似乎已经逐渐超过了苹果的“科技春晚”。此外，发布会前一天埃隆·马斯克在X上发布的新产品也被视为对OpenAI的“狙击”。

到底这场发布会都发布了什么内容？一个看上去只做人工智能这个单一产品的公司，又何以牵动各行各业的关注？

01 构建生态的野心

有趣的是，这次开发者大会上OpenAI发布的应用，也让人想起苹果。

“所有软件都值得用AI再做一遍。”OpenAI首席执行官山姆·奥尔特曼似乎秉承着这种想法，发布了他们的重磅产品。

GPTs，就是这个产品的名称，也就是复数的“GPT”。

5月，OpenAI已宣布开放其插件系统，相当于GPTs的雏形。当时OpenAI上线了70个大模型相关的应用，涉及猜词、翻译、查找股票数据等功能。当时，该功能的推出引起了广泛的关注和期待，不少媒体将其比作苹果的App Store时刻，认为它将引领大模型应用生态的革新。不过，虽然后期插件不断增加，但插件系统却远远没有达到苹果应用商店的影响力。

而在这次发布会上，OpenAI将其升级扩展为一个通用工具，用户可以通过自然语言创建基于自己的知识库的AI，把它挂上OpenAI的应用商店，并获得收入分成。应用商店名字叫做GPT Store，将在后续正式推出。

在发布会现场，山姆·奥尔特曼当场演示了这个工具的使用方法和效果。

“我在Y Combinator工作的多年中，经常遇到开发者向我咨询商业意见。”山姆·奥尔特曼说道，“我一直希望，如果有个机器人能帮我回答这些问题就好了。”紧接着，他打开GPT Builder，把想要获得的新的GPT功能定义为“帮助初创公司的创始人思考他们的业务创意并提供建议”，并在对话中让GPT Builder自己生成这个GPT的名字、图标，并通过自然语言对话的形式征求制作者的意见。

接下来，GPT Builder主动询问“这个应用该如何与用户交互？”，山姆·奥尔特曼表示，可以从我的过往演讲中选择合适且有建设性的回答，然后上传了一段自己过往的演讲文本。这个GPT就已经做好了，整个制作时间还不到三分钟。而访问这个GPT的人，会收到GPT自动生成的对话开头，可以与这个GPT对话，咨询创业相关的内容，并获得接近于山姆·奥尔特曼本人的回答。

GPT Builder能做到的不只是这些。在应用发布后的24小时内，就已经出现了各种各样的GPT——可以实况解说足球比赛或电竞比赛的GPT、可以识别摄像头捕捉的物体名称的GPT、可以进行开放式交互的游戏NPC、可以将图像转化为动图的GPT……

按照山姆·奥尔特曼的说法，每一个GPT就是ChatGPT为了特殊目的而做出的定制版本。

山姆·奥尔特曼表示，创建者还可以进一步为GPT增加action（动作）。创建一个这样的GPT，本质上，用户能够定制的功能其实并不多：指令（预设的prompt），外设的知识库和动作。但是，能把三者丝滑地结合起来，让一个不懂代码的人也能更简单地创建应用，用户要做的就是，跟GPT Builder聊天，把想要的GPT描述一遍，然后就能生成自己专属的GPT。

这的确是OpenAI的创举。

GPT发布后，应用可以选择私有、专属企业拥有和公开所有三种方式。而OpenAI表示，将为受欢迎的应用提供利润分享。

02 AI界的“大促销”

除了这个让人充满想象的应用以外，发布会一开始，山姆·奥尔特曼就宣布了GPT-4的一次大版本升级，推出了GPT-4 Turbo，同步在ChatGPT和API版本推出。

山姆·奥尔特曼表示，团队一直在征求开发者的建议，对开发者关注的问题做了六大升级。

六个升级分别是更长的上下文长度、更强的控制、模型的知识升级、多模态、模型微调定制和更高的速率限制。

第一，上下文长度。

OpenAI原本提供的最长的上下文长度为32k，而GPT-4 Turbo直接将上下文长度提升至128k，一举超过了竞争对手Anthropic的100k上下文长度。128k，约等于300页标准大小的书所涵盖的文字量。山姆·奥尔特曼还表示，新模型还能够在更长的上下文中保持更连贯和准确。

第二，是为开发者提供了几项更强的控制手段，以更好地进行API和函数调用。

首先，新模型提供了一个JSON Mode，可以保证模型以特定JSON方式提供回答，调用API时也更加方便。另外，新模型还允许同时调用多个函数，同时引入了seed parameter，在需要的时候，可以确保模型能够返回固定输出。接下来几周，模型还将增加新功能，让开发者能看到log probs。

第三，则是模型内部和外部知识库的升级。

GPT的知识库终于更新到了2023年4月。山姆·奥尔特曼承诺未来还将继续更新其知识库，不使其落伍。“对于GPT的知识停留在2021年（这件事），我们和你们一样，甚至比你们更恼火。”山姆·奥尔特曼表示。除了内部知识库的升级，GPT-4 Turbo也升级了外部知识库的更新方式，现在用户可以上传外部数据库或文件，来为GPT-4 Turbo提供外部知识库的支持。

第四，多模态。

新模型支持了OpenAI的视觉模型DALL·E 3，还支持了新的文本到语音模型——开发者可以从六种预设声音中选择所需的声音。

GPT-4 Turbo现在可以以图生图了。同时，在图像问题上，目前OpenAI推出了防止滥用的安全系统。OpenAI还表示，它将为所有客户提供牵涉到的版权问题的法律费用。

在语音系统中，OpenAI表示，目前的语音模型远超市场上的同类，并宣布了开源语音识别模型Whisper V3。

第五，模型微调与定制。

GPT-3.5 Turbo 16k的版本目前可以进行微调的定制了，且价格将比前一代更低。GPT-4的微调定制也在申请中了。同时，OpenAI也开始接受单个企业的模型定制了。包括修改模型训练过程的每一步，进行额外的特定领域的预训练，针对特定领域的后训练等等。

第六，也是最后一点，是更高的速率限制。

GPT-4用户，发布会后马上可以享受到每分钟的速率限制翻倍的体验。同时，如果不够满意，还可以进一步通过API账户，申请进一步提升速率限制。

六大升级以外，是API体系的“大促销”——全线降价。

此次新发布的GPT-4 Turbo，针对开发者们，文本输入的单价（每 1k tokens ）从原来的 0.03美元降到了 0.01美元，输出从 0.06美元降到了 0.03美元。

03 拓展商业化可能性

在此前的文章《OpenAI将破产？ChatGPT何去何从》中我们分析过，OpenAI与支持其的初创公司之间存在一种共生关系。换句话说，这些初创公司增长得越多，它们的计算需求就越大，对OpenAI平台的支出就更多。

因此，针对开发者的增值模型也十分重要。在这次发布会上，OpenAI就推出了让开发者更容易使用API的应用——Assistants API。

山姆·奥尔特曼表示，市面上基于API构建agent的体验很棒，但是这些agent很难建立，一般需要几个月的时间，由数十名工程师组成的团队共同研发。

在OpenAI开发者大会上，这些事情被API化——Assistants API可以帮助开发人员在他们的应用程序中构建“助手”。使用Assistants API，OpenAI客户可以构建一个具有特定指令、利用外部知识并可以调用OpenAI生成式AI模型和工具来执行任务的“助手”。例如基于自然语言的数据分析应用程序、编码助手，甚至是人工智能驱动的假期规划器。

Assistants API封装的能力包括：

持久的线程（persistent threads），人们不必弄清楚如何处理长的对话历史；

内置的检索（Retrieval），利用来自OpenAI模型外部的知识（例如公司员工提供的产品信息或文档）来增强开发人员创建的助手；提供新的StatefulAPI管理上下文；

内置的代码解释器（Code Interpreter），可在沙盒执行环境中编写和运行Python代码。这一功能于3月份针对ChatGPT推出，可以生成图形和图表并处理文件，让使用Assistants API创建的助手迭代运行代码来解决代码和数学问题；

改进的函数调用，使助手能够调用开发人员定义的编程函数并将响应合并到他们的消息中。‍

Assistants API处于测试阶段，可供所有开发人员使用。开发者可以前往Assistants Playground来尝试Assistants API测试版，而无需编写任何代码。

ChatGPT这次的“大版本更新”，让业界震动，也让竞争者警惕。

目前，市面上各种各样的大模型层出不穷。以国内为例，据科技部“新一代人工智能发展研究中心”近期发布的《中国人工智能大模型地图研究报告》显示，中国研发的大模型数量排名全球第二，仅次于美国，目前中国10亿参数规模以上的大模型已发布79个。

就在OpenAI开发者大会正式举办的前一天，马斯克旗下AI企业“xAI”发布了自研大模型“Grok”。有媒体评论道，马斯克选在这个时间点推出模型，正是为了狙击OpenAI。

马斯克在Twitter发文称，Grok被设计为在回答问题时能够展现出一些“幽默感”，并且不同于ChatGPT无法实时联网，Grok是一款可以提供实时信息的AI工具。不过，目前Grok仅对部分用户提供测试机会，尚未全面对外开放。

同一天，由李开复亲自带队成立的国内AI初创企业“零一万物”，也发布了首款开源中英双语大模型“Yi”，并定位Yi是“首款开源中英双语大模型”。

百度首席技术官王海峰近日表示，百度文心大模型4.0在理解、生成、逻辑和记忆能力上都有显著提升，综合能力与GPT-4相比毫不逊色。

腾讯混元大模型也迎来全新升级，据腾讯方面介绍，升级后的腾讯混元中文能力整体超过GPT-3.5，代码能力大幅提升。

在11月6日，面壁智能、出门问问、网易有道、昆仑万维、知乎等企业成为国内第二批通过备案的AI大模型，并在第一时间将产品对外开放使用。科大讯飞已发布“讯飞星火”认知大模型V3.0、商汤已有“商量SenseChat2.0”，一系列国产大模型纷纷登场亮相。

山姆·奥尔特曼在一个月前曾说，“在未来，简单模仿、套壳OpenAI的产品注定会消亡。”

人工智能的浪潮一波跟着一波地前进着，波涛汹涌之下，谁会是裸泳的那一个？

中国战略新兴产业融媒体记者艾丽格玛