AI竞赛下半场：为什么说长跑选手只剩阿里和谷歌？

“通云哥”这个组合，其实准备了很久。我们从头说起。故事要回到2009年。那时候，阿里开始自己写一个叫“飞天”的操作系统。这就是阿里云的起点。当时很多人不看好，觉得没必要。但是到了2013年，这个系统已经能一次调度5000台服务器。这件事在当时很厉害。后来，阿里云就做起来了。根据Omdia在2025上半年的报告，阿里云在国内AI云市场的份额有35.8%。这个数字比第二、第三、第四名的总和还要多。

除了云，另外两部分也早就开始了。

一个是芯片，叫平头哥。平头哥是2018年成立的。2019年，他们就做出了第一款AI芯片，叫含光800。这个芯片做出来后，马上就用在了自己的业务上。比如淘宝双11的搜索，就需要大量的计算，含光800就在后面支持。而且，平头哥在2020年就开始悄悄研发一款更高端的AI芯片，代号“真武810”。这件事一直没对外说。直到2023年初，芯片的研发和测试其实都做完了。

时间到了2025年，情况变了。因为一些地缘因素，国际上的AI芯片巨头，比如英伟达，在中国市场的业务受到了影响。这时候，所有人都开始问一个问题：谁能替代英伟达的芯片？

就在这个时候，平头哥的“真武”芯片开始被人注意。先是美国媒体The Information报道，说平头哥的第一代PPU（就是“真武”这款芯片），在性能上已经可以和英伟达当时出口到中国的H20芯片相比了。接着，央视新闻里一个画面一闪而过，上面有个图表，对比了国产芯片和英伟达芯片的参数。大家仔细一看，发现上面列出的平头哥PPU的显存、片间带宽、功耗这些关键数据，确实和H20是一个水平的。

这下就藏不住了。申万宏源的分析报告也跟进，说平头哥的这个芯片不是简单地模仿国外产品，而是做出了自己的特点，也找到了市场。根据媒体报道，平头哥的真武PPU已经出货了几十万片。它的客户名单也很长，有国家电网、中科院，也有小鹏汽车和新浪微博这样的大公司，总共超过400家。这个出货量，在国内做AI芯片的公司里，已经算是第一梯队了。

而且，事情还在发展。根据券商Bernstein去年12月的报告，真武PPU的升级版，性能已经接近英伟达上一代的A100芯片。报告还预测，未来的PPU 2.0版本，性能甚至有希望追上现在最强的H100。

“通云哥”的最后一块拼图，是通义实验室的大模型。它的起步时间和平头哥差不多。2021年，通义实验室做出了一个叫M6的模型，参数量很大。2023年，通义千问大模型正式发布，并且决定走开源路线。开源的意思，就是把代码公开，让所有人都能用。

开源之后，通义千问的更新速度很快。就在今年1月26日，通义实验室又发布了一个新的旗舰模型，叫Qwen3-Max-Thinking。它在很多权威的AI模型排行榜上都拿到了高分。它能发展这么快，背后就是自家阿里云和平头哥芯片在提供算力支持。

通义千问的开源路线效果很好。根据彭博社的数据，去年10月，通义千问模型的全球下载量，已经超过了之前最火的开源模型，就是Meta公司的Llama。甚至，连Meta公司自己在开发新模型的时候，都用到了通义千问的开源模型来进行技术参考。这件事在科技圈引起了不小的讨论。

所以，当平头哥官网在今年1月29日正式上线“真武810E”这款芯片时，就意味着一件事：“通云哥”这个组合，也就是通义大模型、阿里云、平头哥芯片，经过了十几年的准备，现在终于全部到齐，正式登场了。

全栈自研的“简单真相”

全栈自研，这个词听起来很复杂。但它的工作原理其实很直接。

我们先看传统的方式。以前，做芯片的公司、做云计算的公司、做大模型的公司，是分开的。芯片公司把芯片卖给云公司。云公司再把计算资源租给模型公司。大家各做各的。这样做有个问题，就是互相不匹配，会产生很多浪费。就像你买了一个很强的发动机，但装在了一辆不合适的车上，它的性能就发挥不出来。

阿里的全栈自研，就是要把这个流程反过来。

这是它的工作原理：

第一步，通义千问的模型团队，先确定模型需要什么样的计算。比如，模型在做推理时，哪些运算用得最多，数据传输有什么特点。他们会把这些需求整理出来。

第二步，平头哥的芯片团队，拿到这些具体的需求后，再开始设计芯片。他们会针对性地加强芯片处理这些特定运算的能力。同时，对于模型用得少的功能，就可以简化，这样能降低芯片的功耗和成本。

第三步，阿里云的团队，再根据设计好的芯片和模型，来搭建整个数据中心。包括服务器怎么摆放，网络怎么连接，数据怎么存储，任务怎么调度。所有这些都为了让芯片和模型跑得更顺畅。

这样做的好处是，中间的损耗变小了，效率变高了。

对平头哥来说，他们不用再猜市场需要什么样的芯片。他们有阿里云和通义千问这两个明确的内部客户。需求非常清楚。这样一来，芯片的研发和产业化进程就快了很多。产品迭代周期也缩短了。这就是平头哥能快速追赶上来的一个原因。

对阿里云和通义千问来说，他们能用更低的成本，获得更强的算力。因为芯片是为他们量身定做的。整个系统没有多余的东西，每一分钱都花在了刀刃上。最终，这会直接影响两个关键指标：一个是MFU，也就是有效计算利用率，代表计算资源有没有被浪费。另一个是TCO，也就是总拥有成本，代表用这个系统的长期总花费。全栈自研可以把这两个指标都做得更好。

打个比方。这就像给自己量身定做一套衣服，而不是去商场买标准尺码的成衣。定制的衣服肯定更合身、更舒服。虽然前期设计和制作麻烦一点，但穿起来效果最好。阿里的这套模式，就是为自己的AI业务，定制了一整套从硬件到软件的“衣服”。

而且，这套模式别人很难模仿。因为它不只是技术问题，还涉及到公司内部不同部门之间长期的协调和磨合。阿里也是因为自己有淘宝、天猫这样庞大的业务，对算力和智能有切身的“痛感”，才下决心这么早、这么全面地去做这件事。

时代选中了阿里、谷歌

AI这个东西，做起来需要大量的资源。需要芯片，需要云服务器，需要数据，需要模型专家。所以，这件事情发展到现在，大公司确实有优势。就像英伟达CEO黄仁勋说的那样，超大规模的云计算厂商，正在主导这个时代的基础设施建设。

在全球范围内，能玩得起这场游戏的大公司，主要走了两条不同的路。

一条路以微软为代表。微软有很强的云计算平台Azure。然后，它选择和外部最顶尖的模型公司OpenAI合作。它自己也研发芯片，但主要还是给自己用，不是战略的核心。这条路的好处是启动快。AI浪潮一来，微软通过合作，很快就拿出了产品，抢占了先机。

另一条路，就是谷歌和阿里走的。这条路叫全栈自研。就是芯片、云、模型，这三个最核心的东西，全都要自己做，而且都要做到顶级水平。这条路走起来很难，风险也大，前期投入高，见效慢。但是，一旦走通了，所有东西就都掌握在自己手里。成本、定价、技术迭代的速度，都可以自己控制。供应链也更安全。这是一种更适合长跑的策略。

在AI浪潮的刚开始，微软看起来是领先的。它动作很快，一直占据着新闻头条。而谷歌当时没什么大动作，显得有些被动。

但是，到了2025年下半年，市场的风向开始变了。投资者开始担心“AI泡沫”。他们不再只为巨大的资本支出感到兴奋，而是开始关心这些投入什么时候能带来回报。

这时候，局面就反转了。今年1月，微软发布了不错的财报，但它的股价却大跌。市场解读说，大家担心微软的成本太高，而且在芯片和模型上依赖外部伙伴，存在风险。

与此同时，谷歌的股价却在上涨。很多分析机构都上调了对它的目标价。花旗银行的报告说，谷歌在算力基础设施和软硬件技术上的优势，让它在AI竞争中处于领先地位。市场开始重新评估全栈自研的价值。

阿里这边也发生了类似的事情。当“通云哥”的组合浮出水面后，很多人把它和谷歌放在一起看。大家发现，阿里是中国唯一一家走通了全栈自研的公司。而且，阿里的财报也显示，AI相关产品的收入，已经连续9个季度实现了三位数的同比增长。这说明它的策略不只是一个故事，而是已经产生了实际的商业回报。这让市场对它作为“硬科技”公司的前景更加看好。

所以，现在的情况是，阿里和谷歌选择了全栈自研这条更难的路。而市场和时代，似乎也开始选择它们。

当然，大公司掌握了这么强的能力，也带来了一些担忧。有人担心智能会被垄断。阿里官网上有一句话，据说是马云的想法：“以科技探索星辰大海，用AI呵护人间烟火。”这或许代表了他们的一种思考。当一个公司变得足够强大时，如何更好地服务社会，确实是一个需要回答的问题。

# AI提示词