“通云哥”这个组合,其实准备了很久。我们从头说起。故事要回到2009年。那时候,阿里开始自己写一个叫“飞天”的操作系统。这就是阿里云的起点。当时很多人不看好,觉得没必要。但是到了2013年,这个系统已经能一次调度5000台服务器。这件事在当时很厉害。后来,阿里云就做起来了。根据Omdia在2025上半年的报告,阿里云在国内AI云市场的份额有35.8%。这个数字比第二、第三、第四名的总和还要多。
除了云,另外两部分也早就开始了。
一个是芯片,叫平头哥。平头哥是2018年成立的。2019年,他们就做出了第一款AI芯片,叫含光800。这个芯片做出来后,马上就用在了自己的业务上。比如淘宝双11的搜索,就需要大量的计算,含光800就在后面支持。而且,平头哥在2020年就开始悄悄研发一款更高端的AI芯片,代号“真武810”。这件事一直没对外说。直到2023年初,芯片的研发和测试其实都做完了。
时间到了2025年,情况变了。因为一些地缘因素,国际上的AI芯片巨头,比如英伟达,在中国市场的业务受到了影响。这时候,所有人都开始问一个问题:谁能替代英伟达的芯片?

就在这个时候,平头哥的“真武”芯片开始被人注意。先是美国媒体The Information报道,说平头哥的第一代PPU(就是“真武”这款芯片),在性能上已经可以和英伟达当时出口到中国的H20芯片相比了。接着,央视新闻里一个画面一闪而过,上面有个图表,对比了国产芯片和英伟达芯片的参数。大家仔细一看,发现上面列出的平头哥PPU的显存、片间带宽、功耗这些关键数据,确实和H20是一个水平的。
这下就藏不住了。申万宏源的分析报告也跟进,说平头哥的这个芯片不是简单地模仿国外产品,而是做出了自己的特点,也找到了市场。根据媒体报道,平头哥的真武PPU已经出货了几十万片。它的客户名单也很长,有国家电网、中科院,也有小鹏汽车和新浪微博这样的大公司,总共超过400家。这个出货量,在国内做AI芯片的公司里,已经算是第一梯队了。
而且,事情还在发展。根据券商Bernstein去年12月的报告,真武PPU的升级版,性能已经接近英伟达上一代的A100芯片。报告还预测,未来的PPU 2.0版本,性能甚至有希望追上现在最强的H100。
“通云哥”的最后一块拼图,是通义实验室的大模型。它的起步时间和平头哥差不多。2021年,通义实验室做出了一个叫M6的模型,参数量很大。2023年,通义千问大模型正式发布,并且决定走开源路线。开源的意思,就是把代码公开,让所有人都能用。
开源之后,通义千问的更新速度很快。就在今年1月26日,通义实验室又发布了一个新的旗舰模型,叫Qwen3-Max-Thinking。它在很多权威的AI模型排行榜上都拿到了高分。它能发展这么快,背后就是自家阿里云和平头哥芯片在提供算力支持。
通义千问的开源路线效果很好。根据彭博社的数据,去年10月,通义千问模型的全球下载量,已经超过了之前最火的开源模型,就是Meta公司的Llama。甚至,连Meta公司自己在开发新模型的时候,都用到了通义千问的开源模型来进行技术参考。这件事在科技圈引起了不小的讨论。
所以,当平头哥官网在今年1月29日正式上线“真武810E”这款芯片时,就意味着一件事:“通云哥”这个组合,也就是通义大模型、阿里云、平头哥芯片,经过了十几年的准备,现在终于全部到齐,正式登场了。
全栈自研的“简单真相”
全栈自研,这个词听起来很复杂。但它的工作原理其实很直接。
我们先看传统的方式。以前,做芯片的公司、做云计算的公司、做大模型的公司,是分开的。芯片公司把芯片卖给云公司。云公司再把计算资源租给模型公司。大家各做各的。这样做有个问题,就是互相不匹配,会产生很多浪费。就像你买了一个很强的发动机,但装在了一辆不合适的车上,它的性能就发挥不出来。
阿里的全栈自研,就是要把这个流程反过来。
这是它的工作原理:
第一步,通义千问的模型团队,先确定模型需要什么样的计算。比如,模型在做推理时,哪些运算用得最多,数据传输有什么特点。他们会把这些需求整理出来。
第二步,平头哥的芯片团队,拿到这些具体的需求后,再开始设计芯片。他们会针对性地加强芯片处理这些特定运算的能力。同时,对于模型用得少的功能,就可以简化,这样能降低芯片的功耗和成本。
第三步,阿里云的团队,再根据设计好的芯片和模型,来搭建整个数据中心。包括服务器怎么摆放,网络怎么连接,数据怎么存储,任务怎么调度。所有这些都为了让芯片和模型跑得更顺畅。
这样做的好处是,中间的损耗变小了,效率变高了。
对平头哥来说,他们不用再猜市场需要什么样的芯片。他们有阿里云和通义千问这两个明确的内部客户。需求非常清楚。这样一来,芯片的研发和产业化进程就快了很多。产品迭代周期也缩短了。这就是平头哥能快速追赶上来的一个原因。
对阿里云和通义千问来说,他们能用更低的成本,获得更强的算力。因为芯片是为他们量身定做的。整个系统没有多余的东西,每一分钱都花在了刀刃上。最终,这会直接影响两个关键指标:一个是MFU,也就是有效计算利用率,代表计算资源有没有被浪费。另一个是TCO,也就是总拥有成本,代表用这个系统的长期总花费。全栈自研可以把这两个指标都做得更好。
打个比方。这就像给自己量身定做一套衣服,而不是去商场买标准尺码的成衣。定制的衣服肯定更合身、更舒服。虽然前期设计和制作麻烦一点,但穿起来效果最好。阿里的这套模式,就是为自己的AI业务,定制了一整套从硬件到软件的“衣服”。
而且,这套模式别人很难模仿。因为它不只是技术问题,还涉及到公司内部不同部门之间长期的协调和磨合。阿里也是因为自己有淘宝、天猫这样庞大的业务,对算力和智能有切身的“痛感”,才下决心这么早、这么全面地去做这件事。
时代选中了阿里、谷歌
AI这个东西,做起来需要大量的资源。需要芯片,需要云服务器,需要数据,需要模型专家。所以,这件事情发展到现在,大公司确实有优势。就像英伟达CEO黄仁勋说的那样,超大规模的云计算厂商,正在主导这个时代的基础设施建设。
在全球范围内,能玩得起这场游戏的大公司,主要走了两条不同的路。
一条路以微软为代表。微软有很强的云计算平台Azure。然后,它选择和外部最顶尖的模型公司OpenAI合作。它自己也研发芯片,但主要还是给自己用,不是战略的核心。这条路的好处是启动快。AI浪潮一来,微软通过合作,很快就拿出了产品,抢占了先机。
另一条路,就是谷歌和阿里走的。这条路叫全栈自研。就是芯片、云、模型,这三个最核心的东西,全都要自己做,而且都要做到顶级水平。这条路走起来很难,风险也大,前期投入高,见效慢。但是,一旦走通了,所有东西就都掌握在自己手里。成本、定价、技术迭代的速度,都可以自己控制。供应链也更安全。这是一种更适合长跑的策略。
在AI浪潮的刚开始,微软看起来是领先的。它动作很快,一直占据着新闻头条。而谷歌当时没什么大动作,显得有些被动。
但是,到了2025年下半年,市场的风向开始变了。投资者开始担心“AI泡沫”。他们不再只为巨大的资本支出感到兴奋,而是开始关心这些投入什么时候能带来回报。
这时候,局面就反转了。今年1月,微软发布了不错的财报,但它的股价却大跌。市场解读说,大家担心微软的成本太高,而且在芯片和模型上依赖外部伙伴,存在风险。
与此同时,谷歌的股价却在上涨。很多分析机构都上调了对它的目标价。花旗银行的报告说,谷歌在算力基础设施和软硬件技术上的优势,让它在AI竞争中处于领先地位。市场开始重新评估全栈自研的价值。
阿里这边也发生了类似的事情。当“通云哥”的组合浮出水面后,很多人把它和谷歌放在一起看。大家发现,阿里是中国唯一一家走通了全栈自研的公司。而且,阿里的财报也显示,AI相关产品的收入,已经连续9个季度实现了三位数的同比增长。这说明它的策略不只是一个故事,而是已经产生了实际的商业回报。这让市场对它作为“硬科技”公司的前景更加看好。
所以,现在的情况是,阿里和谷歌选择了全栈自研这条更难的路。而市场和时代,似乎也开始选择它们。
当然,大公司掌握了这么强的能力,也带来了一些担忧。有人担心智能会被垄断。阿里官网上有一句话,据说是马云的想法:“以科技探索星辰大海,用AI呵护人间烟火。”这或许代表了他们的一种思考。当一个公司变得足够强大时,如何更好地服务社会,确实是一个需要回答的问题。