最近有个大消息。云天励飞在湛江拿了一个AI项目,中标金额是4.2亿元。这个项目会建一个国产AI推理千卡集群。而且,集群会用云天励飞自己研发的国产AI推理加速卡。我觉得这事挺重要的。因为这表示国产模型和国产芯片能一起合作。
这个集群会跑DeepSeek这些国产大模型。它能帮政府、公司做很多AI事情。这样用AI成本就低了,也方便。其实,以前很多地方建AI中心,又想训练模型,又想跑应用。这就像一家店,既卖菜又做饭。但是,湛江这次不同。它只专注跑应用,也就是推理任务。这就像一家专门做菜的饭馆,效率更高。它主要帮那些想用AI的传统公司。

而且,湛江跟DeepSeek这个模型关系很深。DeepSeek的创始人梁文峰就是湛江人。所以,湛江对DeepSeek特别重视。去年年初,DeepSeek-R1发布后,湛江很快就用了。它先在湛江政务系统里跑起来。这个模型挺厉害的。它能处理很多政府事务。而且,它还能学湛江本地的产业知识,能听懂湛江话。这样AI就有了**“湛江智慧”。这次云天励飞建的这个集群,会和DeepSeek这些国产模型**一起工作。这样,更多公司就能用上这些AI模型。
推理集群的工作原理
大模型在实际用的时候,也就是做推理时,有几个要求。要很多人能同时用,处理速度要快,反应时间也要短。这就像一个大型客服中心。要能接很多电话,处理问题要快,客户等待时间要短。为了做得更好,现在常用一种方法,叫**“Prefill–Decode分离”**。这是它的工作原理:
- Prefill:你问一个很长的问题,或者给AI很多信息。AI会先理解这些信息。这步需要很多计算力。它也要很快地传输大量数据。
- Decode:AI开始一个字一个字地回答你。这步要求反应特别快,不能卡顿。
设计这个系统,就是要把这两步的资源分好。比如,Prefill需要很多计算力,所以要给它足够的“马力”。Decode需要很快的反应,所以要保证它的“速度”。
而且,大模型处理信息时,会记住很多中间的数据。这些数据叫KV Cache。这就像人的短期记忆。如果上下文很长,KV Cache就会很多。业内普遍认为,以后推理系统的瓶颈,很可能不是计算力不够。而是访问这些KV Cache的速度太慢了。就像你的大脑,计算能力再强,如果记忆提取慢,也会影响思考。
所以,现在建AI基础设施,不光看计算力。它还要看:计算、存储、网络这三样怎么配合。这三样配合得好,AI系统才能跑得快。
湛江这次建的千卡推理集群,就是按这个思路做的。它用了云天励飞自己做的AI推理芯片。在系统架构上,它确定了技术路线:优先优化Prefill,兼顾Decode。这样设计芯片,就是为了让计算资源和存储带宽更适合这种工作。特别是处理长问题时,系统也能保持高效率。
在网络连接方面,这个系统用了统一的高速互联架构。它通过400G光网络连接集群的所有机器。这样机器之间就能快速、低延迟地通信。以前的系统,可能机器内部用一种网络,机器之间用另一种。这会增加转换的麻烦。湛江集群这种所有地方都用同一种高速网络的方法,简化了安装。
这个系统的部署能力也很好。它可以从小规模的几十张卡,扩展到上千张卡。这样就能适应不同大小的AI应用需求。
另外,大模型推理时,KV Cache访问会带来压力。这个系统也做了优化。它让计算网络和存储网络一起工作。这样能更快地读取数据。模型在处理长问题时,也能保持稳定性能。
通过这些优化,比如芯片设计、网络连接、系统调度,这个推理集群就有了优势。它不仅效率高,而且成本也低。这样,用AI的成本就下来了。更多公司就能用得起AI。
自研芯片,降低AI成本
我了解到,湛江这个AI推理集群会分三期建。用的都会是云天励飞自己研发的国产AI推理加速卡。
- 第一期会用云天励飞的X6000推理加速卡。
- 第二期和第三期会用他们公司最新一代的芯片产品。
根据公司规划,云天励飞未来三年会推出三代AI推理芯片产品。他们有明确的步骤:
- 第一步:推出Prefill芯片。这种芯片会专门优化长问题处理。它能提升计算效率和内存访问能力。这样,OpenClaw、各种AI代理就能用上这种基础算力。
- 第二步:研发Decode芯片。这种芯片会专注于降低延迟。它能让AI实时推理能力更强。也就是说,AI回答问题会更快,更流畅。
- 第三步:芯片和系统一起优化。目标是让Prefill和Decode的性能都达到最好。希望能实现毫秒级推理时延。这意味着AI的反应速度会像闪电一样快。
其中,第一款Prefill芯片叫DeepVerse100。预计今年内就会完成生产。而且,它计划先在湛江这个集群里部署。这是把最新科技成果,直接用在实际项目上。
而且,云天励飞还提出了一个**“1001计划”。它的长期目标是“百亿Token一分钱”**。这是什么意思呢?就是通过芯片和系统的优化,持续降低大模型的推理成本。这个目标很宏大。
过去几年,AI算力建设通常都是“堆算力”。谁的GPU多,谁的性能就高。这就像以前大家比赛谁的马车跑得快,就不断增加马的数量。但是现在不一样了。大模型已经能实际应用了。产业关注点从“算力峰值”转向了“单位成本效率”。
换句话说,未来AI产业竞争的关键,不光是模型有多聪明。更重要的是,谁能用更低的成本,提供稳定的大规模推理能力。这才是真本事。
湛江项目的落地,就是这个目标的重要实践。这个千卡级推理集群,不光能满足现在AI应用的需求。它也为以后建更大规模的算力系统打下了技术基础。
一个千卡集群,通常分好几个层级来扩展。比如:
- 先从一个节点8张卡、32张卡开始。
- 再到64张卡甚至上百张卡的超节点。
- 最后连接成跨节点的大规模集群。
通过这个大规模系统的实际运行,可以验证很多关键技术。比如:卡之间怎么连接,节点之间怎么通信,工作量怎么分配。这些经验对以后建更大的AI算力系统特别重要。
大模型现在已经能实际用于产业了。AI基础设施的发展思路也在变化。以前是单纯追求算力多。现在更注重效率和成本。
业内都说,推理算力是决定AI应用能否大规模落地的关键。谁能用更高效率、更低成本提供稳定的大规模推理能力,谁就能在AI新一轮竞争中占据优势。
这次湛江建这个AI推理千卡集群,对当地公司的数字化转型很有帮助。而且,它让国产模型和国产芯片能一起实际工作。这给它们一个真实的机会去合作发展。国产模型和国产芯片深度合作,AI基础设施就能从技术探索,走向大规模应用。这为人工智能产业的未来发展,打开了新空间。