湛江4.2亿AI项目：国产芯片+大模型，这次真要干什么？

最近有个大消息。云天励飞在湛江拿了一个AI项目，中标金额是4.2亿元。这个项目会建一个国产AI推理千卡集群。而且，集群会用云天励飞自己研发的国产AI推理加速卡。我觉得这事挺重要的。因为这表示国产模型和国产芯片能一起合作。

这个集群会跑DeepSeek这些国产大模型。它能帮政府、公司做很多AI事情。这样用AI成本就低了，也方便。其实，以前很多地方建AI中心，又想训练模型，又想跑应用。这就像一家店，既卖菜又做饭。但是，湛江这次不同。它只专注跑应用，也就是推理任务。这就像一家专门做菜的饭馆，效率更高。它主要帮那些想用AI的传统公司。

而且，湛江跟DeepSeek这个模型关系很深。DeepSeek的创始人梁文峰就是湛江人。所以，湛江对DeepSeek特别重视。去年年初，DeepSeek-R1发布后，湛江很快就用了。它先在湛江政务系统里跑起来。这个模型挺厉害的。它能处理很多政府事务。而且，它还能学湛江本地的产业知识，能听懂湛江话。这样AI就有了**“湛江智慧”。这次云天励飞建的这个集群，会和DeepSeek这些国产模型**一起工作。这样，更多公司就能用上这些AI模型。

推理集群的工作原理

大模型在实际用的时候，也就是做推理时，有几个要求。要很多人能同时用，处理速度要快，反应时间也要短。这就像一个大型客服中心。要能接很多电话，处理问题要快，客户等待时间要短。为了做得更好，现在常用一种方法，叫**“Prefill–Decode分离”**。这是它的工作原理：

Prefill：你问一个很长的问题，或者给AI很多信息。AI会先理解这些信息。这步需要很多计算力。它也要很快地传输大量数据。
Decode：AI开始一个字一个字地回答你。这步要求反应特别快，不能卡顿。

设计这个系统，就是要把这两步的资源分好。比如，Prefill需要很多计算力，所以要给它足够的“马力”。Decode需要很快的反应，所以要保证它的“速度”。

而且，大模型处理信息时，会记住很多中间的数据。这些数据叫KV Cache。这就像人的短期记忆。如果上下文很长，KV Cache就会很多。业内普遍认为，以后推理系统的瓶颈，很可能不是计算力不够。而是访问这些KV Cache的速度太慢了。就像你的大脑，计算能力再强，如果记忆提取慢，也会影响思考。

所以，现在建AI基础设施，不光看计算力。它还要看：计算、存储、网络这三样怎么配合。这三样配合得好，AI系统才能跑得快。

湛江这次建的千卡推理集群，就是按这个思路做的。它用了云天励飞自己做的AI推理芯片。在系统架构上，它确定了技术路线：优先优化Prefill，兼顾Decode。这样设计芯片，就是为了让计算资源和存储带宽更适合这种工作。特别是处理长问题时，系统也能保持高效率。

在网络连接方面，这个系统用了统一的高速互联架构。它通过400G光网络连接集群的所有机器。这样机器之间就能快速、低延迟地通信。以前的系统，可能机器内部用一种网络，机器之间用另一种。这会增加转换的麻烦。湛江集群这种所有地方都用同一种高速网络的方法，简化了安装。

这个系统的部署能力也很好。它可以从小规模的几十张卡，扩展到上千张卡。这样就能适应不同大小的AI应用需求。

另外，大模型推理时，KV Cache访问会带来压力。这个系统也做了优化。它让计算网络和存储网络一起工作。这样能更快地读取数据。模型在处理长问题时，也能保持稳定性能。

通过这些优化，比如芯片设计、网络连接、系统调度，这个推理集群就有了优势。它不仅效率高，而且成本也低。这样，用AI的成本就下来了。更多公司就能用得起AI。

自研芯片，降低AI成本

我了解到，湛江这个AI推理集群会分三期建。用的都会是云天励飞自己研发的国产AI推理加速卡。

第一期会用云天励飞的X6000推理加速卡。
第二期和第三期会用他们公司最新一代的芯片产品。

根据公司规划，云天励飞未来三年会推出三代AI推理芯片产品。他们有明确的步骤：

第一步：推出Prefill芯片。这种芯片会专门优化长问题处理。它能提升计算效率和内存访问能力。这样，OpenClaw、各种AI代理就能用上这种基础算力。
第二步：研发Decode芯片。这种芯片会专注于降低延迟。它能让AI实时推理能力更强。也就是说，AI回答问题会更快，更流畅。
第三步：芯片和系统一起优化。目标是让Prefill和Decode的性能都达到最好。希望能实现毫秒级推理时延。这意味着AI的反应速度会像闪电一样快。

其中，第一款Prefill芯片叫DeepVerse100。预计今年内就会完成生产。而且，它计划先在湛江这个集群里部署。这是把最新科技成果，直接用在实际项目上。

而且，云天励飞还提出了一个**“1001计划”。它的长期目标是“百亿Token一分钱”**。这是什么意思呢？就是通过芯片和系统的优化，持续降低大模型的推理成本。这个目标很宏大。

过去几年，AI算力建设通常都是“堆算力”。谁的GPU多，谁的性能就高。这就像以前大家比赛谁的马车跑得快，就不断增加马的数量。但是现在不一样了。大模型已经能实际应用了。产业关注点从“算力峰值”转向了“单位成本效率”。

换句话说，未来AI产业竞争的关键，不光是模型有多聪明。更重要的是，谁能用更低的成本，提供稳定的大规模推理能力。这才是真本事。

湛江项目的落地，就是这个目标的重要实践。这个千卡级推理集群，不光能满足现在AI应用的需求。它也为以后建更大规模的算力系统打下了技术基础。

一个千卡集群，通常分好几个层级来扩展。比如：

先从一个节点8张卡、32张卡开始。
再到64张卡甚至上百张卡的超节点。
最后连接成跨节点的大规模集群。

通过这个大规模系统的实际运行，可以验证很多关键技术。比如：卡之间怎么连接，节点之间怎么通信，工作量怎么分配。这些经验对以后建更大的AI算力系统特别重要。

大模型现在已经能实际用于产业了。AI基础设施的发展思路也在变化。以前是单纯追求算力多。现在更注重效率和成本。

业内都说，推理算力是决定AI应用能否大规模落地的关键。谁能用更高效率、更低成本提供稳定的大规模推理能力，谁就能在AI新一轮竞争中占据优势。

这次湛江建这个AI推理千卡集群，对当地公司的数字化转型很有帮助。而且，它让国产模型和国产芯片能一起实际工作。这给它们一个真实的机会去合作发展。国产模型和国产芯片深度合作，AI基础设施就能从技术探索，走向大规模应用。这为人工智能产业的未来发展，打开了新空间。

# AI提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

湛江4.2亿AI项目：国产芯片+大模型，这次真要干什么？

别光看“小龙虾”了，Claude才是让我安心的AI

谷歌砸320亿买Wiz：AI时代，你的数据还“中立”吗？

相关文章

暂无评论