不造手机,造“粮食”:AI背后的这些“特殊工厂”

未分类2周前更新 jinlian
2 0

咱们都在看AI发展得飞快,是不是觉得它什么都能做?但是你想过没,AI变聪明,靠的是什么?其实,它跟我们人学习一样,需要“吃东西”。它吃的不是饭,是数据。而且,这些数据必须是好数据。现在,就有一种新的工厂,专门生产这种“好数据”,我们就叫它“数据工厂”。它不像老式工厂那样造汽车或者钢铁,它造的是AI最需要的“粮食”。

不造手机,造“粮食”:AI背后的这些“特殊工厂”

国内有工厂开始做“数据工厂”了

比如在天津,就有一个这样的地方。你进去看看,会发现它和普通工厂很不一样。这里没有机器轰鸣声,只看到一排排整齐的小隔间。每天,有大约五十万条高质量的数据从这里“生产”出来。这里其实是具身智能的超级数据工厂。

这家工厂的老板叫许晋诚。他介绍说,他们给特殊的手套装了差不多四千个触觉传感器。还造出了世界上最小的角度编码器。这个编码器能做什么?它可以在手指弯曲的时候,实时测到角度。这技术听起来挺玄乎,但是很有用。

这是它的工作原理:他们用能记录触觉和力度的特制手套,还有几十个摄像头。这样一来,他们生产的每条数据,不光有你看得到的画面信息,还有摸到的感觉、听到的声音、手移动的轨迹,好多好多信息。许晋诚说,有了这样的数据,机器人在学习的时候,就不只看得到动作,还能“感受”到细节。你想想,机器人能“感受”了,是不是离真人又近了一步?

那“数据工厂”到底是什么?

但是,天津这个工厂,只是冰山一角。现在的AI行业,有个大问题,就是高质量的数据太少了。这就好比做饭,菜谱再好,没有好的食材,也做不出好吃的菜。数据工厂,就是想来解决这个大问题的。

它不像老工厂那样,生产你能摸到的东西。它是专门“生产”和“加工”数据的。简单说,就是把那些乱七八糟、原始的数据,变成AI能直接拿来用、而且用起来效果很好的“高质量数据集”。

北京交通大学的张向宏教授打了个比方,我觉得很形象。他说,我们以前农业社会,干活效率不高,因为没有好的“基础设施”。比如,没有四通八达的路,没有稳定的水。到了工业社会,效率为什么高了?因为有了水厂、电厂这些基础设施。我们随时都能用上水和电。

现在,我们进入了数字智能时代,数据就是最重要的生产资料。它也需要像水厂、电厂那样,能大规模地供应。这个能大规模供应数据的地方,就是数据工厂

张向宏教授还提到一个实际情况:现在这些AI大模型,都遇到了数据问题。为什么呢?因为网上公开的数据,大家都能用,早被用得差不多了。而很多企业自己的数据,就是“私域数据”,又很难开发出来。所以,数据短缺的问题非常明显。

这个问题,导致了一个很奇怪的现象。有些企业,自己手里握着很多数据,但就是不用。他们“有数据不收集、收集了不储存、储存了不处理”。这些数据就这么闲置着。但是另一边,那些开发大模型的公司,又特别需要数据。他们只好自己从头开始干,自己收集、自己清理、自己标注。这就像“自己挖井自己喝水”,费钱又费时间。数据工厂,就是来打破这个僵局的。

数据工厂怎么工作?

咱们聊聊数据工厂具体是干嘛的。它其实分好几个步骤。

第一步:数据收集。
这就像盖房子先得备齐砖头水泥。数据工厂会从各种渠道收集数据。比如,它会用传感器去记录动作,像天津那个工厂一样。或者,它会从网上抓取大量公开的信息,但不是随便抓,是有目标地抓取。再或者,它会跟其他公司合作,获取他们手里的私有数据。收集的时候,他们会注意数据的多样性,比如文字、图片、视频、音频,甚至各种传感器读数,什么都要。

第二步:数据清洗。
收集来的数据,一般都是乱七八糟的。里面可能有很多错误,或者重复,或者根本没用的信息。这就需要“清洗”。你可以想象成把脏衣服洗干净。
这是它的工作原理:

  1. 去重: 把重复的数据删掉,只留一份。
  2. 纠错: 找出数据里的错误,比如错别字,或者数值录错了,然后改过来。
  3. 补齐: 有些数据可能不完整,缺失了一些信息。这时候就要想办法补上。
  4. 格式统一: 把不同格式的数据,变成同一种格式,方便AI读取。
    比如,你从网上抓了一堆新闻文章,有的标题是全角字符,有的是半角。清洗的时候就会把它们都统一成半角。这样,AI处理起来就快多了。

第三步:数据标注。
这是最关键的一步,也是数据工厂技术含量最高的地方。AI学习,需要你告诉它“这是什么”。这个“告诉”的过程,就是标注。
这是它的工作原理:

  1. 分类标注: 比如给图片分类。一张图片里有猫,你就告诉AI“这是猫”。有狗,就告诉“这是狗”。
  2. 目标检测: 在图片里画个框,框出具体的东西。比如,在一张街景图里,把车、行人都框出来。
  3. 语义分割: 更细致一些,把图片里的每个像素点都标出来,告诉AI哪个像素是草地,哪个是天空。
  4. 语音转写: 把录音里的说话内容,一句一句地变成文字。
  5. 文本情感标注: 一段文字是积极的,消极的,还是中立的?标注出来。
    这一步通常会用到很多人工操作,需要专业的人来做。比如,给一段机器人模仿人类动作的数据做标注,需要标注员理解这个动作的意图,以及每个细微的姿态变化。而且,标注质量的好坏,直接影响AI学习的效果。如果标注错了,AI就学错了。

第四步:数据质量检查和管理。
数据标注完了,不是直接给AI用。还要再检查一遍,确保质量过关。然后,这些处理好的高质量数据,会被存起来,方便以后查找和更新。这就像图书馆一样,把书分门别类放好,你想找哪本书,一下就能找到。

通过这几步,散乱的原始数据,就变成了AI可以直接拿来用的“高质量数据集”了。这样可以帮你更快完成AI模型的训练。

“数据工厂”可以怎么建?

我们国家要怎么建数据工厂呢?张向宏教授也提了,数据工厂有三种模式。

第一种是集中式。
这种模式,就是把所有数据都集中到一个地方来处理。从收集、汇聚到加工,都在一起。现在大部分做数据工厂的,百分之九十以上都用这种方法。
它的好处是,管理起来方便,效率也高。所有资源都在一个地方,容易协调。但是,它也有个大问题,就是数据安全。你想想,如果所有数据都堆在一个地方,一旦出问题,损失就大了。而且,很多企业不愿意把自己的核心数据都交给一个地方来处理。这就像你把所有鸡蛋都放一个篮子里。

第二种是半集中式。
这种模式,就是用一套通用的技术框架,但是针对不同的应用场景,可以搭建不同的平台。这比集中式要灵活一些。比如,你可以有一个通用的数据处理平台,但是针对医疗数据,建一个专门的医疗数据处理平台;针对金融数据,又建一个金融数据平台。
这样可以根据具体需求,更好地适配。比如处理医疗数据,可能需要更严格的隐私保护措施,而金融数据则需要更高的实时性。但是,它可能在整体上不如集中式那么统一高效。

第三种是分布式。
这种模式,听起来有点不一样,它没有一个实际的物理工厂。也就是说,你看不见一个地方,说“这就是分布式数据工厂”。但是,数据从收集、储存、计算、管理到使用,背后用到的技术,比如数据编织技术或者数据虚拟化技术,都是一样的。
这种模式,最大的优点是能实现“数据可用不可见”。这是什么意思呢?就是说,数据可以被AI使用,但是数据的所有者,却不需要把数据本身交出去。这解决了很多人对数据安全和控制权的担忧。
这是它的工作原理:你可以想象,数据就像被上了锁的箱子。数据工厂可以提供一把“钥匙”,让AI通过这把钥匙,在不打开箱子的情况下,就能知道箱子里有什么,甚至进行一些操作。数据本身还在数据主人手里。
我觉得,从长远来看,能实现“数据可用不可见”的分布式数据工厂,肯定是大趋势。它能真正让大家放心地把数据拿出来用。但是,短期内,这三种模式可能都会存在,大家根据自己的情况选择。

政策也来帮忙了

好消息是,我们国家也看到了数据的重要性。国家层面正在积极推动。就在2月7日,国家数据局、工信部、公安部、证监会这四个部门,一起发布了一份文件,叫《关于培育数据流通服务机构 加快推进数据要素市场化价值化的意见》。这份文件很重要,它第一次明确说,我们国家要培育三类数据流通服务机构

这三类机构是:数据交易所(中心)、数据流通服务平台企业、数据商。这些机构会做什么呢?《意见》里说得很清楚,它们要支持和人工智能企业合作。依托数据基础设施,来提供数据收集、数据治理、模型训练这些服务。

国务院发展研究中心的马源研究员说,现在AI公司都缺数据。所以,这些数据流通服务机构,就有了新的任务。它们要收集、整合不同行业、不同领域的数据资源。而且,要帮数据提供方和AI公司,快速找到彼此

你可以这样理解:

  1. 数据提供方: 比如一家电商公司,有很多用户的购买记录。
  2. AI公司: 比如一家做推荐系统的AI公司,需要大量的用户购买记录来训练模型。
  3. 数据流通服务机构: 它就像一个中介,把电商公司的数据,经过安全处理后,提供给AI公司。AI公司用这些数据来训练模型,但是电商公司的原始数据是不会泄露的。
    这样可以帮你更快地让数据发挥价值。

我看啊,数据工厂的未来,肯定不只是给AI提供数据那么简单。它以后会变成我们国家数据基础设施的核心部分。你看,从天津那个收集数据的智能手套,到我们想象中,全国数据打通的大网络,数据工厂正从一个有点像概念的东西,变成现实。它可能不像传统工厂那么吵,但是它“生产”出来的数据,会无声无息地,深刻地改变我们的生活。

© 版权声明

相关文章

暂无评论

暂无评论...