大模型时代的AI基础设施展望:AI创造万物,谁来供养AI?|甲子引力X

基础设施的重要性不言而喻。

2024年5月15日,由中国科技产业智库“甲子光年”主办、中关村东升科学城协办的“AI创生时代——2024甲子引力X科技产业新风向”大会在北京举办。

在当日下午举行的“AI创造万物,谁来供养AI”圆桌论坛上,北电数智战略与市场负责人杨震、青云科技副总裁沈鸥、潞晨科技副总裁梁爽、善思开悟COO余溢,与嘉宾主持人、达晨财智董事总经理张英杰一起,进行了精彩的讨论。

张英杰首先提到,AI算力基础设施面临适应快速技术变革的挑战。

达晨财智董事总经理张英杰

杨震对此强调了AI基础设施与IT时代的差异,提出硬件、软件和场域层面重新定义的重要性。他介绍了北京市数字经济算力中心的建设,强调其作为公共算力提供者的角色,以及算力层、调度层和行业赋能层的全面布局,和提供框架和工具链的重要性。

沈鸥分享了青云科技从云计算到AI算力的建设与运营经验,强调智算平台的可靠性和对性能需求的满足。他讨论了国产算力适配及平台生态建设的重要性:“我们希望能够在一个平台上同时去适配多家芯片和整个算力服务,让客户能够尽可能对整个底层的异构算力芯片是无感的。” 同时沈鸥强调了算力基础设施的运营挑战,包括成本控制和技术服务的提供。‍

青云科技副总裁沈鸥

梁爽提出,大模型从文本生成进化到图片和视频生成,模态不断变化,需要更加灵活的硬件架构和模块化的软件框架。她介绍了Colossal-AI系统,通过分布式系统优化和异构内存系统,优化资源使用,降低算力成本。未来的软硬件协同设计将显著提高能效比,减少大模型应用成本。

余溢提出了前瞻性部署、定制化配置和关注先进技术趋势的重要性,以及对机房建设的前瞻性规划。她介绍了善思开悟与中山大学合作建立的AI创新赋能联合实验室,可以助力于产学研转化和人才培养。

善思开悟COO余溢

针对AI算力投入产出比的担忧,各位嘉宾也为降本增效提出了建设性建议。沈鸥强调,企业应该选择合适的模型规模而非单纯追求“大”模型:“对于企业来讲,训练一个合适的模型或算法,对成本下降更显而易见。” 而在能源消耗层面,他对绿电在中国的普及非常有信心。同时沈鸥认为应该探索和开发基于可观测性及运行可靠性分析的新技术。

梁爽认为,可以通过Colossal-AI自研的异构内存系统可降低大模型对硬件的需求,通过Colossal-AI自研的ShardFormer技术能够支持模型在单机或大规模集群上进行高效的训练和推理,同时强调使用专用AI加速芯片提升能效比,并且讨论了软硬件协同设计针对模型结构对硬件做优化的可能。余溢强调了前瞻性规划和硬件技术的提升,并且提出共建共享算力池以降低成本和提高利用率。

杨震表示:“目前算力的使用方式较为粗犷,大模型训练存在算力冗余浪费。” 他提倡精细化运营以降低算力成本、提升算力利用率:“如果我们通过潮汐调度的方式,白天训练任务进行时,用不满的算力可以用在推理侧,而当夜晚推理的需求下降,闲置的算力就可以用在训练侧,以此能够有效把算力成本降下去。” 最后杨震强调,AI基础设施还应该扮演整个产业加速器的角色。

北电数智战略与市场负责人杨震

数据安全对于AI基础设施来说也是关键。沈鸥提到,金融行业等多个严肃行业的客户都有自建AI数据中心的需求,因为企业出于业务安全或隐私保护的考虑认为”数据不能出去”。他强调了数据保护规范的严格性,特别是大模型行业,因为“大模型的结果有不可预测性,需要额外的安全软件确保数据结果符合法规”。同时他指出隐私计算等技术在数据共享与模型训练中的潜力,以及行业内部规范与共识对行业算力中心建设的重要性。

杨震认为,中国的开源数据质量与国外存在很大差异,同时他强调了中国数据基建的优势:“中国作为基建狂魔,整体数据质量是很好的,只是处于‘数据烟囱’的状态。需要我们整个行业携起手来推动大模型应用上市之前的认证、应用的安全评测和统一认证的体系建设。”

展望未来AI行业的发展,梁爽的期待是:“现在AI大模型已经可以对话, 可以听见、可以看见, 我希望在今年它能够进化出自己的肢体,能够更好地与机器进行结合,无论是人形,还是自动驾驶中的汽车外形,我都希望看到大模型与机器结合更好的产品出现。”

潞晨科技副总裁梁爽

余溢认为,各个细分领域都会出现和AI相关的成功企业,并且她看到了AI出海的市场潜力。“我们处在AI萌芽的美好时代,我很有幸参与到行业里来。”

以下是本场圆桌的演讲实录,“甲子光年”整理删改:

张英杰:提到大模型AI算力基础设施是绕不开的话题。作为AI的投资人,今天很荣幸跟四位产业界的专家探讨AI基础设施。首先有请各位简单介绍一下自己。

杨震:谢谢。我是杨震,是北电数智战略与市场的负责人。北电数智是一家非常年轻的国企,成立至今正好9个多月的时间。我们聚焦AI基础设施,提供相对全面一体化的AI基础设施。

沈鸥:各位下午好,我是来自于青云科技的沈鸥,我在公司负责AI相关的产品服务、生态与解决方案。青云科技一直致力于云计算和云原生的技术软件的开发。这两年我们在AI算力领域,包括AI智算平台和服务这一块投入了大量的资源,我们也希望能够跟产业界一起合作,把中国的AI领域建立起来。

梁爽:hello,大家好,我是来自潞晨科技的梁爽, 我们公司主要是做AI大模型分布式开发基础设施Colossal-AI,另外我们最新推出了潞晨云,是一个所有人可以低价、便捷获得高端算力的平台,之后会推出用我们自己用AI模型做的提升生产力工具,希望解放AI生产力,谢谢大家。

余溢:大家好,我是余溢,是善思开悟的COO。善思开悟是一个HPC加AI的一站式算力解决方案提供商。我们有自自持加代运营的算力资源池, 有先进的组网团队,也有比较灵活调度的平台, 很高兴来到现场,也欢迎大家后续合作,谢谢大家。

1.AI快速迭代,算力供给如何适应新挑战?

张英杰:感谢各位嘉宾的介绍,第一个想跟各位嘉宾讨论话题,是进入大模型时代以后,技术产品的发展其实太快了。从今年年初Sora到后面Llama,还有Figure,到最近集中又发布了GPT-4o,还有昨天Google的一系列产品等等,我们作为投资人都觉得天天都在学习的成本越来越高了。所以想请教各位,我们站在算力的基础设施层,如何去适应快速变化的行业的技术和产品?

杨震:人工智能是一个全新的领域,无论是国内也好,国外也好,即便有些许差距,但是大家都没有看到终局长成什么样子,所以大家也都在摸索过程中。但是有一些东西相对是确定的,首先基础设施和我们IT时代的基础设施相比,定义以及功效完全不一样了,这很关键。智算中心或IDC也好,它肯定不是一个卡或者芯片堆叠的算力仓库,那如何去超越?我觉得从硬件物理层面,到软件的层面,甚或到场域的层面,其实都要有重新的打法和定义。

我们现在正在酒仙桥地区建北京市数字经济算力中心,听到名字大家就知道,它其实是第一个对公共提供算力的计算中心,因为我们自己确实没有去造车轮,没有做大模型,所以它真正是对外提供智算力。大家可能一想到智算中心都是堆满机柜、堆满服务器、各种GPU,但是我们在一层8000平米的空间里,我们开放出来做联合实验室、做路演空间等等。我们也是希望能够让产业充分聚集,想象充分打开,让我们的人工智能企业能够去展示自己的成果,同时也希望人工智能企业相互有非常好的无障碍交流的空间。

它是AI工厂的一个物理层面,但是刚才商汤的同行也提到了说人工智能时代三大要素。如果我们去看算力的话,我们首先在算力层尽量纳管多元的芯片,除了英伟达的以外,还有咱们国产的芯片。 就像今年3月GTC说的,那我们其实也在做同样的事情,把不同的芯片放在一起,也形成一个 巨大的GPU,那么对外提供的是无体感的,无差异的算力。我们在数据要素也是充分聚集的,不同于公共开放的数据空间,我们其实在打造可信数据空间,也是为了让数据能够用起来,用起来的话模型才能训好,应用才能跑好。

我们也希望能够让行业更加全面的赋能,所以我们在上个月刚刚揭榜挂帅了北京某委办局的政务大模型,我们也在攻坚医疗大模型等等。从算力层、调度层,到行业的赋能层,我们都在去做布局。我们提供相应的框架和工具链,才真正成为AI工厂或者AI工坊的概念和作用。

张英杰:确实进入了大模型时代后,基础设施层有新的商业模式,新的框架也完全涌现出来了。下面有请沈总。青云是混合云的第一股,也完整穿越了整个周期,我也看了青云的财报,现在智算云是公司的大力发展板块,也是增长最快的业务,所以请沈总就除了刚才的问题,也分享一下快速发展的经验。

沈鸥:青云过去在云计算领域有差不多十年的经历,让我们积累了很多的经验, 包括技术和运营两个层面。对于算力建设,其实对于比较大规模的算力平台来讲,跟传统的CPU为主的云计算环境相比,可靠性会下降很多。

CPU时代或者通用算力时代,10GB、25GB甚至100GB就够了。但是现在我们要200GB、400GB,甚至更高,存储也是一样,所以我们看到所有东西都会要更快更高的性能。这时候系统的建设, 网络的建设包括整个系统的可靠性运营,当客户在上面跑一个模型的时候,怎么样很快速地帮客户去做Checkpoint机制?出现问题的时候,如何确定故障的定位乃至恢复,其实对于整个平台的运行来讲都很关键。AI计算平台都是很贵的,如果中断时间长,成本是很高的。

所以我们第一,在整个平台建设层面,要帮客户解决这些问题。解决这些问题其实是延续的青云在过去十余年在整个IT技术架构上的管理能力的延展。从计算、存储到网络,其实都是有延续性的。

第二点我们会看到,对于今天的算力来讲,不仅是英伟达一家企业,当然英伟达的芯片目前是最好的,但是我们很多客户其实也谈到了国产算力的要求。对于国产算力的适配也是我们非常重要的一任务,我们希望能够在一个平台上同时去适配多家芯片和整个算力服务,让客户能够尽可能对整个底层的异构算力芯片是无感的。这样后续不管是应用开发,还是说推理服务以及内部应用形成AI应用的时候,能够成为非常大一块整体运营。

第三个部分,怎么样能够让整个平台能够运营起来,因为政府或者其他企业会说,我们投了很多在算力平台,运营怎么做呢?青云是一家相对小的公司,我们会更加专注在整个生态的建设上面。比如说在整个模型的优化加速上面,我们可能会跟其他公司合作,包括AI大模型上面,我们也会去选择跟多个不同厂商合作,我们希望能够在我们平台上去适配多家的平台和系统的那个能力。我们通过这样一层设备,我们自己提供的粘合能力,能够给客户更加自由的选择,让客户按照自己的业务要求,比如说小模型还是大模型,或者是组合模型的生态,去完成它整个AI应用建设。

张英杰:感谢沈总的分享。十多年的积累,从运营到落地,确实有不一样的见解。下面请梁总。

梁爽:我认为现在的大模型从最初的文本发展到图片生成,再到视频生成,其模态一直在进化。要适应模型的变化,就需要硬件具有更多样、灵活的架构;需要构建模块化和可扩展的硬件与软件框架。目前的通用计算平台,如GPU,虽然能进行复杂的矩阵计算,但并未针对Transformer等架构模型的自注意力部分计算进行优化。导致大模型在训练时,GPU利用率并不高,造成算力资源浪费。未来为应对模型的进一步进化,除了考虑通用计算平台,我们还应关注专用的AI加速器芯片,针对模型结构设计更通用的架构组件,如ASIC或FPGA以及关注能够提升模型计算效率的软件框架以提高能效比。

张英杰:好的,梁总,您认为未来异构,包括你们的Colossal-AI系统在内的发展趋势会如何?

梁爽:我们的Colossal-AI系统目前是对大模型进行分布式优化,并行策略是分布式训练中的核心,目的是在多个计算节点上同时执行训练任务以减少训练所需时间。未来若有更专用的针对模型结构的计算芯片出现,对我们来说是好事,我们可以更好地利用这些专用计算芯片,结合到我们的系统中,软硬协调优化,减少模型计算时间和硬件资源需求,最终降低AI大模型的开发应用成本。

张英杰:谢谢。

余溢:我就简短说几点。我认为我们现在可以做的有三点:前瞻性部署、定制化配置、关注大模型或应用端的先进技术或趋势。首先,前瞻性部署上,目前整个IDC可能还是以低功率机架为主,但有了大模型、大参数后,硬件也需要革新。我们的IDC变成了AIDC,需要从低功率改为高功率。未来可能没有机架,而是一个大机器放在地面上。所以对于机房建设,需要有前瞻性和想象力。

第二是选型,包括GPU选型和组网配置。整个硬件搭配需要考虑未来空间的灵活性和扩容性,针对客户需求合理选择不同型号。因为不同客户对基础设施的需求不同,我是要用裸金属还是要用云平台?我用云平台用什么样的方式?我们需要针对他们的需求,包括国产化、推理、训练等,进行硬件搭建和组网配置。

第三,技术革新快,行业发展迅速。我们作为基建提供者,需要保持敏锐触觉,我们要知道现在可能大家要去哪挖金子。这是我觉得的三点。

张英杰:非常感谢余总的精彩分享。上午的报告中提到,你们和中山大学有联合实验室的合作,也想请余总分享一下。

余溢:我们与中山大学建立了AI创新赋能联合实验室。初衷是赋能,参与AI行业发展。首先,通过联合实验室进行技术算法或研究层面合作,包括软硬件适配、算法调优。实验室有很多专家,他们传统是在做超算领域,超算领域就是典型的做万卡集群大机器。能为行业发展带来赋能。

其次,通过联合实验室建设智算中心,符合国家东数西算方针。从基础设施搭建的角度看,东部会做推理集群,西部做训练集群,由于西部有更多的能耗,利用西部清洁能源部署大集群。实验室也能赋能大集群部署。

第三,创新赋能AI实验室能带来产学研转化。AI是新行业,高校科研成果转化市场成果有困难。我们希望实验室能连接科研能力与市场需求,孵化商业结果。

联合实验室还有一个目标,通过高校科研能力,企业使用人才,为AI行业持续培养优秀人才。

2.如何看待未来AI算力的投入产出比

张英杰:除了大模型带来的商业模式变化,未来教育,从程序员到学生,也是重新颠覆的过程。AI算力的两个关键点是成本和能耗。想请教各位嘉宾,如何看待未来AI算力的投入产出比,以及相关的优化或新趋势。

沈鸥:如果客户要进行训练,需要千卡甚至更大的集群,投资上亿,确实是很大的成本。如何提升效率或降低长期运营成本?首先是能耗,我们与西南地区数据中心合作,利用绿电降低电本成本,其实绿电在中国非常普及。在多个数据中心,绿电的比例可能都超过了90% ,那么这时候电本身成本就会大幅下降。这可能是中美之间比较大的差异,因为中国在新能源上的投入一直非常大。

其次是选择合适的模型规模,而非一味追求大模型。对于一家要去做创业公司或者是科研公司的企业来讲,它到底需要多大规模模型, 是6B还是70B的模型?训练一个合适的模型或算法,可能对成本下降更显而易见。

还有平台的稳定运行和利用率,通过技术提升,如快速数据Checkpoint和恢复,提高利用率,降低运行成本。我们看到字节跳动发过一篇论文谈万卡集群,其实就算他们花了很多时间去建万卡集群后,它的有效率可能也只能到60%左右。面对需要大量计算资源支持的分布式任务,如何实现数据检查点的快速建立与恢复(毫秒级)成为关键。这要求可观测性技术发生根本性变革,传统IT技术难以满足如此高时效性需求,促使我们必须探索和开发基于可观测性和运行可靠性分析的新技术,以此提升平台效率和任务完成质量,进而降低运行成本。

张英杰:沈总提到新技术,如芯片层面的突破。您认为未来这两者是并行的,还是需要等待技术发展?

沈鸥:国内已有新技术出现,不仅是算法层面,还有物理层面。我们与研究所合作,研究光学能力,实现定向算法,提高效能和利用率。通用领域,关键是客户需求,包括存储和网络层面,都有新技术在研发。我个人相信,新技术其实是能够对既有的AI效能是会带来一定的颠覆的。这里颠覆其实是纵观我们讲是整个AI的基础价格等多个方面。

张英杰:感谢沈总。请杨总。

杨震:追加几个观点。目前算力使用相对粗犷,大模型训练存在算力冗余浪费,某些参数你只吃到了30%,这种算力的冗余浪费是蛮可惜的。大家如果想象说用电的情况,很多人如果说是财大气粗的,就用核电,钱包浅一点的,就用火电,再浅一点用水电。实际上如果我们站在未来看现在的话,其实现在已经有非常多的技术(能够解决这样的问题)。

刚才提到说我把不同的GPU放在一起变成一个大的虚拟的GPU,某种层面我们是可以做精细化运营的,即便我同时在跑训练和推理,我也不一定非要用独占性的方式来完成。我们同样用电的方式来看的话,其实推理的需求大部分发生在白天,夜晚相对较少,那其实这样的话,如果我们通过潮汐调度的方式的话,白天吃训练时候吃不满的算力,我可以用在推理测, 那么晚上推理的需求降下去的时候,算力还可以反哺训练侧。可见,精细化运营是可以把算力成本降下去的第一个点。 

另外我们用算力究竟是用在什么场景里,可能就是一个渲染任务,有固定的一个吞吐量,就要一定的参数量。最理想的是我有一个任务,我要什么样的时间完成,什么质量,什么样吞吐量,给到我一个价格合理的算力包,这是最合理的。以前我们用手机,为了保持我的号,每个月要交一个在网费,那现在算力如果还按分时租用,其实还是在支付在网费的概念,它并不是一个按需求使用或者是按效果计费的方式。这是我们一直在努力改变的部分。

另外一点,我们聊 AI 基础设施,说白了我们现在选择太少,我觉得AI基础设施它还应该还扮演整个产业加速器的一个角色。那如何让芯片产业能够加速起来?除了我们在做的很多适配工作,从另外一个角度,短期你要看商业,长期要看技术。 那短期看商业,其实就不仅仅是适配评测,而且我要把它打到原子级。精细化运营不是一个商业场景,更多的要看它的原子级场景。在这些原子级场景里,我们现有的这些,尤其是国产的算力,它的表现如何?那我们先把商业道路跑通,之后真正以场景级评测,以评促用,让它先用起来。

不然即便是模型厂商,我们也知道今年第一季度Infection AI直接被变相收购了。当你不能商业闭环的时候,融再多的资,最后还是后继乏力。所以回到如何把成本降下去,其实我觉得是有(以上)两条路可以走的。

张英杰:您的观点和沈总其实基本是类似的,只是不同的角度来讲,因为这确实我们之前内部做技术探讨也在说调度问题,其实您说什么按量计费、按时计费,好像大家都在做尝试,但可能真实的情况还是独占为主,你觉得原因或者说未来或者是技术上有什么瓶颈吗?还是商业的考虑。

杨震:首先就是这种多元异构芯片的混推混训是中国的特殊需求。芯片当下的状况,中国和国外基本就是两个市场,前面没道路可以跟着走。第二点,芯片厂方面,国内是一强多弱的状况,每家芯片有自己的好一点的地方,有差一点的地方,再加上算子库也不一样,通讯协议也不一样,再加上当下主流还有非常多的训练场景等等,就更无法把它投入使用。

但是我觉得算力中心是有机会站出来扮演角色的。那比如我们算子库的补齐、统一的通信,以及通过算法去对矮胖矩阵做一些优化,去对气泡时间做压缩。整体通过软件定义硬件,可以先把一些指标拉起来,短期内以高带低的方式,头部算力带着国产算力一起跑,那未来逐步可以形成国产算力互相互补的状态,是指日可待的。

而且我觉得人工智能之所以大家觉得它是一个确定性因素,最核心的一个点,我认为是它的发展速度特别快。因为如果回头看自动驾驶的话,发展了十五六年才真真正正做到说自动驾驶为主,人为辅,但是人工智能是爆发式的,我相信在年内会有非常好的成果以及实际的商业使用出现。

张英杰:有请梁总,可能你们平时也做了很多这方面的工作。

梁爽:我可以讲个数据,GPT 3模型有1750亿参数(FP16 格式大小约为350GB),首先节约成本可以从存储方面来说,350G的内存需求如果使用GPU 的显存进行存储,价格是非常高昂的。那通过我们Colossal-AI自研的异构内存系统可以降低这部分成本。如果GPU价格高昂的显存放不下这些数据,我们就把部分数据迁移到CPU内存、 NVMe硬盘里,综合优化管理GPU、CPU、NVMe硬盘空间和数据移动,打破资源墙的限制,实现在有限资源上容纳更大的AI模型。

第二是计算效率的优化提升。我们在计算过程中用通用的GPU计算平台去做,它没有对于Transformer模型的自注意力计算这个存在大量并行空间的结构做一个针对性的优化,所以导致了它的GPU的利用率并不是很高,导致了大量的计算资源其实是在等待、空置,那我们自研的Colossal-AI的ShardFormer技术就可以通过组合多种的并行策略,比如Zero数据并行、序列并行、张量并行、模型并行和流水线并行等多种的并行策略组合方式去提升GPU的使用率, 让相同的模型它训练或者推理时所需要的硬件资源大大降低, 所需要的时间也大大降低,最终降低AI大模型的成本。

最后,除了使用GPU之外,我刚才提到可以通过软硬件协同设计的方式去针对模型的结构做 专用的AI加速芯片。针对模型的结构去设计的芯片,能够高效处理稀疏数据和不规则计算以及可以减少数据搬运和计算延迟,更好地针对模型在使用过程中去减少它的内存需求,减少它的通信次数,从而去真正的提高能效比, 去降低AI大模型应用的时候所需要的成本。  这是我觉得是未来很重要的一个发展方向。

张英杰:好的,谢谢梁总,余总请。

余溢:我觉得首先大家做前瞻性的规划,从选型到包括硬件本身的专用芯片的技术提升,这些都是可以提去降低我们整个运营成本的方向。是从投产开始,包括机房各种我都不说了。

第二块我觉得是运营本身又分了软件跟硬件两个大的部分,硬件部分可能更多的还是从我们能耗的角度去考虑,去做东数西算,去找能耗便宜的地方,去提升整个AID seed PUE的降低PUE的值,就是通过这样的一系列的手段去。做软件层面可能更多的还是从提升GPU的利用率,提升算法的效率,做更好的软硬件适配,去降低运营的成本。

第三点还有运营的本身模式,比如说我们其实是可以采取很多,包括跟企业之间共建,包括跟地方政府和一些机构去做共享算力池,大家一起来共摊风险,降低成本、提高利用率,去做共享算力池等等一系列的方式。我觉得也是从模式上,从商业模式、运营模式上的创新,也能够提升利用率,降低成本。

3.基础设施的数据安全

张英杰:下一个想跟各位嘉宾讨论的问题就还是跟数据安全有关,因为去年10月六部委发布了基础设施高质量发展计划,里面特别提到对整个大模型的这种安全有很多新的规定和展望,很多大公司都在疯狂的自建基础设施,他其实也有自身的安全考虑,不希望把自己的模型或者是很多自己的算法放在别人的基础上,所以这里想听听各位专家的一些看法,还是从杨总开始吧。

杨震:我觉得安全分两块,就刚才其实刚开篇的时候提到一点,就是一个数据安全,我觉得这点蛮重要的,这也是刚才提到大模型能不能训好,或应用端能不能发展起来的一个核心点。那中国和国外有一个挺明显的区别,就是中国的开源数据质量其实确实不如国外,但是并不代表中国整体的数据质量不好,整体的数据质量其实是相当好的,因为我们是基建狂魔,我们的数字基建,IT化,以及我们的场景其实蛮多的,包括电商支付等等这些方面。其实我们有非常多高质量数据,但是它现在是数据烟囱的状况。

第一个原因可能是我们国家确实有近乎全世界最严厉的数据安全法。另外一个层面就是无论是政府端还是企业端,其实(数据能力)也有一点点良莠不齐,有些可能自己数据治理还没有做好,那就更不要想到说我数据如何能变现。那也有说治理还可以,但是确实不敢把数据放出去,因为缺乏一系列保护的手段,让它能够在可信、可靠、可监测,包括可审计的环境里来做。可信可靠,更多的是偏隐私计算方面,可审计又涉及区块链的技术。

很多大装置是一个科研机构用完,另外一个科研机构用,但如果大家有一个可信数据空间,能够互相踩着肩膀去思考这件事的话,那其实整个产业发展都会很快,这又涉及到联邦的计算的问题。我们认为基础设施某种层面,它作为物理空间或者存储空间的话,它在这方面的责任是不可推卸的,所以这也是我们在这方面其实也在着力去攻坚,去发展的一个原因。

而另外一个层面就再回到大模型安全或者是AI安全的部分,如果我们确保了数据来源,可能它的幻觉就会减少很多。但它和国家相应的一些法律法规相关,去年欧洲正式推了人工智能的法律。美国它更多的是自愿注册,如果是敏感行业做认证,比如和医药相关的,你要过FDA。那我们国家目前相关管理办法,2022年已经开始起草。

在这样一个前提下,如何能够做一个体系化的东西,能够去做大模型上市之前的认证,包括一些AI应用的安全评测和认证,真的是要整个行业携起手来去把这套体系做起来,而且它不是说单一一方能完成的事情,因为它也可能还会涉及到很多伦理层面的东西,它需要和法律、和伦理去对齐,就又涉及到学术界的东西,是要举行业一起来做的。

沈鸥:青云科技其实在过去几年做了很多金融的客户,其实不止金融行业,多个行业我们的客户都喜欢自己建AI数据中心和AIDC,投资都很大,为什么呢?可能 100%回答我的数据不能出去,如果我今天要出去的话,你要在这公共算力服务上给我建独立的算力专区,我才能够把数据给出去。反过来他也会问,你的数据怎么保证不被泄露。

所以在过去的半年当中,我其实被很多客户问到这样的话题,一个解决方案是说行业的主管机构,管理的单位,他们会自己建议去建一些行业的算力中心,而且特别是在金融单位,已经开始了多个单位都开始说我们分工协作,把可能有的专门负责AI的算力平台,有的负责行业模型的开发,有的负责模型市场的开发,大家各自分工,因为这件事情本身的投入很大,大家就会把事情分工在不同的行业的多个单位里一起去完成。通过行业内部的一些规范或者制度,或者大家彼此的认可度,能够去做这样共用的AI的算力的基础设施。这是第一。

第二其实在中国我大家也看到,其实在政府行业对于数据的保护本身已经有很严格的规范,包括怎么样用一些算法来做数据的共享或者是共同的训练。但是我觉得其实真正要去落地说在AI的领域里边怎么去用,至少我看到的还比较少,或者说基本上还没有,我认为是需要探索的领域,因为毕竟数据量那么大的情况下,怎么样能够更高效、更低成本的能够实现数据的对外分享,以及训练层面上能够保证数据安全,还是很重要的。像隐私计算已经做了一部分,包括其实在国内已经有很多的单位已经建立了隐私计算这样的平台,但是我觉得还只是很初期的阶段。

第三。我觉得大模型它最后的结果还是有不可预测性的,那么特别对于一些严肃单位来讲,其实是不愿意把东西放出去的,因为会有责任的问题,所以这时候还是需要有一些额外的安全软件。青云科技也跟一些专业的安全公司在做大模型的安全实现,就是说确保你分析出来的数据,我再去做一层评判,你的数据结果是符合法规的。我们现在也看到中国信通院在做很多AI大模型方面的、统一的算力调度方面的一些规范。通过这样的规范和体制,我认为是能够一定程度上提升整个算力的安全性的。

4.面向未来

张英杰:大模型面临的数据安全问题,在以前云计算时代其实都有。那可能现在大模型时代数据量更大,会促使我们更快地把这一套东西都落地。最后也请各位嘉宾就用简单的一两句话对未来我们基础设施的发展做一个趋势的预测。

杨震:我希望未来的AI基础设施,它肯定是我们整个产业的一个加速器,其实我认为它还应该是一个孵化器,除了刚才我们提到的可信数据空间,安全、可信的认证等等这些方面,北电数智也通过一些资本的方式,甚或是算力投资的方式,让整个产业尤其应用端快速发展起来,应用端发展起来,其实对整个产业链条整体都是好的,所以也是AI 产业的一个孵化器。

沈鸥:如果从一个产业的角度来看,我个人认为AI可能刚刚是一个萌芽,可能是今后5到10年, 是一个还有很长很长的发展空间和时间。AI基础设施,可能今天大家包括前面的嘉宾也说是集中式的,都是要到大装置、到集中,但是我认为从集中到分布,其实在将来各种形态都会有。所以前段时间大家看到说我们手机上要跑模型,包括苹果也要把OpenAI放到手机端,所以将来我认为是一个非常纷繁复杂的混合环境,那么在环境里面怎么样能够对所需要的算力进行合理的调度,能够去满足企业各种应用场景要求?我认为才是刚需。

梁爽:现在AI的大模型它已经可以对话、可以听见、可以看见,我希望在今年它能够进化出自己的肢体,能够更好地与机器进行结合,无论是拥有人形机器人的肢体或是像自动驾驶里面,它拥有一个像汽车一样的外体。无论是何种方式的一个机械的外在,我希望能够尽快看到大模型与机器结合更好的一些产品出现。谢谢。

余溢:首先我觉得AI现在是在一个萌芽期,在各个细分领域,各个千行百业都会出现xAI相关的一个成功企业,或者很多个就跟当年互联网这刚刚萌芽的时候是一样的。我觉得它不是某一个行业,它就是未来的所有行业。第二个我比较看好说未来AI还是作为基础设施还是要去提供算力的,那算力可能很大程度上是依赖能源,依赖电力,那基础设施可能在一定程度上也会是一个电力的比拼,能源的比拼。第三我个人比较看好AI出海的这一块的发展,第一有一个时光机,第二个就是海外的整个生态环境,包括数据质量各方面还是有一些优势,这一个市场是我认为后续会有比较大的潜力去突破。

我自己还是很看好AI,第二我觉得我们会处在一个AI萌芽的很美好的时代,所以我觉得应该是很有幸现在去参与到行业里面去,这是我个人的感受。

张英杰:作为AI的投资人,我跟你们一样也感到很兴奋,感到很幸运的身处于AI时代。我们做投资的肯定还是要和做产业的一样,保持乐观才行,也希望我们能一起迎接AI更好的未来,谢谢大家。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论