王小川:OpenAI正尝试把1000万颗GPU连在一起|深网

深网腾讯新闻2023-12-07

来源视觉中国

作者丨叶蓁  编辑丨康晓

出品丨深网·腾讯新闻小满工作室

欢迎下载腾讯新闻APP,阅读更多优质资讯

AGI大模型,无疑是2023年最炙手可热的风口。自2016年开启人工智能元年,AI产业已经历好几轮洗牌,借着ChatGPT的东风,通用人工智能大模型创业再次被置于聚光灯下。

“这个时代跟淘金时代很像。如果你那个时候去加州淘金,一大堆人会死掉,但是卖勺子、卖铲子的人永远可以赚钱。大模型是平台型机会;以模型为先的平台,将比以信息为先的平台体量更大。”奇绩创坛创始人陆奇表示。

工信部等机构发布的报告显示,中国AI大模型专利申请总数已突破4万件。仅上半年,国内已有70多家大模型创业公司,而在技术、算力和融资能力等多方面比拼中,大模型创业公司的洗牌正在加速。

AI大模型对中国创业者来说意味着什么?中国大模型未来技术突破和核心竞争力会在哪些方面?在2023年腾讯ConTech大会上,长江商学院教授、数字化转型中心主任孙天澍,与百川智能创始人、CEO王小川,复旦大学计算机科学技术学院教授、Moss系统负责人邱锡鹏就此展开对话。

王小川给出了自己的答案,“理想上慢一步,落地上快三步。”王小川认为,与ChatGPT相比,从信仰层面、资源层面我们还有差距,但是到业务层面,大模型和应用的结合我们确实强很多,像淘宝、微信,包括抖音,中国互联网的产品体验是远远优于美国的。

私人助手和娱乐产业,是王小川所见的未来最大的商业应用机会。

邱锡鹏则表示,赶超ChatGPT要结合当前我国具体的实际情况,比如靠产业的带动,从中产生的需求,再把它转化到技术研究上。“我们技术研究的问题,要由真实的需求凝练出来,所以产学研合作在下一步变得非常重要。”

以下是孙天澍与王小川、邱锡鹏对话实录,经《深网》编辑整理:

“中国大模型的应用会跑得更快”

孙天澍:相比美国,我们大模型技术研究,还在学习还在突破。在产品应用领域,中国的公司基于自己上一代的互联网经验,产品经验,以及基于中国大的消费市场,在产品应用能不能做到全球领先?

王小川:我今年提了一个概念,理想上慢半步,落地上快一步。就是觉得我们中国的机会,不是技术科研上跑得更快,但应用是我们能跑得更快的地方。

我6月份去了一趟美国,跟OpenAI和其他做大模型的同行做了很多交流,回来之后这个话改了,从“理想上慢半步,落地上快一步”,变成了“理想上慢一步,落地上快三步”。

OpenAI在技术积累和投入、场景布局上与我们是有很大的差距,OpenAI到现在已经干了7年了,我们才一年的时间,它还有百亿美金投进去,持续发展它的核心技术。我跟他们聊的时候,我说你们现在还做什么研究吗?他说我们现在正在尝试把1000万颗GPU连在一起训练一个大规模的模型。

什么概念呢?英伟达一年大概生产100万颗GPU,训练GPT4要2.5万颗,GPT3.5国内对标4000颗,我们现在做4000颗对标的事情,他们是在研究如何用1000万颗GPU做这个工作,从资源层面我们是远远不够的。

但是到业务层面我们确实强很多,像我们的淘宝、微信,包括抖音,中国互联网的产品体验是远远优于美国的。

我们培养了大量的产品经理,因此这种情况下,我认为我们是有巨大的经验和优势的。要把它发展起来,有两个难点需要解决,一个是你要有模型,模型差一些可能就落后一些,所以我们得用更多的聪明才智去弥补,甚至做模型公司跟应用公司要结合,用开源和端到端的模式解决。

国外模型技术强的公司并不代表它擅长做应用,这是第一件事情,模型跟应用的能力合作。

第二,产品经理也会有一些相对的转型和提升。以前产品经理叫PM,怎么能够定义好产品是符合市场需求的。以前遇到难题的时候,我们默认技术不是瓶颈,比如做微信,虽然大家对技术有要求,但是这个是能实现能达到的,更多是工程效率和稳定性的问题。今天是一种算法带来的产品,这对产品经理而言,他懂得什么样的产品今天技术是够用的,甚至走一步还能够引领技术的发展。我对技术的评测,我的测试集是什么,怎么评价好不好,怎么让算法工程师跟上这个步伐。   

因此,这个时代的产品经理要对技术有判断和评价,解决这两个问题,中国的应用就能走在美国的前面。

孙天澍:从基础研究的角度,第一,AI大模型的基础研究怎么往更有效率的方式走,小模型、小数据,这是从平民化角度。第二个维度更加拉开,计算机的研究、人工智能的研究,大模型对于整个自然科学领域的研究带来哪些冲击和变化?

邱锡鹏 :我们离OpenAI算力的差距太大,我感觉对OpenAI能保持紧密的跟随。一方面能够锻炼我们的技术,另一方面保持不掉队,培养人才,能够达到非常好的效果。

但是具体赶超,还是要结合当前我国具体的实际情况,比如靠产业的带动,从中产生的需求,再把它转化到技术研究上。我们技术研究的问题,要由真实的需求凝练出来,所以产学研合作在下一步变得非常重要。

另外一方面,不管是AI本身研究还是给整个科学研究带来的冲击,有可能它的范式会发生变化。AI for  Science,它依然还是传统的AI的模式,靠大数据,人去标大量的数据,去训练一个模型。这个模型可能是专用的,给结构预测来使用,不能干其他的事,只能干这个事。现在的大模型或者以大语言模型为中心的新一代通用AI技术,是先用语言来打底,构造一个非常完整的系列知识。很容易把人的各种经验通过语言作为载体附加到模型中。

在非常多的科学研究应用上,模式和形态可能跟以前不一样。未来会更加侧重科研发现,类似于科研探索,或者主动让他得到一些新的结论。这是之前AI for Science技术没法完成的。

“平民化与两大商业机会” 

孙天澍:大模型在消费互联网C端的产品形态和商业机会有哪些?到底是互联网大厂的机会,还是新一代创业公司的机会?

王小川:我先从第二个事情说起,大厂还是创业公司的机会?今天我觉得大模型来了以后,不管是大厂还是创业公司,都已经很狂热的研究相关技术。我的看法是大厂至少在现有的产品迭代升级里面有挺多空间,人员密集型的地方可以用大模型来做替代,也能够升级自己的产品。

但是对创业公司而言,死亡率会更高,很有可能最大的创新突破是属于创新公司的。行业之前做大模型,有一个概念叫做大创新靠小厂、小创新靠大厂。所以今天大厂本身这样的一种体量也会有大模型,只要增加1%就是巨大的收益。但是最大的创新可能来自于创业公司。新的一波机会,我们的看法是从信息时代走向智能时代,一个大的时代,就像之前工业时代一样,会有新的公司起来,所以我仍然觉得空间蛮大的。

C端我想分成两部分,第一个概念出现类似人的助手,因为大模型到今天最大的变化,它不是一个工具。它是我们的伙伴,它自己开始会说话,跟人进行沟通,会语言了,动物和人的区别就是掌握语言。大模型语言今天掌握的不比人差,还有世界知识。因此,它是能够陪伴我们的伙伴角色。所以很大的概念就是助手,能成为各种各样的助手,你的写作助手、问答助手,甚至变成私人老师、私人医生、私人律师,是拟人的角色。   

第二,娱乐行业有巨大的需求,构造虚拟的物理世界。我们知道人除了工作创造以外也需要休闲,大模型可以做情感陪伴,它不仅可以拟人,甚至可以拟出一个虚拟世界来。我管它叫太虚幻境,里面的故事情节,房屋空间构造,大模型都可以去虚幻。对于娱乐、游戏行业会有很大的变化。大语言模型能构建出世界观和世界中的自然、社会、文化逻辑,包括物理规则,都可以构造起来。

因此娱乐行业和助手,这是所见的C端里重大的两个方向。

孙天澍:未来开源模型在海外,在中国会不会收敛到一到两个模型?为开放生态进一步发展,大模型公司还需要做哪些准备?国内大模型公司需要在能力上做什么准备,能够达到像OpenAI和Agent智能体未来开放生态布局?

邱锡鹏 :大模型现在生态变得非常开放,这里有非常多的参与者。这里涉及到平民化的问题。平民化可能分成两个:一方面,因为大家都在围绕着某个开源,甚至不开源,像GPT也可以,围绕着一个比较大的生态圈,如果提供非常好的个性化、定制化能力的话,就是技术栈,因为参与者很多,积累凝练的也非常多。确实会降低很多研发成本。

但从另一个方面,类似算力成本和计算成本相对来讲还是比较高的,所以还是有一定的阻碍。现在有比较高能力的支持非常蓬勃的生态发展包括GPT个性化,包括所谓的各种工具的使用、任务规划等等,这些能力相对来讲还是需要比较大的模型。

这些大的模型计算成本还是比较高的。所以可能在目前来讲,特别是在国内,由于成本的原因还不能广泛地应用到每个人身上,让它变成每个人的助手。所以在将来,如何去进一步提高模型的效率?把大模型进一步压缩,甚至有一些新的架构出来,来降低它真正的计算成本,让每个人都能用得起,这才能达到真正的平民化。机会也是非常多。

小满工作室 | 腾讯新闻出品

本文版权归“腾讯新闻”所有,如需转载请在文后留言,经允许后方可转载。

第1114期

运营排版:豆子

点击“阅读原文”,查看腾讯新闻客户端相关独家文章

                                                                              你“在看”我吗?

免责声明:本文观点仅代表作者个人观点,不构成本平台的投资建议,本平台不对文章信息准确性、完整性和及时性做出任何保证,亦不对因使用或信赖文章信息引发的任何损失承担责任。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法