【智能时代】美国模型篇：谷歌与OpenAI两强引领AI大模型竞争，AGI等待开悟时刻_老虎社区_美港股上老虎

【智能时代】美国模型篇：谷歌与OpenAI两强引领AI大模型竞争，AGI等待开悟时刻

AI为核心的新一轮科技创新浪潮已至，AI将与互联网一样，带来新一轮范式革命，人类社会将进一步加速发展。我们精心准备，重磅推出【智能时代专题】，目前已规划85篇深度原创研报，将全方位梳理AI产业、技术、代表性公司等发展历史、现状、趋势，展望智能时代未来图景，挖掘投资机会。

智能时代专题：美国模型篇

免费版3,341字，预计阅读7分钟

完整版18,245字，欢迎付费解锁

一、2012年，深度学习革命与GPU算力革命，一起登上历史舞台，开启新一轮持续到现在的AI浪潮，并从学术界主导转为产业界主导，发展势头不仅没有丝毫减缓，反而一直在加速。

谷歌在AI领域布局多年，通过内生发展与外延收购，是智能时代重要开创者与先行者。2011年，谷歌率先布局深度学习领域并孵化Google Brain，开始涉足AI领域；2012年12月，以4,400万美元收购开启这轮深度学习革命的DNNresearch公司；2014年，以4亿英镑/5亿美元收购2010年成立的全球顶级AI研究机构DeepMind，在深度学习领域多年保持领先。

2012年6月，Google Brain公开谷歌猫项目研究成果，基于1.6万个CPU搭建神经网络，利用数百万份YouTube视频训练学习猫的关键特征，训练时间3天，识别准确率达到74.8%，对业界带来冲击。

2012年10月，深度学习三巨头之一、图灵奖得主Geoffrey Hinton，与两名学生Ilya Sutskever、Alex Krizhevsky组成团队，一起参加全球知名图片识别ImageNet竞赛，利用1,400万张图片、总计262千万亿次浮点运算，仅用2个英伟达Geforce GTX 580 GPU，训练时间7天，成功构建深度神经网络模型AlexNet，识别准确率达到80%，以压倒性优势取得冠军。

Ilya Sutskever表示，理论上，如果有足够大数据集与足够大神经网络，就会起作用；当时主要担忧在算力方面，不确定是否有足够算力训练足够大神经网络，直到Alex Krizhevsky编写出利用英伟达通用GPU并行计算架构CUDA非常快速训练卷积神经网络的算法，两人开始着手基于庞大的ImageNet数据集训练模型，AlexNet随之诞生。

作为对比，谷歌猫项目使用1.6万个CPU，AlexNet创新性使用具有高并行计算能力的2个英伟达GPU，在算力与算法上都取得突破性贡献，取得更优秀的成绩，在业界带来震撼性影响力，引来包括谷歌、微软、百度、DeepMind对Hinton团队组建DNNresearch公司的竞拍，最终是谷歌完成对DNNresearch公司的收购，对应Hinton三人团队人均估值1,467万美元，这也成为后续谷歌并购DeepMind的估值参考，深度学习革命由此正式开启，作为分水岭，以科技巨头为代表的产业界成为推动新一轮AI浪潮的标志性力量。

OpenAI为防止谷歌垄断AI领域而生，愿景是实现AGI。马斯克、Sam Altman、Greg Brockman、Ilya Sutskever、Peter Thiel等人，基于构建安全AI以造福人类的愿景，在谷歌收购DeepMind后，为避免谷歌在AI领域形成垄断，决定创建OpenAI。

2015年12月11日，OpenAI项目正式启动。OpenAI成立后，积极寻找路径，探索通过游戏、机器人等实现AGI，但效果一般，直到Transformer架构出现。

二、Transformer架构成为新一轮AI技术变革的起点，OpenAI坚信大力出奇迹，实现对谷歌与DeepMind的反超。OpenAI在大语言模型的成功，正是来自Ilya Sutskever坚信规模法则Scaling Laws，增加模型规模，将带来性能上提升。

2017年6月，谷歌发布论文《Attention is All you need》，首次提出Transformer架构，主要用于机器翻译任务。

OpenAI看到Transformer后如获至宝，直接导致大语言模型GPT-1面世。OpenAI联合创始人、首席科学家Ilya Sutskever，坚信规模法则Scaling Laws，更大规模神经网络，将带来更高性能，OpenAI继续扩大参数规模，推出GPT-2、GPT-3、GPT-3.5、GPT-4等系列惊人效果模型。

OpenAI联合创始人、首席科学家Ilya Sutskever表示，OpenAI在训练LSTM模型预测亚马逊评论过程中发现，当LSTM模型规模从500个LSTM细胞（是LSTM网络基本组成单元，协同工作控制信息流动与记忆更新），增至4,000个LSTM细胞时，其中一个神经元开始表示评论的情感，情感是语义属性，而非语法属性。

这是非常明确的证据，小的神经网络没有情感分析能力，但大的神经网络具有情感分析能力；OpenAI分析认为，在达到某个规模后，模型学习完所有关于语法知识，开始关注语义理解等其他东西。

Transformer有效解决长程依赖问题Long-Term Dependency，成为OpenAI研发GPT模型的起点。Ilya Sutskever表示，此前用于训练模型与语言序列的神经网络，如果序列越长，网络就越深，越难训练。但Transformer成功将深度与序列长度解耦，可用非常长的序列，得到可控深度的模型，这非常令人兴奋，直接导致GPT-1面世，后来OpenAI继续扩大参数规模，就得到GPT-2、GPT-3、GPT-4等系列模型。

Ilya Sutskever表示，确实认为随着模型不断变得更大、更好，就会解锁新的、前所未有的有价值应用。大模型会比小模型更好，但并非所有应用场景都需要使用高成本大模型，小模型将在不太有趣的应用领域占据一席之地。

虽然小模型在特定场景也能实现很好效果，但从大模型到小模型，丢失的是模型可靠性，而可靠性是模型真正广泛采用的最大瓶颈，从GPT-1~GPT-4，模型变得越来越可靠，越来越得到更广泛应用。

2020年1月，OpenAI团队发表论文《Scaling Laws for Neural Language Models》，提出规模法则Scaling Laws，大模型表现伴随模型参数量、数据集规模、计算量增长而增长，在运算量增加过程中，参数规模增加可起到更关键作用。在给定计算量，并且参数规模较小时，增大模型参数量对模型效果的贡献，远优于增加数据量与训练步数。

规模法则Scaling Laws，为后续推出的GPT-3、GPT-4等大模型奠定理论基础。

谷歌积极跟进OpenAI，发力大语言模型领域，双方激烈竞争，加速AI大模型发展。

三、OpenAI迎来ChatGPT时刻，成为AI大模型领域头号玩家。2022年11月30日，OpenAI发布基于GTP-3.5的生成式聊天机器人ChatGPT，引入基于人类反馈的强化学习RLHF等新训练方式，迅速风靡全球。

2023年3月14日，OpenAI推出第4代大型语言模型GPT-4，带动AI大模型进入多模态时代。

2023年11月6日，推出GPT-4迭代版本GPT-4 Turbo，将知识库更新至2023年4月，上下文窗口增至128k，推出GPT版应用商店，支持用户创造与分享GPTs，布局AI Agent领域。

OpenAI主要专注大语言模型，认为语言是压缩信息的好方法，与竞争对手拉开差距。Sam Altman表示，OpenAI团队认为，语言是压缩信息的好方法，是发展AI的关键因素，谷歌DeepMind等竞争对手错过这点，一直在追求其他研究策略推进AI发展，即使OpenAI通过GPT-3证明这点后，竞争对手仍没有认识到这点。

四、谷歌领先优势逐渐被OpenAI反超，致力通过Gemini重回巅峰。

OpenAI先后发布ChatGPT、GPT-4后，成为公认的最强大语言模型。

2023年4月20日，谷歌将DeepMind与Google Brain合并，组建Google DeepMind。

2023年12月6日，谷歌发布多模态大模型Gemini，模型规模从小到大分为Nano、Pro、Ultra版本。

谷歌Gemini Ultra版本，即将在2024年初向开发者与企业客户提供。

不同测试方法对模型测试效果有较大影响，谷歌Gemini Ultra在自研测试方法下超过GPT-4。谷歌宣称，在大语言模型研究与开发中广泛使用的32项学术基准中，Gemini Ultra性能有30项超过已有最先进水平。

但在大规模多任务语言理解MMLU中，Gemini Ultra采用谷歌自研CoT@32测试方法，使用思维链提示技巧，尝试32次选取最好样本，在CoT@32测试下，Gemini Ultra、GPT-4准确率分别为90.04%、87.29%。

传统行业通用标准测试下，Gemini Ultra性能不及GPT-4。在大规模多任务语言理解MMLU中，若沿用此前GPT-4采用的常用行业标准5-shot测试方法，通过提供5个相关样本，评估模型在有限样本下处理新任务的性能。

5-shot测试下，Gemini Ultra、GPT-4准确率分别为83.7%、86.4%。可以看出，相比常用5-shot测试方法，谷歌改用自研CoT@32测试方法后，GPT-4准确率小幅提升，Gemini Ultra准确率提升明显，从而达到宣称的目前最优水平。

微软指出Gemini Ultra性能数据存在误导，若采用微软自研测试方法，GPT-4在大量测试中表现超过Gemini Ultra。

2023年12月12日，微软发文表示，谷歌发布Gemini Ultra性能数据存在误导，Gemini Ultra使用更加复杂的提示词形式，如果仅使用标准提示词，Gemini Ultra表现比GPT-4差。

如果GPT-4使用微软刚刚提出的Medprompt方法，将超过Gemini Ultra准确率90.04%，达到目前最优性能准确率90.1%。

五、OpenAI面对谷歌Gemini竞争，宣布正在开发GPT-5。

《金融时报》2023年12月13日报道，OpenAI创始人、CEO Sam Altman接受采访时表示，正在开发下一代模型GPT-5，将需要更多数据进行训练，数据来自公开可用互联网数据集与OpenAI自有数据，暂未披露发布时间表。

六、更多美国科技巨头，自研或投资布局模型研发，把握AI智能时代最大机遇。

谷歌：通过投资OpenAI竞争对手Anthropic、Character.AI（计划投资），巩固在AI领域地位。

微软：通过投资深度绑定OpenAI，获得AI智能时代船票，并与Meta/Facebook开源模型LlaMA 2在云服务方面展开合作。

马斯克：成立xAI，将联合特斯拉、X推特、Neuralink等，致力成为AI世界第三极。

Meta：发布开源模型LLaMA，借助开源社区力量参与竞争，致力打造成大模型的安卓。

苹果：自研大语言模型Ajax GPT，计划将其融入Siri产品，在手机端运行，并通过即将在2024年发布的Vision Pro，将更多AI功能融入其中，从而在新的空间计算革命中继续保持竞争优势。

亚马逊：通过高溢价投资OpenAI竞争对手Anthropic，开始跟进参与激烈竞争。

七、AI大模型向多模态发展，变革生成式AI领域。文字、图像、视频生成领域，均迎来开悟时刻，随着大模型创新从单模态转向多模态，多模态预训练大模型将逐渐成为标配。

文字生成领域：从GPT-3开始，文本生成质量得到大幅提升。

图像生成领域：扩散模型DDPM，开启AI绘画浪潮。

视频生成领域：Runway Gen-2、Pika Labs Pika 1.0同样采用扩散模型，凭借生成视频效果成功出圈，但让生成视频动作有意义、提升清晰流畅度度仍需突破。

多模态大模型可接受文字、图像、语音等多种不同类型数据输入、处理、分析，并将结果以不同模态对外输出，实现异构模态数据协同推理，进一步迈向AGI。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

推荐
最新

暂无评论

【智能时代】美国模型篇：谷歌与OpenAI两强引领AI大模型竞争，AGI等待开悟时刻

评论

热议股票