AI大模型场地
AI大模型场地
专注AI大模型行业媒体,深度解读公司大模型行业动态
IP属地:未知
0关注
6粉丝
0主题
0勋章

宇树上市只差临门一脚:王兴兴和他的“上市大考”

  作者|鱼丸 编辑|星奈 媒体|AI大模型工场 从2016年的孤军奋战,到如今千人级别的团队规模,王兴兴九年磨一剑,实现了从技术追随者到行业引领者的华丽转身,终于在2025年11月15日完成了上市辅导。 王兴兴曾说:“在推动一些中规中矩的上市流程,某种意义上一直把公司上市当作去学习和成长的过程,就比如说面对中考、高考,我觉得这是企业迈向更成熟的管理,更成熟的运营,一个阶段性的事情,也是对我们过去9年多时间的一个交代,也是对股东的一个交代。” 来时步步艰辛,再看已是繁花似锦。这场历时短短132天的考试,宇树显然满分上岸,但它多年来的努力,我们还需逐帧学习、逐帧分析。     01 一身孤勇,从初创到领航   2013年,就读于上海大学机械工程专业的硕士生王兴兴,受到波士顿动力BigDog机器人的启发,就此展开了他的具身智能生涯。 当时的他没有沿用当时行业主流的液压驱动方案,而是开创性地采用外转子无刷电机直驱技术路线,独立完成了全自由度四足机器人XDog的研发。 令人惊喜的是,这条技术路线有效简化了机械结构,降低了研发与制造成本,成为了宇树科技“低成本高性能”核心技术路线的基础。 时间辗转来到了2015年,王兴兴的XDog参与了上海地区的相关赛事,斩获了二等奖的同时,还拿到了8万元奖金,而这笔资金成为了王兴兴创业的 “第一桶金”,也坚定了他将技术产业化的想法。 随着行业关注度的逐步提升, XDog的测试视频在海外社交媒体传播,吸引了潜在买家与投资人的关注。 就此,王兴兴获得了200万元天使投资,为创业项目奠定了资金基础,宇树科技开始拉开帷幕。 2016年8月26日,王兴兴终于在杭州滨江区一间50平米的办公室,注册成立了“杭州宇树科技有限公司”。 虽然初期团队仅有三四个人,但好在每个人攻克领域甚广,又很努力拼搏。 王兴兴同时担任CEO与C
宇树上市只差临门一脚:王兴兴和他的“上市大考”

AI助手的第一战场:百度、夸克、腾讯元宝的开学季之争

  作者|鱼丸 编辑|星奈 媒体|AI大模型工场 又到了一年的开学季,同学们是不是又开始为了查资料、写作业、做项目等等而在各种搜索引擎和工具中间来回切换、焦头烂额了呢?当开学季遇上AI革命,让这一切都有了新解法。腾讯元宝,百度搜索,夸克搜索,三款AI应用纷纷推出开学季福利,到底体验结果如何,我们来看一下吧。   01 开学季三款AI如何各显神通   AI在教育学习领域早就不是第一次合作了,但是随着大模型的不断更新升级,越来越多的功能可以解决学习中的难题,帮助学生尽快的融入到学习氛围中,帮助老师和家长更好的帮助学生学习。 先说百度搜索,百度依靠文心大模型,文心4.5多模态模型给百度搜索提供了技术护城河,不仅如此依靠多年的数据积累让百度搜索在数据来源上不再担心数据不科学不严谨。 这次在百度APP上搜索开学季就可以弹出一个专门查询的界面,百度已经给罗列好了AI工具,不论是从预习到解题,还是从数学到写作,那叫一个全,这是要成为全能助手的节奏。 更惊喜的是拍照搜题接入了deepseek,给学生家长有更好的体验。 而且我们看到还有专门的暑假作业解析,AI名师知识讲解也更侧重于小学初中数学,百度搜索更针对于中小学生,大学生的应用上就不是特别明显了,更适合年龄小一些的同学,中小学的家长和老师有福了 。 再来看看夸克搜索,夸克在界面上有一个认证身份可以免费领会员的福利,会员可以使用更多的AI功能,大家不要忘记去领取哦~当然普通用户可以使用的AI功能也不少 ,AI生图、AI写作、解题大师、夸克PPT,都可以满足基本上的学习需求。 并且夸克好像针对的人群和百度大不相同,更倾向于大学生,像什么论文课程搜寻查找文献,入学资料上怎么制作一寸照片,整合入学证件,怎么申请助学贷款,连入学要准备什么都找好了,还有大学生活怎么做PPT,夸克这是要把大学生打包带走吗,那么全面。 最
AI助手的第一战场:百度、夸克、腾讯元宝的开学季之争

从猜谜语到游戏制作,我们测试了市面最强的三款推理模型,“全能王”出乎意料

  作者|西梅汁 编辑|星奈 媒体|AI大模型工场 18日中午,马斯克掏出号称“地表最强”大模型Grok3。 官方宣称,Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。 同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了包括DeepSeek-R1和OpenAI的o3 mini在内的推理模型。 不过,这次Grok 3并不免费,DeepSeek并没有卷到XAI:X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。独立APP上,则需要订阅SuperGrok——30美元/月或300美元/年。而且在国内,因为一些众所周知的原因,尽管付费购买也无法使用。 DeepSeek的爆火,让推理模型成为全球关注的焦点,除了此次刚刚发布的Grok 3和DeepSeek-R1外,OpenAI的o3 mini和阿里的Qwen2.5-Max也是市面上推理模型的“王牌选手”。 为此,AI大模型工场决定拉上三位强劲对手来一场“神仙打架”,这三位选手风格迥异,各有绝活,谁能在这场测评中拔得头筹?接下来,我们就从性能、应用场景以及用户体验,全方位扒一扒它们的实力!   一、谁更懂弯弯绕绕? 先来小试牛刀一下,猜谜语虽然很简单,但其实考验的时AI大模型对语言的理解和逻辑推理能力。 1、通义Qwen 2.5 Max ”豆子捅了包子一刀 打一食物“这个谜语,通义Qwen 2.5 Max首先给出答案”豆沙包“,解析过程简单明了,不愧是咱们的国产大模型,推理能力相当在线。 2、O3-mini 之前就听说O3-mini开始用中文进行思
从猜谜语到游戏制作,我们测试了市面最强的三款推理模型,“全能王”出乎意料

DeepSeek后又一国产宝藏,超长文输出精准拿捏复杂任务

  作者|参商 编辑|星奈 媒体|AI大模型工场   这个春节,AI界国产黑马DeepSeek掀翻世界大模型的桌子。DeepSeek用不到OpenAI十分之一的成本,做出了性能媲美o1的R1,一经发布,迅速搅动了世界大模型的发展格局和趋势。 高性能、低成本与高速度之间的不可能三角在被打破。 DeepSeek的成功不仅展示了中国在AI领域的创新能力,也为全球AI发展提供了新的思路。 与此同时,由中国科学院自动化所孵化的AI企业中科闻歌发布的雅意大模型旗舰版——YAYI-Ultra在破解大模型落地"精度-能耗"困局前给出了自己的答案。 作为覆盖全球100+模型的权威评测体系,OpenCompass榜单历来是观察大模型技术路线的"晴雨表",在其近日发布的OpenCompass大模型公开学术榜单中,中科闻歌YAYI-Ultra,以64.5分首次闯入前十,成为TOP10中五个中国大模型之一。 在OpenCompass最新大语言模型公开学术实时榜单中,YAYI-Ultra排名综合得分64.5,排名第十,其中: 代码生成:LiveCodeBench排名第五,表现优于GPT-4o-20241120版本 复杂指令理解 :IFEval排名第九 知识推理能力:MMLU-Pro排名第九 在侧重中文理解的C-Eval评测中,YAYI-Ultra在允许自主验证的公开访问榜单位列第二,展现了在中文场景下的技术优势。     一、一手实测:超长文输出,复杂任务规划精准拿捏 AI大模型工场从官方了解到,YAYI-Ultra在图表理解、复杂任务、长文理解与生成方面表现突出,我们立马上手从六个维度(多模态图表深度理解、复杂图像理解、复杂任务智能规划(Function Call)、数据统计分析及超长文本理解与生成)实测下YAYI-Ultra表现到底如何。 01 视觉理解再升
DeepSeek后又一国产宝藏,超长文输出精准拿捏复杂任务

更强效果,更优成本,加量不加价:豆包大模型1.5发布,综合得分优于GPT4o

  作者|冰拿铁 编辑|星奈 媒体|AI大模型工场   春节将近,琳琅满目的年货纷纷上线,为节日增添喜庆氛围,而近日,大模型圈也迎来了“重磅年货”:1月22日,豆包大模型1.5正式上线,为行业送上了2025年新惊喜。 本次升级中,豆包通用模型pro、豆包通用模型lite、豆包·视觉理解模型均迈向next level,其中,全新的Doubao-1.5-pro模型综合能力显著增强,多个权威测评集综合得分优于GPT4o、Claude 3.5 Sonnet等业界一流模型,模型效果达到全球领先水平。值得一提的是,新赛季中,豆包大模型还上线了“新英雄”:豆包·实时语音模型,并在豆包 APP 全量开放。 如此种种,皆让网友直呼: “最强新年搭子来了,今年拜年我必带上豆包,让豆包和说方言的亲戚、催婚的亲戚们、爱打断别人说话的亲戚们激情对线!” 值得一提的是,能力直线提升的同时,豆包大模型1.5全产品,包括 Doubao-1.5-pro,Doubao-1.5-lite,Doubao-1.5-vision-pro 等将继续保持原有模型价格不变,加量不加价,可以说是模圈“良心年货”! 那么,具体而言,1.5都有哪些惊艳表现、在哪些维度“遥遥领先”,背后又有哪些技术支撑?让我们一起看看吧!   一·、豆包矩阵大测评: 推理、奥数全carry,还能魂穿名作家? 据多个公开评测基准对豆包通用模型pro(Doubao-1.5-pro)的性能评估,Doubao-1.5-pro 在知识、代码、推理、中文权威测评基准上获得最佳成绩,综合得分优于GPT4o、Claude 3.5 Sonnet等业界一流模型,在中文处理和特定领域知识方面优势明显。 真的有那么丝滑吗?让我们上手测测吧! 首先,来一道经典的过河逻辑题,考察大模型的推理能力,解题关键在于依据人物之间的限制条件,合理规划过河
更强效果,更优成本,加量不加价:豆包大模型1.5发布,综合得分优于GPT4o

海螺 AI 甩出“主体参考”,视频模型迈上新台阶

  作者|孙浩 编辑|星奈 媒体|AI大模型工场   刚刚迈入2025年,海螺AI就甩出了一张“王炸”。 就在今天,海螺AI正式推出“主体参考”功能,并以S2V-01新模型能力提供底层技术支持。 不可否认的是,目前视频生成大模型已经屡见不鲜,Sora、可灵AI、即梦AI均提供文生视频或图生视频功能。但目前大部分视频模型在生成包含人物的视频时,都难以保证人物面部多角度的真实度和稳定性。 2025年视频模型或是AI领域的主阵地,在此背景下,海螺AI抛出的“主体参考”功能,并顺势,带给AI视频赛道一些新的解题思路。   一、更低成本,更好表现,「主体参考」保持人物一致性 海螺AI的“主体参考”功能可以将图片的视觉信息拆解、剥离,读取“主体”的视觉信息,然后根据文本prompt ,灵活设计人物的动作、行为、所处环境等,兼顾“视觉信息的精准性”和“文本信息的组合性”两项优势。 此前,可灵AI其实也上线了类似的AI人像模型,不过该模型的底层逻辑与海螺AI的“主体参考”功能截然不同。可灵AI的AI人像模型使用的是LoRA微调方案,需要上传10-30段多样、高质量的视频,等待几十分钟才能训练完成,单次训练成本高达100元。大量输入,对于普通用户而言,使用门槛也较高。 对比而言,海螺AI的“主体参考”功能仅需输入1张图片,叠加一次正常的运算成本,即可生成高质量视频内容,使用门槛以及成本都显著低于可灵AI。 原始图片 海螺AI生成视频 结合具体的案例来看,尽管成本更低,但海螺AI的“主体参考”功能生成的视频效果依然很惊艳。我们给海螺AI输入了一张人物正面照,然后让它生成一个类似《指环王》电影风格的视频。 仔细观察视频可以发现,海螺AI不光可以准确理解Prompt提示词的要求,生成了电影级视效的视频,并且运动的人物面部也没有畸变,同时也可以保证细节精准还原,复杂光照
海螺 AI 甩出“主体参考”,视频模型迈上新台阶

比Sora快!爱诗科技10秒内跑进决赛圈

  作者|西梅汁 编辑|星奈 媒体|AI大模型工场   近日,国内AI视频创业公司爱诗科技宣布其核心产品 PixVerse 的 V3.5 版本正式上线。 PixVerse也是国内最早涉足AI视频创作工具的开发团队之一,但是国内对于PixVerse的讨论热度远不如海外网友对其整活的各类视频火爆。 从“毒液特效”视频到“猛男肌肉特效”视频,PixVerse的生成总量在短短几个月内就超过几百万次,在海外TikTok平台的曝光量已经过亿,其全球用户数超过了1200万,月活跃用户数接近600万。热度甚至一度超越了Runway和Sora等竞争对手。 综合能力也是吊打 Sora! 选择在年底最后几天推出,AI大模型工场猜他一定想让大家整些新年新活~   一、10秒内跑完高质量视频 AI生成的视频速度一直是用户关注度高的一个重点,PixVerse新上线的 V3.5 就在速度上卷出了新高度,据说是全球首个接近实时生成的高质量 AI 视频模型。 据官方介绍,PixVerse V3.5 引入的 Turbo 极速生成模式,可将视频生成的平均时间缩短至惊人的10秒,最快甚至可以5秒生成视频。 运动控制上一直是大部分视频模型的短板,只要幅度变大,动作就会扭曲变形,即使是Sora也免不了翻车。 网友生成的这段,两个人物的发力点和运动控制上都有呈现出不错的表现,这次PixVerse V3.5也是下了功夫的。 来自用户@ai4everyday 下面可以看看AI大模型工场跑的部分视频~   主题:带上魔法帽 冬天了,给皇上带上一个帽子! 带上帽子后的皇上,面相都变得和善起来了~ 主题:肌肉男特效   小男孩直接变身健身达人,可以根据身形定制专属的肌肉,展示“出生即巅峰”哈哈哈哈哈。 整体效果也是丝毫没有违和感的,甚至连男孩身后的气球都会轻微摆动。 两段视频测下
比Sora快!爱诗科技10秒内跑进决赛圈

AI玩具爆火,大模型应用落地新风向?

  作者|西梅汁 编辑|星奈 媒体|AI大模型工场   去年,马斯克的前女友就跟玩具公司Curio一起合作了一款AI玩具,除了在拥有毛绒玩具的外表下,还内置了OpenAI的语言模型,可以与人进行互动。 如今,玩具市场现已成为全球范围内市场体量最大的品类之一,据国际研究机构Research and Markets的预测结果显示,全球玩具市场预计在2019年至2025年间,将以超4%的复合年增长率增长,在此期间,预计全球玩具市场规模将增加超300亿美元。 AI的风终于还是吹到了玩具市场。 在继眼镜、耳机、手机等主流硬件被AI化之后,这些主流AI硬件尚无爆款,AI玩具却先卖断了货。 在这股风之下,众多厂商也正在加速涌入,AI玩具或将成为大模型技术突破C端落地的新风向。     一、AI玩具爆火,大厂加速入场   不久前,日本Casio联合一家初创公司Vanguard Industries推出的一款毛绒AI宠物Moflin在小红书上备受关注。外表有点类似于仓鼠和兔子的结合体,内置AI芯片。同时,Moflin拥有一个二维情感表达地图,它的情感会根据周围环境和与主人的互动而变化。能够像活的动物一样,通过反应来展示不同的情绪。 据拥有Moflin的博主介绍,随着日常互动,Moflin会展示出自己的独特个性,并通过专属APP记录下互动过程。它会根据与主人的互动发展出各种情感,并逐渐与主人建立起情感依恋,你会感受到它对你的情感依赖。 不止日本的Moflin,今年7月,国内AI初创公司跃然创新(其创始人李勇原是天猫精灵合伙人),就推出的一款针对毛绒玩具的外置AI挂件「BubblePal」,它能够以挂件的形式佩戴在任何玩偶身上,在功能上可以为用户讲故事、词语接龙,并且支持扮演不同的IP形象,两个月时间就卖出了数万台。 李勇曾在采访中介绍,Bubb
AI玩具爆火,大模型应用落地新风向?

国产大模型2025考研数学排行榜:仅前两名成绩破百

  作者|参商 编辑|星奈 媒体|AI大模型工场   2024 年就要结束了,在这一年里,大模型的智力水平究竟长进了多少? 上周日,2025考研初试刚刚结束,我们趁热拿考研数学卷子,去测测主流的几家国产大模型,看看他们的真实智商水平如何。 5位国产大模型考生名单: 大厂巨头代表队:字节豆包、阿里通义 创业公司代表队:智谱、Kimi 私募巨头代表队:DeepSeek 记得6月份高考的时候,很多媒体做了大模型高考成绩评测,结果发现大家的语文成绩都能考100分以上,但数学成绩基本都惨不忍睹,低的只有37分,高的也不过60多分,没有一家能及格。要知道高考数学的满分是150,只有考到90分以上才算及格。 这也侧面说明,起码在自然语言理解这一块,大模型基本已经“及格”,但在人类与其他物种拉开差距的“逻辑思维”能力上,哪怕还需要继续进化。 不过,2024年下半年,尤其是9月份Open AI的o1推理模型出来之后,在新的强化学习技术范式下,大模型似乎找到了破解数理化等领域难题和复杂任务的钥匙。Kimi、DeepSeek、通义等公司,也相继推出了自己的支持思维链(Chain of Thought)的推理模型,数理化水平上了一个新台阶。 废话少说,直接开测! 我们选取了难度适中的2025考研数学三作为参考试卷,每个题目各家模型有两次作答机会,得分取两次的平均值。 为了确保测试的公平,我们都采用各家产品的最新版本 (豆包和通义不能选择模型,采用了默认模式;Kimi采用新推出的视觉思考版;DeepSeek打开“深度思考”开关,智谱清言采用 GLM-4-Plus模型),上传完全一样的 22 道题目截图,输入给大模型的文字提示(Prompt)也基本一样,模拟真实场景,“解答这道题”、“这道题选什么”、“解一下这道题”“这个题答案是什么”。    一、2025考研
国产大模型2025考研数学排行榜:仅前两名成绩破百

图生视频赛道,2024年的版本答案是?

  作者|参商 编辑|星奈 媒体|AI大模型工场   从首次发布到最终开放,OpenAI的Sora让望眼欲穿的用户们等了足足10个月。相较2月16日的初版,12月10日的Sora Turbo版本固然速度更快,功能更全,但不少网友测试后纷纷表示失望,有的更是喊话Sam,“还我200刀!” 网友们之所以对Sora没了往日的滤镜,不仅是因为Sora自身的不完美,也是因为有了太多的“中上位替代”。 譬如紧随其后一周发布的谷歌Veo2 模型,就被很多网友认为实现了全面赶超。曾经遥遥领先的OpenAI,如今也开始“跌落神坛”。 值得一提的是,谷歌内部也对市面上的模型,以盲测形式进行了一波跑分赛马。测试数据显示,除了自家Veo2,快手的可灵1.5表现最高。 就在昨天,这个刚刚“谷歌认证”过的国产模型之光,又更新了最新的1.6版本,在此前测试的性能上又向前一步。 而在本轮更新之后,不少网友甚至表示,1.6的命名或太过保守,“2.0应该更为合适”。 至此,我们也可以说, 起码在 AI视频生成 这个细分赛道,国内AI厂商的头部地位再一次得到巩固。    一、我们需要更“真实”的“图生视频” 到目前为止,市面上图生视频的效果,仍然是不够稳定的。  用小红书、B站等流媒体软件搜索“AI超越人类”关键词,就能发现一系列真人模仿AI生成效果的视频。它们出现在流媒体上的唯一原因,就是因为AI生成视频的效果跟真实世界差别过大,导致产生了过于搞笑的节目效果。 即便是公认干过Sora的veo2,在一些物理规律的细节上仍然逃不过AI博主的法眼。 在谷歌 Deepmind Veo 的联合负责人,X 博主 @shlomifruchter 发布的视频中,并不缺乏这样的案例。 他将几颗饱满的蓝莓丢进水中,蓝莓的上下浮动,水泡的生成、水花的溅起,看似都没问题,唯一不合理的
图生视频赛道,2024年的版本答案是?

百川智能发布全链路领域增强金融大模型Baichuan4-Finance,整体准确率领先GPT-4o近20%

12月23日,百川智能发布全链路领域增强大模型Baichuan4-Finance。在高质量金融数据的基础上,通过行业首创的领域自约束训练方案,Baichuan4-Finance实现了金融能力和通用能力同步提升的效果,极大提高了金融场景的整体可用性。其金融专业能力和场景应用能力大幅领先GPT-4o,在中国人民大学财政金融学院新近发布的评测体系FLAME以及国内主流开源金融评测基准FinancelQ上均登上榜首。 Baichuan4-Finance API现已在百川智能官网正式上线,网址:https://platform.baichuan-ai.com/finPage   整体准确率领先GPT-4o近20%,多个金融评测榜单第一   FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是中国人民大学财政金融学院12月17日发布的金融评测体系(github地址:https://github.com/FLAME-ruc/FLAME/tree/main)。 作为金融领域最新的评测体系,FLAME兼顾专业性和实用性,由两个方向的评测基准组成。其中,FLAME-Cer主要面向模型的专业金融能力评测,覆盖了CPA、CFA、FRM等14类权威金融资格认证;FLAME-Sce则侧重模型的场景应用能力,包含10个一级核心金融业务场景,21个二级细分金融业务场景,近百个三级金融应用任务。 FLAME-Cer评测结果显示,Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,大幅领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。GPT-4o是金融领域公认的综合实力最强的通用模型之一,而Xua
百川智能发布全链路领域增强金融大模型Baichuan4-Finance,整体准确率领先GPT-4o近20%

营销AGI从故事到应用:灵感岛如何成 AI 营销“救命神器”?

  作者|冰拿铁 编辑|星奈 媒体|AI大模型工场   等待298天后,OpenAI的视频生成模型Sora终于正式上线,让一众营销人直呼“摸鱼AI工具+1”。不过,对三头六臂、身兼数职的营销人来说,一个视频生成工具是远远不够的,毕竟网上流传着这样一个冰学段子: “听到您直接叫我营销人,我心里咯瞪一下,您,是怎么想的呢?营销人也是您能直呼其名的?他们是文案组、美工组、摄制组、剪辑组、数据分析师、编剧、金牌销冠、PS大师、摄影师、许愿池里的王八,一个人就是一个团队,这名字太重,您承担不了在这名字后面付出的一切,请您尊称他们一声,异能者,谢谢!” 不过,什么也难不倒营销人,最近,营销圈里悄悄流传着这样一个全能神器「灵感岛」,成为营销人最强手替,服务范围贯穿to C与to B,让营销行业实现“内容—达人—流量”的“一站到底”: 在灵感岛上,内容创作者和企业不仅能通过创意生成、爆款分析及改写、图片生成、数字人等技术,高效快速实现批量高质内容生成,成为“掌管融媒体的神”,还能通过AI智能混剪、数字人克隆等技术,一键输出上百条爆款视频内容!最关键的是,灵感岛还提供矩阵账号管理、多平台一键分发等功能,确保内容获得最大化曝光! 那么,具体操作真的有那么丝滑吗?在企业获客上,灵感岛能切实解决哪些痛点?推出全能神器背后,灵感岛又有哪些技术实力和行业积淀?   一、业务全、门槛低、让大模型真的出活:灵感岛成“一站式营销神器”! 首先,对营销人来说,过往使用AI工具时,最头疼的莫过于软件间高高筑起的柏林墙:懂内容的软件不懂分发,能AI生成文字内容的软件做不了数字人直播,导致想完成一场酣畅淋漓的营销,往往要在一群软件中间“切换到手软”。 正因如此,灵感岛最吸引营销人的特质即功能全,可以提供全链路专业获客产品及服务,堪称AI营销领域的“六边形战士”: 对比只有数字人功能的海
营销AGI从故事到应用:灵感岛如何成 AI 营销“救命神器”?

实测即梦2.1:让我们一起说中文

  作者|王玄 编辑|星奈 媒体|AI大模型工场   最近字节旗下即梦又又又更新啦!升级至即梦AI 2.1版本。 这次即梦 2.1直接实现了 AI 绘画直接生成中文字的能力,我们可以通过简单的文字指令生成带有中文文字的图像,包括自由指定字号、字体、颜色和位置,增加了图形创作的灵活性与个性化。解决了以往绘画界生成中文图像的难点,也让海报设计更加的简单化。 看到最近大家都玩嗨了,AI大模型工场也赶紧搓搓手测评一下~    一、设计小白,使用界面 在生图模型界面可以看到新的图片2.1界面,在确定好模型后,就可以根据我们的关键字输出来进行生成图片。 那么在网页版的界面包含AI作图、AI视频、AI音乐。我们可以在灵感界面选择海报设计,下方就会出现很多用户生成的海报素材作为参考。     二、各类海报风格,手拿把掐 节日氛围海报 可以看到,图片在支持中文嵌入的情况下生成的节气海报,居然还结合了毛笔字体生成的“大雪”,真是一股通畅感扑面而来。。。。 科幻电影海报 同时不论是中文还是英文的关键字句,即梦都可以识别出来,简直是手拿把掐! 中国风宣传海报 一口气生成四张图片的同时,还会提供不同画风的内容,甚至在现实风和漫画风上都可以自由切换。  但是在生成的四张图片中,也是可以看到依然存在有中文文字乱码的现象,但是耐不住它量多呀!总能有一符合我们要求的海报吧哈哈哈哈哈~ 除此之外,在调整画面尺寸这一令设计师头疼的问题上,即梦2.1还提供了二次编辑功能,支持我们在设计过程中对生成的图像进行擦除、局部修复、超分(提升画质和分辨率)、扩展图片以及进行二次生成,使得细节调整更加精细。 例如,我们只需要在原有图片的基础上,选择“扩图”功能,并调整扩图范围和大小,即可实现一键调整尺寸。不需要再手动进行复杂的编辑,让后期设计中的尺寸调整变
实测即梦2.1:让我们一起说中文

中国AI大模型平台排行榜 | 11月

作者|参商 王玄编辑|星奈媒体|AI大模型工场 一、国内大模型发展趋势|11月份解读从预训练向推理转向,Scaling law撞墙?有研究预计,如果 LLM 保持现在的发展势头,预计在 2028 年左右,已有的数据储量将被全部利用完。届时,基于大数据的大模型的发展将可能放缓甚至陷入停滞。实际上,OpenAI O1模型的推出将预训练Scaling Law范式带向了推理层的Scaling Law,国内企业也开始纷纷上线推理模型。国内,10月初,就有消息传出,“AI六小虎”中已经有两家公司已经决定逐步放弃预训练模型,近期又有消息指出,仍在继续预训练的公司只剩下智谱AI和MiniMAX,其他包括月之暗面、百川只能在内的公司都已经放弃预训练。然而,OpenAI高级研究副总裁Mark Chen却在在炉边谈话中,正式否认「Scaling Law撞墙论」。他表示,并没有看到Scaling Law撞墙,甚至OpenAI还有两个范例——o系列和GPT系列,来保持这种Scaling。此外,扎克伯格、奥特曼和其他 AI 开发商的首席执行官也公开表示,他们尚未达到传统 scaling laws 的极限。因此,OpenAI 等公司仍在开发昂贵的、价值数十亿美元的数据中心,以尽可能多地提升预训练模型的性能。企业软件公司 Databricks 的联合创始人兼主席联合开发者 Ion Stoica 表示,大模型的表现可能在某些方面已经停滞,但在其他方面仍在进步。Stoica 表示,尽管大模型在代码和解决复杂、多步骤问题等任务方面不断改进,但其在执行通用任务(如分析一段文本的情感或描述医疗问题的症状)方面似乎进展缓慢。“对于常识性问题,你可以说,目前我们看到 LLM 的表现停滞不前。我们需要 [更多] 事实数据,而合成数据没有太大帮助”他说道。但其实“Scaling Law”撞墙与否,在AI领域,虽然
中国AI大模型平台排行榜 | 11月

腾讯混元版Sora,鹅厂简直“泰裤辣”!

  作者|王玄 编辑|星奈 媒体|AI大模型工场   鹅厂这次真是大手笔,上线即开源!参数量达130亿,是目前参数量最大的开源视频生成模型!!! 昨天,腾讯混元大模型正式上线视频生成能力,目前该模型已上线腾讯元宝APP,大家可在AI应用中的“AI视频”板块申请试用。企业客户可通过腾讯云提供服务接入,API同步开放内测申请。 半个月前,元宝刚完成2.0版的大更新,新增AI应用专属板块,将搜索、生图还有腾讯文档、搜狗输入法等打通,这次又将视频的内容整合到一起,来了把大的。 腾讯官方也第一时间上传了由混元生成企鹅短片,只能说前有妻子的浪漫旅行,后有大鹅的环球旅行。。。。 在前有Sora,后有可灵、Vidu等视频生成模型的夹击下,混元实际效果如何呢? 下面就来看看AI大模型工场跑了一圈的视频内容吧~    一、多风格元素下的真实质感 首先在腾讯混元输入一段提示词,就能生成 5 秒的视频,支持中文、英文输入。 风格上面包含写实风格、动画风格、电影风格、黑白风格、赛博朋克风格,多种风格实现文生视频的转换。除此之外还延伸了指令功能,在景别、光线、镜头运动等方面都可进行精准的细节调整。 此次混元视频模型的优势主要有4点: 1、超写实风格,混元视频模型具有强大的写实能力与对细节的精细处理处理。 2、强语义理解能力,模型能够准确理解用户的多元化指令和需求。 3、多镜头转换,能够在不同的镜头之间丝滑切换,增强视频的叙事性。 4、连续动作生成,混元视频模型不仅能够做到单一视频主体的多动作连续生成,且在多主体场景下也可生成大幅度合理运动。 在写实风格这块,混元可以说是狠狠拿捏了。 比如在这段小女孩徒步视频中,我们可以看到,混元对冲锋衣、徒步等场景进行精准理解和高度还原,尽管提示词中并没有提到“登山杖”,但在徒步场景中,登山杖是不可或缺的,视频中也有所体现,并且
腾讯混元版Sora,鹅厂简直“泰裤辣”!

腾讯混元版Sora,鹅厂简直“泰裤辣”!

  作者|王玄 编辑|星奈 媒体|AI大模型工场   鹅厂这次真是大手笔,上线即开源!参数量达130亿,是目前参数量最大的开源视频生成模型!!! 昨天,腾讯混元大模型正式上线视频生成能力,目前该模型已上线腾讯元宝APP,大家可在AI应用中的“AI视频”板块申请试用。企业客户可通过腾讯云提供服务接入,API同步开放内测申请。 半个月前,元宝刚完成2.0版的大更新,新增AI应用专属板块,将搜索、生图还有腾讯文档、搜狗输入法等打通,这次又将视频的内容整合到一起,来了把大的。 腾讯官方也第一时间上传了由混元生成企鹅短片,只能说前有妻子的浪漫旅行,后有大鹅的环球旅行。。。。 在前有Sora,后有可灵、Vidu等视频生成模型的夹击下,混元实际效果如何呢? 下面就来看看AI大模型工场跑了一圈的视频内容吧~    一、多风格元素下的真实质感 首先在腾讯混元输入一段提示词,就能生成 5 秒的视频,支持中文、英文输入。 风格上面包含写实风格、动画风格、电影风格、黑白风格、赛博朋克风格,多种风格实现文生视频的转换。除此之外还延伸了指令功能,在景别、光线、镜头运动等方面都可进行精准的细节调整。 此次混元视频模型的优势主要有4点: 1、超写实风格,混元视频模型具有强大的写实能力与对细节的精细处理处理。 2、强语义理解能力,模型能够准确理解用户的多元化指令和需求。 3、多镜头转换,能够在不同的镜头之间丝滑切换,增强视频的叙事性。 4、连续动作生成,混元视频模型不仅能够做到单一视频主体的多动作连续生成,且在多主体场景下也可生成大幅度合理运动。 在写实风格这块,混元可以说是狠狠拿捏了。 比如在这段小女孩徒步视频中,我们可以看到,混元对冲锋衣、徒步等场景进行精准理解和高度还原,尽管提示词中并没有提到“登山杖”,但在徒步场景中,登山杖是不可或缺的,视频中也有所体现,并且
腾讯混元版Sora,鹅厂简直“泰裤辣”!

「输入即搜索」,搜狗用大模型带输入法进入Next level?

  作者|王玄 编辑|星奈 媒体|AI大模型工场   前两天朋友问我一根淀粉肠3元,那么两根淀粉肠是多少钱呢? 作为小吃摊著名爱好者,这题秒了:5元! 那么再来问问搜狗输入法吧~ 这么看来,搜狗输入法还是很理智的哈哈哈哈,毕竟人家是正经官方! 肯定有人会好奇,在输入法里还能问问题呢? 近日,搜狗输入法迎来重大升级,12.0版本的更新,推出了AI搜索、AI快查等强大功能,那么让我们来看看它的具体表现吧!   一、输入即搜索,AI秒应答 搜狗输入法的AI搜索能力通过与腾讯混元大模型合作,深度搭载了腾讯元宝“AI搜索”产品化能力,连接了丰富的腾讯内容生态资源,包括微信公众号、视频号、QQ音乐等,保证信息的时效性和多样性。 此前搜狗输入法大模型产品负责人柴宝全在发布会后接受媒体群访时就表示,“我们认为AI搜索和其他服务是输入法中一个小的功能点,而不是我们推出了一款独立产品。” 其实不难看出在定位上,搜狗提供AI搜索功能不是希望用户在所有场景下都去搜索,而是在用户有搜索需求的时候可以更快更好地去用。 当我们在聊天或写作时,遇到不理解的专业词汇时,就可以直接在输入框中进行搜索,快速获取信息。同时,搜狗输入法在PC端和移动端同步上线的AI搜索功能。例如,在聊天时提到“AI语言大模型”,用户只需输入关键词并点击候选区域的放大镜图标,AI搜索即可呈现详细内容。 同样,搜狗输入法在电脑端也加入了AI搜索功能。对于我们这些电脑为主要工作工具的人来说,也是个福音。在写稿过程中,遇到需要查询的专业名词或者背景信息,只需要输入“=”号,即可在下拉框中获得搜索结果,继续打字时下拉框会自动隐藏,试过后发现完全没有影响到写作流程,甚至可以起到辅助效果。   二、边聊边查,向“跨服”聊天Say bye bye 除了在AI搜索功能上的表现外,搜狗输入法混元版的AI快查功能
「输入即搜索」,搜狗用大模型带输入法进入Next level?

一张图生成一个世界!李飞飞世界模型首秀,空间智能时代已经到来

  作者|参商 编辑|星奈 媒体|AI大模型工场   今天凌晨,AI教母李飞飞创立的World Labs推出第一个重磅成果:世界模型,一张单个图像便可生成3D世界。 此消息一出,业界炸开了锅。李飞飞也第一时间在X上宣传: 在大家还在2D视频生成赛道卷生卷死的时候,World Labs已经进入Next Level,AI生成3D世界。 据World Labs官方介绍,目前大多数GenAI 工具都制作图像或视频等 2D 内容,存在缺乏控制和一致性的问题,而3D生成则可以提高控制和一致性,其模型可以预测3D几何图形,填充场景中看不到的部分。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。    一、一张图生成一个世界 输入任意一张图,World Labs还你一个世界。 比如,丢给World Labs一张左边的图片,它能给你一个这样的3D世界: 你可以通过WASD建控制3D世界得上下左右视角,还可以拖动鼠标逛这个世界的每一个角落。 同时,官方也给了很多玩法。 相机效果 生成场景后,我们可以使用虚拟摄像机进行实时渲染。通过精确控制虚拟摄像机的各项参数,可以实现各种艺术摄影效果。 例如,我们可以模拟浅景深效果,使得只有距离摄像机一定距离的物体才清晰对焦,从而突出主体并增强画面的层次感。 此外,还可以模拟推移变焦效果,即同时调整摄像机的位置和视野,创造出独特的视觉冲击力和动态感。 3D效果 World Labs官方介绍,大多数生成模型是预测像素。而生成3D场景则不仅限于像素层面的表现,其优势更多地体现在: 持久的现实:一旦生成了一个世界,它就会一直存在。如果你把视线移开并回来,场景不会在你的背后改变。 实时控制:生成场景后,可以实时移动场景。可以徜徉于花朵的细节,或者偷看角落看看揭示了什么。 符合物理规则:生成的世界遵循现实世界
一张图生成一个世界!李飞飞世界模型首秀,空间智能时代已经到来

从预训练转向推理,大模型厂商寻找新的Scaling Law

  作者|参商 编辑|星奈 媒体|AI大模型工场 最近,关于Scaling Law是否失效的讨论居高不下。  起因是The Information、路透社和彭博社接连爆出LLM进展放缓,Scaling Law撞墙。 The Information表示,据OpneAI内部人员透露,GPT系列模型更新缓慢,即将推出的下一代旗舰模型Orion并没有实现质的飞跃,虽然性能上超过了以往模型,但相较于从GPT-3到GPT-4的迭代,改进幅度缩小,OpenAI正在转变策略。 路透社也发文表示,由于当前方法受到限制,OpenAI和其他公司正在寻求通向更智能AI的新途径。 随后,彭博社也出来拱火,认为OpenAI、谷歌、Anthropic三家AI公司,在新模型开发上的付出与回报的差额正在逐渐扩大。 报道称,谷歌即将推出的新版Gemini并未达到内部预期,Anthropic也推迟了备受期待的Claude 3.5「超大杯」Opus的发布时间。 尽管,后面山姆.奥特曼亲自下场辟谣:没有墙。微软AI主管Mustafa Suleyman也表示,不会有任何放缓。 但不争的事实是,模型界“三巨头”在预训练方面接连碰壁,模型发展遇到瓶颈。Scaling Law的边界真的已经到来了吗?   一、暴力美学失效 Scaling Law也称尺度定律,被业界认为是大模型预训练第一性原理。 2020年,OpenAI发布论文“Scaling Laws for Neural Language Models”,首次发现模型参数量、数据集大小、训练计算量的关系,即三者中任何一个因素受限时,Loss与其之间存在幂律关系,其中一些趋势跨越了超过七个数量级。 也就是说,模型能力会随着参数量的增加而不断提升。OpenAI沿着这个思路也确实大获成功,在论文发布四个月后,GPT3问世,再到2022年ChatG
从预训练转向推理,大模型厂商寻找新的Scaling Law

中国AI大模型平台排行榜 | 10月

  作者|参商 玄玄子 编辑|星奈 媒体|AI大模型工场     国内大模型发展趋势|10月份解读   多家自主智能体产品上线,AI Agent潜力初显 从去年就爆火的AI Agent概念,在今年年底多家厂商终于推出了相关的产品,AI Agent技术从理论走向了实际应用。 10月25日,智谱推出自主智能体AutoGLM,简单来说是一款可以实现帮你进行手机操作的AI助手。用户可以一句话让AI自动完成发微信、给朋友圈点赞评论、点外卖、订酒店等。 同时,智谱AI还推出了端到端情感语音模型GLM-4-Voice 。据了解,这款情感语音模型不仅能够理解情感,有情绪表达、情感共鸣,可自助调节语速,还支持多语言和方言,并且延时更低、可随时打断。 尽管AutoGLM目前处于内测阶段,仍引起了市场不小的关注,AutoGLM出来之后,直接引爆二级市场智谱AI概念股。 与此同时,其他科技巨头也在这一领域有所布局。 在智谱推出AutoGLM的三天前,Anthropic上线 “computer use” 功能,Claude模型能够在无需人工干预的情况下完成计算机上的常规任务,包括浏览网页、文件管理和输入文字等,能够像人类一样操作电脑。 10月29日,微软开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具,该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI)。紧接着,谷歌也宣布即将推出一款能够接管计算机的人工智能,但具体细节尚未公布。 从这些厂商的动作中我们不难看出,未来AI能力不仅是在自然语言交互方面,更重要的是AI具备的智能化操作能力,而这不仅会带来新的人机交互方式的变革,更会深入地融入人民的日常生活和工作中。 然而,随着AI Agent变得更加复杂和强大,我们也必须考虑如何确保这些系统安全可靠地运行,以及如何解
中国AI大模型平台排行榜 | 10月

去老虎APP查看更多动态