教穿搭、陪看展、评画作,豆包「潮」起来
图片
一旦AI找到合适的场景,哪怕用户不知道背后的技术,也会对AI本身的能力认知产生具象感知。
作者 | 耀耀(上海)
豆包正在加速进入更多生活场景,并且是用很潮流的方式。
最新的进展是,豆包在浦东美术馆(MAP)两项年底大展中担任官方AI讲解员,双方通过独家数据合作和定向搜索优化,进一步提升了豆包识别和讲解结果的准确性。用户在整个展览期间,打开豆包 App「视频通话」按钮,或是拍照发给豆包,就能体验AI讲解服务。
图片
实地体验了豆包的AI讲解服务后,我们确实认为AI正在重构以及优化我们的观展体验。
在《非常毕加索:保罗•史密斯的新视角》展览中,我没有像往常一样拿起单向输出的传统导览机,或者尽力弯腰凑到小小的展签跟前,而是带上耳机,打开了豆包 App 里的「视频通话」。
我将手机对准一幅毕加索创作于1902 年的充满忧郁气息的《男人肖像》,并轻声问道:「为什么这幅画被策展人放在了展览的第一位?」
「这幅画是毕加索 「蓝色时期」 的代表作,奠定了他作为伟大艺术家的起点,当时的他只有 21 岁,却已经开始用成熟的笔触表达对社会边缘人群的关注和同情。其次,策展人想让观众一进展厅就直面毕加索作品里那种直击人心的力量,这种对苦难的凝视和人文关怀,是理解他后来所有艺术革新的情感基础。」
图片
豆包还不忘提醒我,「你可以注意他身后墙上露出的风景画一角,这种对空间的截取处理,让人物和现实世界的关系变得很疏离,也更突显了他的孤独。」
随后的看展过程中,即使我随意向TA分享我入门级的个人主观感受,豆包也能够从容地用TA掌握的艺术史知识,给我的主观感受提供客观支撑。
比如,当我问豆包,毕加索1953年画的《与玩具卡车玩耍的孩子》中,想要呈现的小孩状态是什么样的?豆包会准确地告诉我,画里的小孩应该是他的儿子克劳德,并且引导我进一步注意小孩的身体状态——「你看他整个身体都蜷成一团,脸几乎贴到了玩具车上,这种夸张的肢体动作其实是毕加索在捕捉孩子玩耍时那种全神贯注、物我两忘的状态。」
图片
那一刻,因为有豆包的提示,你会对毕加索高超的艺术表现能力有更深刻的体悟,也当然会对豆包能敏锐捕捉用户追问意图的能力印象深刻。
甚至我只是门外汉地对一幅画发出「这幅画画风也太杂糅了」的感慨,豆包也可以将我所谓的「杂糅」具像化为:「你说的是那种又立体又童趣、甚至带点超现实的感觉吧?这种混搭其实是毕加索试着用最丰富的方式,去捕捉孩子那种既真实又有点奇幻的精神世界。」
坦白来说,非艺术史的我,以前看展很多也是囫囵吞枣,即使有官方提供的人工讲解、语音导览、VR导览,这种讲解也大多是内容有限且单向输出的。
但有了豆包这个可以实时交互、视觉共享、共同感知的「看展搭子」,我轻松了不少,也学到了不少,在整个看展过程中,TA既可以是所谓实用主义知识结构层面的支持者,同时也能够与你的感受甚至情绪共鸣。当然,这种情绪共鸣会始终面临过于迎合还是批判对抗,过于干预还是适度留白的尺度考验。
这种实时交互,甚至让豆包的AI讲解释放某种开放性的启发特质。因为其具备上下文感知能力的实时交流,可以将看展从一个单向摄入的文化体验,变成实时交互的深度探索。
媒体人鲁豫就说,当她看到《亚威农少女》这一章节时,豆包会主动问她是否想要了解这幅画是如何激发同代艺术家布拉克的。「TA(豆包)的知识是一环套着一环的时候,我被拽进了一个深不可测的知识海洋,在此之前我可能积累了无数的点,但是 AI 可以在瞬间把这些知识点连成线,这些线又组成了无比精妙的图画,那一瞬间我觉得很幸福。」
TA甚至能接受来自专业学者的拷问。当北京大学教授、艺术史学者朱青生围绕《图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作》中的展品「水晶马头柄匕首」讨论何为龙马精神时,TA甚至可以延伸至《周礼》,来论证龙和马的历史渊源。
图片
图片
北京大学教授、艺术史学者朱青生
当然,如果你不希望在美术馆说话,且博物馆可以拍照的情况下,也可以将文物展品的图片发给豆包,让豆包介绍。你甚至可以请豆包围绕重点展品,或是某个侧重点,设置个性化的专属逛展规划。
对于看展体验的重构,这背后当然有来自策展方以及专业人士的数据和学术能力支持,更核心的是豆包引以为傲的多模态能力。
图片
根据豆包团队的介绍,AI讲解员豆包的视频通话(video CHAT)能力,需要调用实时视觉感知、流式视频对话工具调用、自然多变对话体验和视觉主动交互四项重要能力。
有了这个能力的支撑,豆包在陪同看展过程中,就可以不再局限于「拍图、发送、提问,再拍图、再提问」的模式,而是能持续理解观众眼前不断变化的视角和场景,从而实现连续、自然、像人一样的对话交互。
而且在博物馆场景中运用AI讲解,最大的挑战是保证内容的准确性。模型不仅要能区分外观高度相似的文物、理解小众且缺乏公开资料的展品,还要能在观众移动观展、从不同角度和距离观察同一件展品时,始终保持稳定识别。
比如《图案的奇迹:卢浮宫印度、伊朗与奥斯曼的艺术杰作》展览中,一件伊朗15世纪的《牡丹纹盘》,其风格与明代永乐年间的青花牡丹纹盘非常接近。这种情况下,豆包会自动调用 VLM(视觉语言模型)能力,通过图像放大、裁切和搜索,进行精准区分。
此前,抖音上已经有一些呈现同样能力的视频,包括头部博主铁兜用豆包给家藏瓷器估价,想想工作室让豆包「拷打」自己搞艺术的朋友。他们让讲解能力走出了展厅,走向了更多泛文化场景,并带来了有趣的内容。
看展和做艺术评论之外,基于视频通话能力,豆包也正在更多场景释放其能力。垂钓者在河边让豆包「盯鱼漂」,豆包会盯着屏幕说:「能,现在漂是绿色的,没动静,我盯着呢。」直到鱼儿咬钩,TA会急促提醒:「快拉杆!」当然,前提是你的手机摄像头性能足够强大。
而在家居修理等高难度场景下,用户面对杂乱的电线,通过视频通话实时展示进度,豆包不仅能识别零件型号,还能通过摄像头观察用户的动作,指引接线并适时提醒「别忘了按开关」。此前,抖音上还流行过让豆包指导自己的穿搭。
以上种种应用展示,已经不同于搜索、聊天、娱乐等纯线上体验,或者仅仅提供一个答案,而是通过接入一个个「有效场景」,帮豆包完成从流量产品向生活基础设施的跨越,从提供答案到成为生活助手的跃迁。
一旦AI找到合适的场景,哪怕用户不知道背后的技术,也会对AI本身的能力认知产生具象感知。
毕竟纯粹的技术描述是枯燥的,但「看展助手」、「钓鱼搭子」、「修灯泡向导」是具象的,当豆包能够准确识别出复杂的莫卧儿帝国匕首工艺时,这种「强能力」是用户将其视为靠谱工具、而不仅仅是聊天产品的基础,用户对其「能干活」的信任感会迅速转化为对产品的使用。
对于具体生活场景的占领,也是包括千问在内的AI助手目前的发展策略。比如,千问通过调用阿里的生态优势,对外强调其点外卖、订酒店、查社保、买东西、整理发票、讲题等众多能力。
随着AI助手对日常生活的深度介入,一方面,行业对AI助手的期待是让TA变得更了解人、更主动,更能执行个性化的任务;另一方面,当AI助手变得无处不在时,所有用户都会想:我要什么样的AI助手,我怎么看待TA。
鲁豫在看展时就展示了这种「理性的分裂」:她高度信任 AI 帮大脑「松绑」的能力,却在创作主体性上持有一定程度的不信任感。「我不会把我的技能交给 AI,我要刻意保持一个距离……我在想,AI会不会把我这么多年的积累化成TA的知识库里面的一部分?」
图片
这种背景下,人需要更明确地界定,AI应该在现实社会中扮演好什么角色。虽然这个议题自AI诞生之初就已经展开讨论,但是,如今一部分人已经从被AI替代的恐惧中走出,开始接受和熟悉与AI协作解决生活、工作中的任务。随着AI开始全面渗透进现实,TA所扮演的角色,会决定大众是否要将自己的生活与工作全面开放给AI。
建立人与AI、AI背后的企业之间的更深度信任,在这个阶段就显得尤为重要。如此,人在与AI交互时,至少不应该担心自己会被取代。
解除担忧首先是个技术问题,其核心在于AI应该如何对齐人的价值观。这种对齐不是给AI预设诸多限制条件,限制AI的负面行为,而是需要让AI产生自己的价值判断标准。比如,1月23日,Anthropic公布了一份84页的《Claude ‘s new Constitution》文档,定义了Claude是谁,如何理解自己,以及如何在人类为主导的社会中自处。
其次,这是一个企业价值观的建设问题,一个有明确且良好价值观的企业,会更容易让TA的AI获得大众的认可。这意味着,当AI进入到大众化阶段,竞争就不仅是围绕能力进行,还会受到大众对企业价值观、品牌形象的影响。
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。


