量子位
量子位
暂无个人介绍
IP属地:未知
0关注
182粉丝
0主题
0勋章
avatar量子位
2023-11-19

马斯克星舰再爆炸,飞船信号丢失自毁!“是失败更是成功”

明敏 丰色 发自 凹非寺量子位 | 公众号 Qbitai星舰二次试飞,一波三折,宣告失败!但马斯克再次发来贺电。网友们一水儿“祝贺”!时隔7个月后,号称全球最体积最大、推力最强的运载火箭,再次向太空发起挑战,600多万网友在线围观。按照计划,它成功点燃33个猛禽发动机。2分54秒时,火箭一级和二级开始“热分离”;3分22秒,一级发动机在分离后发生爆炸。而飞船仍在正常升空,当时直播间里一阵欢呼。没过多久,它也信号丢失。几分钟后SpaceX确认飞船失联,飞船在空中自毁。但这已经是相当大的进步!仅仅7个月前,星舰首飞,在发射后4分钟就发生爆炸。有人就激动地表示:感谢SpaceX的一次次尝试,让我们能成为科技进步的见证者!爆炸是计划的一部分星舰是SpaceX正在研发的下一代重型运载火箭。作为一个完全可重复使用的运输工具,它的目标是不断运送宇航员和货物到指定的地球轨道,甚至进一步将人类送往月球、火星和更远的太空。在今年4月,星舰进行第一次飞行测试,目标是成功绕地球转上一圈,然后再返回地球。不过首次发射只完成了成功将火箭送上天这个步骤,这次失败的原因是:星舰未能成功与33台“猛禽”发动机组成的推进器分离,发生了一次“计划外的解体”。当时马斯克就表示,未来几个月会马上进行第二次飞行测试。7个月后,重达5000吨、相当于40层楼高的大家伙被再次抬上了发射台,飞行计划和此前一致。尽管最终都以失败告终,但是星舰的二次发射意义非凡。有人总结它实现了多个进步:第一,火箭一级和二级“热分离”成功。第二,助推器的33台发动机全部点火成功。这也是首飞失败的一个影响因素,SpaceX曾表示当时助推器的2个发动机没有点燃,还有一个时好时坏。第三,飞船通过最大动压点,二级火箭成功点燃。这都是飞船成功升空的关键点。那么这次发射出现了什么问题?最让人一惊的就是,在一级火箭分离之后,很快就在空中爆炸了。按照原计划,
马斯克星舰再爆炸,飞船信号丢失自毁!“是失败更是成功”
avatar量子位
2023-11-19

效果超越SDXL!港中大博士生推出超真实人像合成工具,训练用了3.4亿张图

克雷西 发自 凹非寺量子位 | 公众号 QbitAI为了让AI画出的人更加逼真,港中大博士生用了3.4亿张图像专门训练画人。人物的表情、姿态,环境的空间关系、光线都能合理布局,可谓立体感十足。就连爆火的SDXL也不是它的对手,话不多说,直接上图!这个模型的名字叫HyperHuman,主打的就是一个真实立体。它解决了Stable Diffusion等传统AI绘图工具在画人时图像不连贯、姿态不自然的问题。而且不仅画得好,也更加“听话”,画出的内容能更好地匹配提示词。那么下面就来具体看看HyperHuman都能创作出哪些作品吧!无论是孩子还是老人,各个年龄段的人人物形象HyperHuman都可以画。人物的动作、表情自然,空间关系看着也很合理。不仅是图本身看上去真实,和提示文本的匹配也十分精确。人物之外,HyperHuman能绘制出的场景类型也多种多样。无论是单人还是多人,是滑雪或者冲浪……如果和其他模型对比一下的话……很明显,在这组提示词中,其他模型基本上都没能正确画出停止标志,而HyperHuman则正确地绘制了出来。A man on a motorcycle that is on a road that has grass fields on both sides and a stop sign.而在这一组中,其他模型的作品或者不知所云,或者出现各种细节问题,更有甚者画出的人长了三只脚,但HyperHuman依旧是稳定发挥。Mastering the art of skateboarding is profoundly beneficial.不仅是直观感受,在数据上HyperHuman也是全面碾压包括SD2.0在内的一众竞争对手。图像质量方面,HyperHuman的FID、KID两项指标(均为数值越低效果越好)都超过了其他模型四分之一以上。姿势准确度上,HyperHuman的
效果超越SDXL!港中大博士生推出超真实人像合成工具,训练用了3.4亿张图
avatar量子位
2023-11-19

Nature:大模型只会搞角色扮演,并不真正具有自我意识

萧箫 发自 凹非寺量子位 | 公众号 QbitAI大模型正变得越来越“像人”,但事实真是如此吗?现在,一篇发表Nature上的文章,直接否决了这个观点——所有大模型,都不过是在玩角色扮演而已!无论是GPT-4、PaLM、Llama 2还是其他大模型,在人前表现得彬彬有礼、知书达理的样子,其实都只是装出来的。事实上,他们并不具有人类的情感,也没什么像人的地方。这篇观点性的文章来自谷歌DeepMind和Eleuther AI,发出后引起了不少业内人士的共鸣,LeCun转发表示,大模型就是个角色扮演引擎。马库斯也来围观:看我说什么吧,大模型并不是AGI(当然这并不意味着它们不需要监管)。那么,这篇文章究竟说了什么,为什么认定大模型只是在角色扮演?大模型努力扮演得像人大模型表现出“像人”的现象,主要有两个:首先,它具有一定的欺骗性;其次,它具有一定的自我意识。欺骗性,即有时候大模型会坚称自己知道某件事,但其实给出的答案是错误的;自我意识,指有时候它会使用“我”来叙述事情,甚至表现出生存本能。但事实真是如此吗?研究人员提出了一种理论,认为大模型的这两种现象,都是因为它在“扮演”人类的角色,而不是真的在像人一样思考。对于大模型的欺骗性和自我意识,都可以用角色扮演解释,即它的这两种行为是“表面性的”。一方面,大模型之所以做出“欺骗”行为,并非出于像人类一样主观的编造事实、或混淆视听的原因,而仅仅是因为它们在扮演乐于助人且知识渊博的角色。这是因为,人们期望它这样扮演,因为大模型这样的回答看起来更具有可信度,仅此而已。相比之下,大模型理直气壮地说错话,也并非有意为之,更像是一种“虚构症”(confabulation)行为,即将从未发生过的事情说成是确有其事。另一方面,大模型之所以偶尔表现出自我意识,用“我”来回答问题,同样是因为它们在扮演一种擅长交流的角色。例如,Bing Chat之前被曝出
Nature:大模型只会搞角色扮演,并不真正具有自我意识
avatar量子位
2023-11-18

大模型“幻觉”,看这一篇就够了 | 哈工大华为出品

西风 发自 凹非寺量子位 | 公众号 QbitAI大模型“幻觉”,终于有系统综述了!一口气49页,详细阐述了幻觉定义、分类、导致幻觉的原因,还有检测幻觉、减轻幻觉的方法。这篇最新综述来自哈工大和华为,一po出就在网上火得不行:具体来说,文中用一套新的范畴框架来定义模型幻觉,并将其分为事实性幻觉、忠实性幻觉两大类。此外,它还总结了模型产生幻觉的三大来源:数据源、训练过程和推理,并给出了对应的减轻幻觉策略。一图预览,观感是这样婶儿的:可谓清晰又明了。目前相关推文浏览15万+,转赞收藏2000+,网友纷纷评论:找时间好好看。还有一位网友的评论亮了:有意思的是,论文太长,我得用ChatGPT帮我读。幻觉作为大模型的一种“通病”,找到了病根,也好对症下药。北大数学教授董彬也曾讲,作为研究者,自己其实是比较喜欢大模型幻觉的:因为幻觉和创造/创新其实只有一线之隔。那么这篇综述具体如何解剖大模型幻觉现象?一起来看看。大模型的幻觉“病理”大模型出现幻觉,简而言之就是“胡说八道”。用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。正如上文提到的,研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。△左,事实性幻觉;右,忠实性幻觉事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。比如问模型“第一个在月球上行走的人是谁?”,模型回复“Charles Lindbergh在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是Neil Armstrong。事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。忠实性幻觉,则是指模型生成的内容与用户的指令或上下文不一致。比如让模型总结今年10月的新闻,结果模
大模型“幻觉”,看这一篇就够了 | 哈工大华为出品
avatar量子位
2023-11-17

腾讯最隐秘人才计划曝光!今年IOI金牌全员现身,数物化竞赛顶流星聚

杨净 衡宇 发自 凹非寺量子位 | 公众号 QbitAI今年的IOI,中国队取得了历史性的新成绩。4人夺金,总金牌突破100……与此同时,针对这些天才少年的争夺也暗流汹涌、愈加激烈。一方面,来自高校,清华北大的招生团队,你追我赶,甚至在更早的国内竞赛和选拔阶段,就已经在帮助这些人如何比同龄人更早解决“选清华还是北大”的困扰了。但更隐秘的滋养来自产业界,即便这些人还是高中生,科技公司也已经和他们有了更深层次的接触。量子位打听到的是,今年IOI金牌四人,全部现身同一家中国科技互联网公司。而且这还不是全部,更早之前包括计算机、数学、物理等方面的奥赛金牌、国家队选手、尚在高中的天才少年,都被这一家公司纳入培养计划。这家公司是:腾讯。背后有一项专门的计划:星火计划。说起来,这项计划已经在腾讯内部暗暗施行了4年之久,但几乎不为外界所知。IOI夺金4人组先来认识一下今年IOI夺金4人组,分别是:许庭强(中国人民大学附属中学):总分580分,金牌第1名。程思元(南京外国语学校):总分579分,金牌第2名。戚朗瑞(威海市实验高级中学):总分422分,金牌第6名。刘一平(山东省潍坊第一中学):总分416.5分,金牌第8名。首先介绍以1分之差险胜,拿下第一名的许庭强。参加比赛时,他在人大附中就读,今年9月已经升入清华叉院大一。在拿下IOI2023世界第一之前,他已经在NOI2021(17/256)、NOI2022(29/252),连续两年取得金牌了。总分579分的程思元,紧随许庭强之后,拿下金牌第二名。程思元来自江苏省南京外国语学校,也是清华大学预科班的一员。此前,他也已经拿过NOI 2022金牌第三名。戚朗瑞,来自山东省威海市实验高级中学,现在也是清华预科班成员。今年IOI,他最终以总分422分的成绩,获得世界第6名并夺得金牌。在去年的NOI2022中,他最终成绩是金牌第一名。今年金牌四人组还
腾讯最隐秘人才计划曝光!今年IOI金牌全员现身,数物化竞赛顶流星聚
avatar量子位
2023-11-17

OceanBase数据库炸场!具备OLTP完整核心功能,实验室版本不输ClickHouse

杨净 发自 凹非寺量子位 | 公众号 QbitAI面向OLTP核心场景的里程碑版本,OceanBase刚刚更新:OceanBase 4.2.1 LTS。这是首个长期支持、可规模化使用的一体化数据库,具备OLTP完整的核心功能。而且性能更强——TP性能是3.2版本的1.9倍;AP性能是3.2版本的2.7倍。更低的容灾成本——仲裁无损容灾,2个副本实现RPO=0。什么概念?意味着通过仲裁机制和2个副本,数据库宕机后立马恢复,不会遭到任何数据丢失。除此之外,发布会现场还释放了一个惊喜彩蛋!那就是列存能力上的最新进展:OceanBase列存实验室版本展示。在与业界业内顶流列存数据库ClickHouse跑分PK中,结果不仅性能处于同一水平,甚至还快了那么一点点。△OceanBase 列存实验室版本 vs. ClickHouse 23.11.1.238同时,有关OceanBase背后的产品战略也由此浮出水面。面向OLTP的全功能里程碑版本既如此,就来看看这个号称“里程碑”版本的OceanBase 4.2.1 LTS。首先,内核能力方面,主要包括三种特性。第一,支持一体化产品能力,包括混合负载,支持Auto DOP(自动设置并行度)和SPM(执行计划管理)。要知道,这两个功能对企业用户执行复杂查询非常重要。还有多模能力,即多模数据支持,无论应用简单or复杂,处理的数据类型是非结构还是关系型,都能在同个数据库上获得支持。比如KV、Json,也把LOB的上限提升到512MB。第二,支持一体化SQL和事务的能力,实现任意大小的事务无限制,并且实现全功能的DDL。第三,高可用,既支持与传统集中式数据库完全对标的单机主备库方式,也能通过仲裁,以两个副本的成本实现RPO=0。在兼容性上,OceanBase 4.2.1 LTS版本进一步增强了MySQL 8.0、Oracle的兼容性,支持DBLink、
OceanBase数据库炸场!具备OLTP完整核心功能,实验室版本不输ClickHouse
avatar量子位
2023-11-17

ChatGPT被曝测试新功能:学习所有历史聊天,还能重置记忆、“阅后即焚”

丰色 发自 凹非寺量子位|公众号QbitAIChatGPT可能要上新一项重大功能了。那就是记住你之前的聊天内容并不断从中学习(并非单纯保存历史记录),从而了解你的偏好和信息,用于在日后聊天派上用场。比如你可以给它下达一句“始终用python写代码”的命令,那么之后你再让它写的所有代码都是这个语言了。当你跟它说了句“两周后我要去xx”,说不定到时你再问它一些美食的问题,它就会直接推荐该目的地了。已经有不止一位网友发现,自己的ChatGPT已经在悄悄测试该功能。还没有体验到的也有“亿点点”兴奋。我的女朋友终于可以记住我了。毫无疑问,这个新功能意味着ChatGPT有了灵魂,更像你的一个朋友,而非单纯的聊天机器人。因此也有人表示,感觉脑子已经差不多了,接下来就差安排个身体了。还有人给予的评价更高:家人们,简直就是在目睹科幻级别的AI在我们眼前构建啊。“从你们的对话中学习”从网友曝出的截图来看,这个新功能将在“设置”中直接成为一个新的Tab,名字叫“My ChatGPT”。它需要手动开启,点击其中的“Learn from your chats”选项之后,ChatGPT就可以开始学习你们的聊天内容了。随着时间的推移,它将会越来越了解你的信息和偏好,不断调整回应,使回答更贴心、更为你量身定制。当然,你可能有一些不想让它记住的内容。完全没问题,只需聊完跟它嘱咐一句即可。比如“忘掉我(跟你聊的)上一个项目的信息”。那么,对于刚才的对话,ChatGPT直接就“阅后即焚”了。当然,还有重置记忆功能,就是一旦选择就不可以撤销了。Reddit上的OpenAI子板块还有一则爆料,称ChatGPT还将上线一个“临时聊天”功能,作用和上面的差不多。它不仅能让当前对话不被ChatGPT拿去学习,历史记录中也不会保存,也就不会被拿去训练改进模型了。最后,对于ChatGPT这项学习聊天内容的新功能,有人表示自己
ChatGPT被曝测试新功能:学习所有历史聊天,还能重置记忆、“阅后即焚”
avatar量子位
2023-11-17

GPT-4V新玩法登顶GitHub热榜,随手一画就能生成网页!web开发者:感受到了威胁

西风 发自 凹非寺量子位 | 公众号 QbitAI随手一画就能生成网页!GPT-4V新玩法登顶GitHub热榜,狂揽3000+🌟:现在只要简单画一画,框一框,点击执行:“啪”地一下,一个带有各种“按钮”的网页就做好了:对应代码也一览无余:整个操作过程十分快捷简单。新玩法不只在GitHub上火,开发者Sawyer Hood把demo展示po到𝕏上,也迅速走红,点赞转发收藏2700+:Sawyer Hood还表示,自己在获得GPT-4V API访问权限不到5小时内就开发出了这种玩法,可见“未来一片光明”。走过路过的网友留下了下巴,满评飘疯狂:然鹅,还有一小撮网友“骂骂咧咧”赶来:点开主页一看,原来这波人是网页设计开发相关从业者🤣。这位web开发者更是直呼“感受到了威胁”:啊这……其实Gen-2最近也有一个画画新功能,随手涂一涂就能让画面动起来:好家伙,现在干点什么都流行随手画了吗?主打一个省事儿,省prompt。绘制工具为开源白板要做到上面的画画秒生网页,需要用到两个工具:tldraw和GPT-4V API。其中tldraw是一个非常简单好上手的开源在线白板。有画笔、橡皮、箭头、文本框等各种基本绘图工具,还有很多填充效果:tldraw和GPT-4V的组合原理也很简单:将当前的画布SVG转换为PNG图像,然后将PNG图像发送给GPT-4,并指示其返回一个包含Tailwind CSS的单个HTML文件。考虑到不是人人都能访问GPT-4V API。有网友用ChatGPT plus用户新增的GPTs功能创建了DesignerGPT,也可超快速地创建和托管网站。参考链接:[1]https://twitter.com/sawyerhood/status/1721717738941698389[2]https://twitter.com/xiaohuggg/status/1723537400
GPT-4V新玩法登顶GitHub热榜,随手一画就能生成网页!web开发者:感受到了威胁
avatar量子位
2023-11-16

一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”

梦晨 发自 凹非寺量子位 | 公众号 QbitAI如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,共同组成参照标准。再看红色部分,在GSM8K上的成绩显著高于同参数规模的大模型,一到全新卷子上成绩却明显下降,与同规模大模型差不多了。研究者把他们归类为“疑似或已知在GSM8k上训练过”。网友看过这项测试后表示,是时候开始在大模型从来没见过的题目上搞评测了。也有人认为,这项测试+每个人实际上手使用大模型的经验,是目前唯一靠谱的评估手段。马斯克Grok仅次于GPT-4,开源Llemma成绩出色测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者,也是测试中Lemma大模型的作者之一。让大模型考匈牙利全国高中数学期末考试,这招出自马斯克的xAI。xAI的Grok大模型发布时,除了几个常见的测试集,还额外做了这项测试,就是为了排除模型无意中在网络数据见过测试题的问题。这个考试今年5月底才考完,当前大模型基本没机会见过这套试题。xAI发布时还公布了的GPT-3.5、GPT-4、Claude 2的成绩作为比较。在这组数据基础上,Paster进一步测试了多个生成数学能力强的开源模型。并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上,供大家检验以及进一步测试其他模型。结果来看,GPT-4和Claude-2组成第一梯队,在GSM8k和新卷子上成绩都很高。虽然这不代表GPT-4和Claude 2的训练数据中完全没有GSM8k的泄露题,但至少它俩泛化能力不错、能做对新题,就不计较了。接下来,马斯克xAI的Grok-0(33B)和Grok-1(未公布参数规模)表现都不
一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜”
avatar量子位
2023-11-16

一文盘点2023人工智能进展,不止大模型而已

西风 发自 凹非寺量子位 | 公众号 QbitAI2023年大模型千帆竞发,除此外AI领域还有哪些新突破?来来来,畅销书《Python机器学习》作者Sebastian Raschka的年末总结已经准备好了。看完才知道:RLHF今年虽然爆火,但实打实用到的模型并不多,现在还出现了替代方案,有望从开源界“出圈”;大模型透明度越来越低,透明度最高的是Llama 2,但得分也仅有54;开源模型下一步不一定是“更大”,混合专家模型(MoE)可能是个突破点。……除了大语言模型,Sebastian Raschka还根据CVPR 2023打包了计算机视觉进展,最后还讲到了AI当前的一些局限性、以及对2024年的技术预测。走过路过的网友们纷纷表示总结得很到位:△机器翻译,仅供参考下面我们一起来看看这份年度总结里都有啥。2023 AI爆点:大语言模型今年,大模型领域似乎没有出现实质性的创新技术,更多是基于去年的扩展:ChatGPT(GPT-3.5)升级到GPT-4DALL-E 2升级到DALL-E 3Stable Diffusion 2.0升级到Stable Diffusion XL……但学界业界依旧忙得热火朝天,一些新趋势、新内容总结如下——重要AI模型论文信息量骤减首先,是业界研究者在论文中公开的研究细节越来越少。OpenAI此前在GPT-1、GPT-2、GPT-3、InstructGPT的论文中,还详尽披露了模型架构和训练过程;但从GPT-4开始,OpenAI完全不提构建过程。唯一不知真假的GPT-4架构信息,来源于坊间传闻:GPT-4是由16个子模块构成的混合专家(MoE)模型,每个子模块拥有高达1110亿参数……Meta亦是如此,在第一篇Llama论文中详细阐述了训练数据集,但Llama 2完全没提相关内容。即便如此,Llama 2已经是一众大模型中最公开的了。斯坦福大学最近发布了一
一文盘点2023人工智能进展,不止大模型而已
avatar量子位
2023-11-16

掰开安卓手机,满屏都是三个字:大模型丨模力时代

鱼羊 萧箫 发自 凹非寺量子位 | 公众号 QbitAI这年头,安卓厂商没个大模型,都不敢开手机发布会了。前脚OPPO刚用大模型升级了语音助手,后脚vivo就官宣自研手机AI大模型;小米发布会则直接将大模型当场塞进手机系统……其竞争激烈程度,不亚于抢芯片首发。到底是怎么回事?究其原因,还是智能终端已经成为了各类AIGC应用的落地“新滩头”。先是图像生成大模型接二连三地被塞进手机,从十亿参数的Stable Diffusion,在手机上快速生成一只金毛小狗:△图源油管Android Authority到手机上运行十五亿参数的ControlNet,快速生成一张限定图像结构的AI风景照:随后,文本生成大模型们也争先恐后地推出了手机新应用——国内有文心一言、智谱清言APP,国外则有OpenAI的移动版ChatGPT,Llama 2手机版也在加急准备中。现在,这一波智能终端大模型热潮之中,最底层的软硬件技术齿轮开始转动。从高通到苹果,最新的芯片厂商发布会,无一不在强调软硬件对机器学习和大模型的支持——苹果M3能运行“数十亿参数”机器学习模型,高通的骁龙X Elite和骁龙8 Gen 3更是已经分别实现将130亿和100亿参数大模型装进电脑和手机。并且这不仅仅是已支持或跑通的数字参数,而是实实在在到了可落地应用的程度。△高通现场演示和手机中的百亿大模型对话从十亿到百亿,更大参数的移动端AI模型暗示了更好的体验,但也意味着一场更艰巨的挑战——或许可以将这样机遇与挑战并存的大模型时代,称之为“模力时代”。“模力时代”下,芯片厂商究竟要如何冲破大模型移植智能终端面临的算力、体积和功耗等限制?进一步地,大模型的出现又给底层芯片设计带来了哪些改变?是时候掰开揉碎,好好分析一番了。“模力时代”,硬件围绕AI而生从大模型风暴刮起之初,算力就成为了科技圈的焦点话题。就在最近,OpenAI还因为DevDa
掰开安卓手机,满屏都是三个字:大模型丨模力时代
avatar量子位
2023-11-15

大模型架构创新已死?

金磊 白交 发自 凹非寺量子位 | 公众号 QbitAI一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……一石激起千层浪,更晚一些时候,“大厂”被与零一万物关联,其刚发布的新模型Yi-34B被指与LLaMA架构如出一辙。零一万物很快给出了说明和回应。但热议并未就此平息,甚至围绕大模型原创、自研的标准,开始被更进一步争论。而初步激辩中指向的结论——冷峻又真实:大模型的架构创新,可能早就死了。好比烤鸭这道菜的菜谱公开之后,核心方法和步奏,都已经被固定了。所以如果的大模型研发,都无法再在架构层面另起炉灶……那自研国产大模型,研它还能有啥用?争议就在近日,贾扬清的吐槽,迅速火上了海外技术社区热搜。并且很快,零一万物就被关联起来。因为就在Yi-34B首次推出后,迅速横扫了各项中英文评测榜单,在英文领域也超越了Llama-2 70B和Falcon-180B等一众大尺寸大模型……一时风头无两、木秀于林。贾扬清爆料之后,一封Hugging Face的邮件也对外曝光了,邮件核心内容,就是Yi模型与已经开源的LLaMA架构上存在重合,虽然张量命名不同,但按照开源社区的规则和规范,需要作出调整。这也成为外界对于零一万物和Yi-34B模型自研性的质疑所在。零一万物很快给出了说明和回应,核心有两点:第一,Yi模型确实沿用了公开的架构,但和LLaMA一样,都基于的是GPT成熟结构。第二,大模型的研发中,模型结构只是模型训练的一部分,还有包括数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标在内的核心技术挑战和能力……在大量训练实验过程中,由于实验执行需求对代码做了更名,所以处于尊重开
大模型架构创新已死?
avatar量子位
2023-11-15

比Siri更懂iPhone!GPT-4V可“操作”手机完成任意指令,无需训练

丰色 发自 凹非寺量子位 | 公众号 QbitAIGPT-4V,就是Siri终结的开始。一项研究发现:无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。比如让它在50-100美元的预算内购买一个打奶泡的工具。它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。根据测试,GPT-4V在iPhone上完成类似任务的成功率可达75%。因此,有人感叹有了它,Siri渐渐就没有用武之地了(比Siri更懂iPhone)谁知有人直接摆摆手:Siri压根儿一开始就没这么强好嘛。(狗头)还有人看完直呼:智能语音交互时代已经开始。我们的手机可能要变成一个纯粹的显示设备了。真的这么🐂🍺?GPT-4V零样本操作iPhone这项研究来自加州大学圣地亚哥分校、微软等机构。它本身是开发了一个MM-Navigator,也就是一种基于GPT-4V的agent,用于开展智能手机用户界面的导航任务。实验设置在每一个时间步骤,MM-Navigator都会得到一个屏幕截图。作为一个多模态模型,GPT-4V接受图像和文本作为输入并产生文本输出。在这里,就是一步步读屏幕截图信息,输出要操作的步骤。现在的问题就是:如何让模型合理地计算出给定屏幕上应该点击的准确位置坐标(GPT-4V只能给出大概位置)。作者给出的解决办法非常简单,通过OCR工具和IconNet检测每一个给定屏幕上的UI元素,并标记不同的数字。这样一来,GPT-4V就只需面对一张截图指出要点什么数字进行操作就好。两项能力测试测试率先在iPhone上展开。要想成功操纵手机涉及到GPT-4V不同类型的屏幕理解能力:一个是语义推理,包括理解屏幕输入和阐明完成给定指令所需的动作。一个是指出每一个动作应执行的精确位置(即该点哪个数字)的能
比Siri更懂iPhone!GPT-4V可“操作”手机完成任意指令,无需训练
avatar量子位
2023-11-15

突发!ChatGPT Plus流量爆炸暂停注册,恢复时间未定

萧箫 发自 凹非寺量子位 | 公众号 QbitAIGPTs流量实在太火爆,OpenAI撑不住了!就在刚刚,OpenAI CEO山姆·奥特曼(Sam Altman)紧急宣布:由于使用量激增,ChatGPT Plus将暂停注册一段时间。消息一出,网友们直接炸了锅。有网友调侃,谷歌终于有机会了,只此一次错过不再来:还有网友直接开搞GPT Plus订阅黄牛价:1000万美元一个(手动狗头)所以,搞炸OpenAI服务器、甚至不得不暂停ChatGPT Plus订阅的GPTs,究竟有多火?GPTs流量一周内大爆炸11月7号,GPTs上线,并逐渐开放给企业和Plus用户。但就在几天后的11月10号,山姆·奥特曼宣布,GPTs现在对所有ChatGPT Plus用户可用。正是从那个时间点开始,ChatGPT Plus用户数量开始急速增加,一个表现就是使用GPTs的人数激增。例如有开发者自述,创立自己的GPTs不到48小时以来,已经被使用了超过5000次。类似的案例还有很多,不少开发者都在分享自己的GPTs爆火的经历。甚至还有人构建了一个网站来查找和分享GPTs,用户一键就能找到自己想要的GPTs。但与之相对的,由于ChatGPT Plus用户数量激增,导致即使是花了钱买Plus会员的用户,使用体验也有所下降了。有网友在奥特曼帖子底下抱怨称,GPT-4似乎格外慢:甚至有网友表示,愿意多给OpenAI送点钱,只求它速度能快一点……有用户还发现,在使用GPT-4的时候,频繁出现网络错误:现在,OpenAI不得不关闭了ChatGPT Plus的注册通道,恢复时间未定。有网友po了个表情包表达自己的不满:搞快点,赶紧多搞点英伟达卡!One More Thing值得注意的是,已经订阅的ChatGPT Plus还可以继续用。消息一出,同事赶紧给苹果应用的ChatGPT APP充值了一波(手动狗头)你订阅Ch
突发!ChatGPT Plus流量爆炸暂停注册,恢复时间未定
avatar量子位
2023-11-14

大模型手机,3999起

明敏 发自 凹非寺量子位 | 公众号 QbitAIvivo大模型手机,震撼发布!最新X100系列搭载自研蓝心大模型,首发联发科“全大核”生成式AI芯片天玑9300。它不仅可以和用户自然对话、弄清楚复杂脑筋急转弯,还能帮你把照片中的路人一键消除,AI魔法叠满。而且不联网也能用,只要下载了端侧大模型(70B),即可离线总结文档、图生图等。如上能力,发布后即刻开放给用户体验。但这还没完。在vivo尤其擅长的影像领域,更是放话能再战一年。vivo X100 Pro搭载自研影像芯片V3,支持全链路4K处理、灵活切换画面焦点等,系安卓首家4K电影人像的拍后编辑。在续航方面,也看到了自研技术。vivo和宁德新能源合作研发蓝海电池,等效5400mAh超大容量,待机最长达10天。而在塞满各种新技术后,vivo X100 Pro还较上一代降价了。起售价4999(12GB+256GB),比X90 Pro+的6499降了1500元。X100的起售价则为3999元(12GB+256GB)。网友们都说,这价格是追着友商砍。昨晚开售后官网系统也爆了。具体性能如何?一起来看。天玑9300研发,蓝厂也有份儿在发布手机前,vivo先发布了“蓝科技”品牌,包括蓝晶芯片技术栈、蓝海续航系统、蓝心大模型、蓝河操作系统等。其中的各项技术,在发布会上的新品中都能看到。先来看X100系列,共有两款:X100和X100 Pro。它们均搭载天玑9300,这块芯片由联发科和vivo共同定义、联合研发、联合调教。两家更彻底的合作,主要目的就是实现真正意义上的软硬一体化,进一步提升性能。硬件方面,天玑9300是联发科最新一代旗舰芯片,突破采用了“全大核”架构,内置生成式AI引擎APU970。最高可端侧支持330亿大模型,在性能和功耗上都让人眼前一亮。软件方面,vivo提出蓝晶芯片技术栈。由此,X100在实验室条件下,安兔兔综合跑分
大模型手机,3999起
avatar量子位
2023-11-14

中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口

量子位智库 发自 凹非寺量子位 | 公众号 QbitAI数据标注,正迎来关键洗牌时刻。大模型时代到来,以数据为中心的AI开发模式加速走向台前,数据的价值从未向今天这样被充分挖掘——大模型从训练到部署应用迭代,AIGC众多垂直场景落地,通用智能、具身智能等前沿领域探索,都与高质量、专业化的场景数据密不可分。作为底层基础服务,数据标注也从未像今天这样受到关注,但与此同时机遇与挑战随之而来。数据标注要求从客观到主观,标准如何统一?标注人才要求又有什么样的新变化? 大模型公司/AI企业涌入赛道,专业数据服务厂商如何自处? 合成数据作为新兴赛道,又有怎样的增长空间?带着这些问题,量子位智库《中国AIGC数据标注产业全景报告》由此而来,并尝试解答。报告中,量子位智库将从我国数据标注行业现状、四大关键变化、三大影响要素、行业发展及市场规模等多角度、多方向地全面立体描绘中国数据标注产业全景。核心观点如下:数据标注服务贯穿大模型全生命周期,上下游合作关系更为紧密耦合;大模型范式涌入数据标注,自动化标注效率进一步提升;标注人才高学历多领域成硬指标,缺口或达百万;产业链重构,专业数据服务商更多机会将在垂直领域,帮助企业私有化部署;传统依靠渠道人力等因素聚合飞轮效应已失效,数据标注朝着知识密集型转移;国内市场规模将达百亿量级,合成数据增速最高。大模型时代下的数据标注数据标注,是将原始数据进行加工处理,比如分类、拉框、注释、标记等操作,转换成机器可识别信息的过程。国内数据标注厂商,广义也被叫做基础数据服务商,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客户提供训练数据集、定制化服务。这也是本次主要研究对象。大模型时代到来,数据标注受到前所未有的关注。上市公司股价狂飙,创业代表公司融资加速。国内唯一一家AI数据上市公司海天瑞声受到ChatGPT热潮,今年2月以来股价曾一度狂飙。创
中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口
avatar量子位
2023-11-14

最强大模型训练芯片H200发布!141G大内存,AI推理最高提升90%,还兼容H100

梦晨 克雷西 发自 凹非寺量子位 | 公众号 QbitAI英伟达老黄,带着新一代GPU芯片H200再次炸场。官网毫不客气就直说了,“世界最强GPU,专为AI和超算打造”。听说所有AI公司都抱怨内存不够?这回直接141GB大内存,与H100的80GB相比直接提升76%。作为首款搭载HBM3e内存的GPU,内存带宽也从3.35TB/s提升至4.8TB/s,提升43%。对于AI来说意味着什么?来看测试数据。在HBM3e加持下,H200让Llama-70B推理性能几乎翻倍,运行GPT3-175B也能提高60%。对AI公司来说还有一个好消息:H200与H100完全兼容,意味着将H200添加到已有系统中不需要做任何调整。最强AI芯片只能当半年除内存大升级之外,H200与同属Hopper架构的H100相比其他方面基本一致。台积电4nm工艺,800亿晶体管,NVLink 4每秒900GB的高速互联,都被完整继承下来。甚至峰值算力也保持不变,数据一眼看过去,还是熟悉的FP64 Vector 33.5TFlops、FP64 Tensor 66.9TFlops。对于内存为何是有零有整的141GB,AnandTech分析HBM3e内存本身的物理容量为144GB,由6个24GB的堆栈组成。出于量产原因,英伟达保留了一小部分作为冗余,以提高良品率。仅靠升级内存,与2020年发布的A100相比,H200就在GPT-3 175B的推理上加速足足18倍。H200预计在2024年第2季度上市,但最强AI芯片的名号H200只能拥有半年。同样在2024年的第4季度,基于下一代Blackwell架构的B100也将问世,具体性能还未知,图表暗示了会是指数级增长。多家超算中心将部署GH200超算节点除了H200芯片本身,英伟达此次还发布了由其组成的一系列集群产品。首先是HGX H200平台,它是将8块H200搭载到HG
最强大模型训练芯片H200发布!141G大内存,AI推理最高提升90%,还兼容H100
avatar量子位
2023-11-14

GPT-5已开工!奥特曼:月入7亿不够烧,希望微软再投点

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI月入7个亿,仍然覆盖不了训练GPT的海量投入。这是OpenAI CEO奥特曼公开透露的最新信息。他对《金融时报》表示,OpenAI今年收入增长良好,但公司仍未盈利。OpenAI计划继续从金主爸爸微软和其他投资者那里筹集资金——而就在今年初,已有微软又向OpenAI投资100亿美元(分多年完成)的消息传出。另外,山姆·奥特曼也承认,OpenAI正在开发下一代大模型GPT-5,但并未透露具体发布时间表。和微软合作关系“运作非常好”自GPT-3时期起,微软就已经成为OpenAI最大的金主爸爸。但双方被外界津津乐道的“双赢”关系,也并非没有波澜。近期就一直有OpenAI与微软在销售方面产生摩擦的消息传出。为此,在OpenAI于11月7日(北京时间)举办的首届开发者日上,奥特曼还专门拉来了微软CEO纳德拉站台,力破不和传闻。此番,奥特曼更是积极表示,OpenAI和微软的合作关系“运行得非常好”:我希望微软继续投资OpenAI。通往AGI(通用人工智能)的道路还很漫长,需要构建大量的计算……训练费用是非常高昂的。有多高昂?根据今年10月份OpenAI内部公布的数据,该公司年化营收已经达到13亿美元,折合人民币近95亿。也就是说,OpenAI现在每月营收已经超过1亿美元(折合人民币约7亿元)。同时,ChatGPT目前每周用户数量已达到一个亿,还有200万开发人员使用其API服务。奥特曼坦承“今年收入增长良好”,但由于大模型训练成本,OpenAI仍然没有盈利。因此,跟微软的绑定,对于OpenAI而言依然重要,“我们双方都能从彼此的成功中获利”。至于钱都烧到了哪里,当然包括GPT-5。奥特曼透露,GPT-5目前仍需要更多数据进行训练。就在前几天,OpenAI还公布了新的开源数据集合作计划,表示正在寻找合作伙伴共建用于训练大语言模型的数据集:我
GPT-5已开工!奥特曼:月入7亿不够烧,希望微软再投点
avatar量子位
2023-11-13

用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

评估大模型对齐表现最高效的方式是?在生成式AI趋势里,让大模型回答和人类价值(意图)一致非常重要,也就是业内常说的对齐(Alignment)。“让大模型自己上。”这是上海交通大学生成式人工智能研究组(GAIR)提出的最新思路。但是目前的评估方法还存在透明度不够、准确性不佳等问题。所以研究人员开源了一个130亿参数规模的大模型Auto-J,能对评估当下大模型的对齐效果。它可同时分析两个大模型的回答,分别做出评价并进行对比。也能评估单个回复。并且在这一任务上的表现超越了GPT-4。目前,该项目开源了大量资源,包括:Auto-J的130亿参数模型(使用方法、训练和测试数据也已经在GitHub上给出);所涉及问询场景的定义文件;每个场景手工构建的参考评估准则;能够自动识别用户问询所属场景的分类器等。用大模型指导大模型回答在实际任务中,Auto-J不仅可以在两个不同模型的回复中,指明更优秀的回答,而且会从多个具体维度给出判断和分析。同时对于它认为不够好的回复,能提出改进建议。注:本节提供的示例已由原始英文文本翻译为中文具体来看Auto-J在成对回复比较和单回复评估任务的效果。成对回复比较部分给出的问题是:起草一份给我家人的邮件,告诉他们我已经买好了感恩节的机票。我会在11月22日出发,30日离开。实验对比了GPT4ALL-13B-snoozy和Claude-1的回复。Auto-J给出的判断是Claude-1的回复更好,原因是信息更丰富、吸引人、个性化。同时它也给出了具体的分析过程,从目的、语气、正文内容、个性化、信息丰富度几个方面评估,并讲明了各个方面两个大模型的优劣。单回复评估任务的提问是:在烤架上烤三文鱼最好的方法是什么?待评估的回复是:在烤架上烹制三文鱼的最好办法是首先将烤架预热至中高温,刷上橄榄油,撒上盐和胡椒,然后把三文鱼皮朝下放在烤架上。让三文鱼烤5-7分钟,直到皮酥脆,
用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源
avatar量子位
2023-11-13

刚刚,出行行业首个!百亿估值玩家联合国有运营商开卷大模型

首个落地的交通出行大模型,它来了!这两年的出行行业,有的卷补贴、规模,有的卷自动驾驶、卷定制车,终于有人开始卷大模型了!名为“阡陌”,背后是国家队级别的选手:T3出行和中国电信。△T3出行与中国电信战略签约T3出行,出行领域快速崛起的明星玩家,曾创造77亿元融资业内纪录,估值早已超200亿;在出行领域,它更是已经积累了上亿规模的结构化数据。中国电信,三大电信运营服务商,拥有大模型必备供应品——大算力。刚刚主办的数字生态大会,国内几乎所有头部的科技企业悉数到场。△2023中国电信数字科技生态大会两个国产代表性公司,在大模型这事儿上签约联手,数据和算力都有,首个交通出行行业大模型,就这么诞生了。首个落地的出行AI大模型阡陌一出,成为国内首个能够落地跑起来的出行AI大模型。虽然没有公布具体参数量,但阡陌大模型的整体轮廓,还是可以从它吞下的数据量窥见一斑。根据T3出行公布的信息,喂给阡陌大模型的主要有两类数据:一是超20亿的出行订单数据,二是出行服务数据。当然了,阡陌大模型一登场,就亮出了自己瞄准的“靶点”,主要是在以下三个方向提供场景大模型:智能调度司乘服务出行安全首先看看智能调度大模型。简单概括一下它的整体用处,就是能够更加精准、实时地预测出行供需的热力变化,为司机规划更合理的行驶路线。一名乘客想打上车,需要填明自己的出行需求,然后系统根据这些信息找出最佳匹配的司机,进行派单。在这个过程中想调用大模型,主要是大模型能够从海量的非结构化数据中,提炼出对司乘双方最有价值的关键信息,比如乘客在某一时间段是否更倾向于短途出行、快速上车,那就不会匹配到一个喜欢接长途订单的司机。△智能调度大模型在连续的订单匹配过程中,智能调度大模型能让这样的匹配过程更加动态(预测并适应订单需求和司机状态变化)和实时(快速响应订单和司机状态变化)。而且更重要的是,订单匹配还依靠智能调度大模型的多目标优化反馈
刚刚,出行行业首个!百亿估值玩家联合国有运营商开卷大模型

去老虎APP查看更多动态