120万用户背后:当同行卷“人声”,他们用声音模型再造“物理世界”

数科星球公众号
05-20

图片

图片

今年用户量翻倍至200-300万,它是谁?

图片

@数科星球DigitalPlanet原创

作者丨苑晶

编辑丨大兔

当下,AIGC赛道正沉浸在一场视觉革命的狂欢中。当你输入提示词,AI就能生成波澜壮阔的惊涛拍岸,或是极致细腻的赛博朋克大片。

但只要你打开声音,数字世界仍未摆脱“廉价感”。

画面里的主角在海边嘶吼,情绪拉满,可背景里的浪花声却单薄得像纸片;怪物被利刃切开,视觉极具冲击,配上的却是素材库里千篇一律的生硬音效。

视觉模型已经进化到了理解物理世界的阶段,而声音模型,却似乎还停留在“让AI把话说流利”的初级阶段。

当大厂们疯狂内卷语音合成(TTS)、追逐“更像真人的数字人声音”时,一个最基础的物理常识被整个赛道选择性忽略了——声音,从来不止是人类在说话。

那些脚步踏沙的微小摩擦、器物碎裂的清脆回响、乃至空旷山谷里的微弱混响,才是构建数字世界沉浸感的真正底座。

在这个长期被边缘化的“全维度声音”赛道里,Noiz AI 成了那个罕见的破局者。他们没有选择在单一的“人声克隆”上死磕,而是试图用声音模型再造一个真实的“世界”。

本次,数科星球DigitalPlanet深度对话Noiz AI创始人Vega,我们将这场对话字字珠玑还原,他们是如何在声音赛道另辟蹊径的?让我们一探究竟。

01

被低估的声音赛道

提起AI声音技术,多数人的第一反应是语音合成(TTS)、语音克隆,或是近两年火热的实时对话语音。

赛道里,大厂们扎堆发力“类人声”,目标是让AI说话足够自然、像真人,主打“无差别对话体验”。

可鲜有人意识到,数字内容创作的核心痛点,远不只是“人说话不够像”,而是“声音场景不够全、情绪不够足、质感不够真”。

先看最普遍的创作场景——短视频与短剧。

刷遍全网的电影解说、剧情短剧里,“小帅”“小美”的音色几乎成了标配。这种音色火于2023年电影解说爆发期,台湾腔或国内固定声线,免费、易获取,成了营销号的首选。

可这种声音的短板显而易见:情绪单一,平铺直叙,撑不起短剧里夸张的冲突、激烈的情绪爆发。

短剧的核心魅力,在于极致的情绪张力——愤怒时的嘶吼、悲伤时的哽咽、惊喜时的尖叫,这些情绪不是“标准发音”能承载的。

传统TTS技术为了保证发音准确,会刻意弱化情绪波动,导致合成语音“字正腔圆却毫无灵魂”,放到短剧里,和夸张的画面形成强烈割裂,观众很难沉浸。

再看后期配音的普遍难题。

早期AI配音最让人诟病的,是“突兀感”。创作者剪辑视频时难免说错话,重新配音后,新语音和原视频的语气、语速、音色衔接生硬,甚至出现“口型对不上、情绪断档”的情况。

名人采访场景更是如此,嘉宾不可能反复重录,一旦口误,后期修改难度极大,稍有不慎就会被听出破绽。

更高阶的影视与游戏场景,痛点更是成倍放大。

电影对声音的要求近乎苛刻:音乐厅里的声音干净无回响、空旷山谷里的回声绵长、室内对话的空间感精准,杜比多声道输出下,任何电音感、失真感都会被无限放大。

而游戏需要的声音更天马行空:从暴雨突变为加州阳光、高跟鞋踩在沙滩上的质感、切开未知生物的碎裂声,这些声音要么不存在,要么难以通过传统拟音实现。

传统拟音师是解决这类问题的传统方案——用道具模拟各类声音,比如用布料摩擦模拟雨声、用高跟鞋敲击木板模拟楼道脚步声。

但拟音成本高、效率低,一场戏的音效制作可能耗时数天,面对游戏里“日抛、月抛”的快速迭代内容,完全跟不上节奏。

更关键的是,行业长期存在一个认知偏差:声音AI=语音AI。

多数团队把所有精力放在人类语音的优化上,忽略了音效、动作声、环境音、音乐节拍等“非语音声音”。

可对于短视频、短剧、游戏创作者而言,语音只是声音的一部分,环境音和动作声才是构建沉浸感的核心。

这就是为什么很多AI生成视频画面精美,配上声音后瞬间“廉价”——声音的短板,暴露了数字世界的“虚假感”。

02

做全维度声音的“全能选手”

当行业还在卷“人声像不像”时,Noiz AI从诞生之初就选择了一条截然不同的路:不做单一语音工具,做覆盖语音、音效、动作声、音乐节拍的“all-in-one全声音解决方案”。

Vega深耕语音领域多年,2021到2025年持续运营开源语音项目Mockingbird,见证了实时语音技术的爆发,也看透了行业的核心短板——大厂扎堆做实时对话,聚焦“自然度”,却忽略了创作场景的真实需求。

于是,Noiz AI从第一天起,就把模型训练的重心放在“全声音维度”,而非单一人类语音。

不同于多数AI声音模型只接收文本输入,Noiz AI打造了任意模态输入体系——视频、文本、原始声音等多种形式都能作为输入,最终输出匹配场景的声音。

简单来说,你给一段海边视频,它能自动生成贴合画面的浪花声;你给一张游戏角色图片,它能匹配专属音色;你输入“暴雨天室内对话”,它能同时生成雨声、环境混响、人物语音,所有声音浑然一体。

这种能力,直击创作者的核心痛点。

一位短剧创作者分享,此前拍摄海边戏份时,现场收音效果极差,浪花声模糊不清,后期用普通AI工具只能生硬叠加音效,和画面节奏完全脱节。

用Noiz AI后,上传短短几秒视频,模型自动分析浪花的起伏节奏、画面氛围,生成的音效和画面完美契合,自然得像现场实录。

游戏创作者的需求更是被精准满足。

游戏里的角色动作、场景切换、道具交互,都需要专属声音——角色拔剑的清脆声、魔法碰撞的爆裂声、踩在不同地面的脚步声。

这些声音不是语音克隆能解决的,而是需要模型理解“动作与声音的关联”。

Noiz AI能根据角色动作、场景材质,实时生成匹配的动作声,甚至能生成现实中不存在的声音,比如切开岩石的摩擦声、幻想生物的嘶吼声。

在情绪表现力上,Noiz AI更是碾压行业主流产品。

对比海外头部声音工具ElevenLabs、Inworld AI,在相同音色下,Noiz AI生成的语音情绪更夸张、更饱满。

行业主流模型训练时,会把“发音准确率”作为核心指标,导致情绪被不断弱化,最终输出的声音单一平淡。

而Noiz AI从训练阶段就调整了权重,"牺牲部分发音准确性,换取极致的情绪表现力”——激动时的语速加快、紧张时的轻微颤音、愤怒时的语气加重,哪怕偶尔出现轻微口误,也完全贴合情绪,让声音更真实。

这种“情绪优先”的逻辑,完美适配短剧、游戏的场景需求。

短剧需要夸张情绪吸引观众,游戏需要强烈情绪增强沉浸感,Noiz AI的模型设计,正是为这类场景量身打造。

2025年,这套情绪优先的模型已完全成熟,成为Noiz AI最核心的差异化壁垒。

图片

03

读懂声音的物理规律,而非简单模仿复刻

很多人好奇,Noiz AI为何能做到“全声音覆盖+强情绪表现+场景精准匹配”?

答案藏在技术底层:它不是通过拼接多个小模型实现功能,也不是简单模仿现有声音,而是通过海量数据训练,读懂声音背后的物理震动规律。

行业内,不少工具实现“图片生成音色”“视频配音效”,依赖的是“agent链路拼接”——先通过视觉模型识别图片特征,再提取特征匹配音色模型,最后输出声音。

这种方式步骤繁琐、效率低,而且容易出错,一旦某个环节偏差,最终效果就会大打折扣。Noiz AI走的是端到端模型路径——一个核心模型,直接接收多模态输入,输出目标声音,全程无中间环节。

模型训练时,不聚焦无关特征,只抓取和声音相关的核心信息:角色的表情、嘴型、种族特征,场景的空间结构、材质属性,这些信息直接关联声音的音色、音量、混响效果。

这种设计不仅效率更高,而且准确度和上限远超拼接式模型。

更核心的突破,在于全声音数据混合训练,让模型掌握震动规律。多数声音模型只用人类语音数据训练,学习的是语言的语义、发音规则;而Noiz AI把语音、音效、动作声、音乐等所有声音数据放在一起训练,本质上是让模型学习“声音是震动”这一物理核心。

Vega团队和高校教授交流时发现,一个颠覆认知的结论:全声音数据混合训练,收敛速度反而更快。

因为无论人类说话、海浪拍打、器物碎裂,本质都是物体震动产生的声波,底层物理规律相通。模型学习的不是“不同声音的差异”,而是“震动的通用规律”,一旦掌握这套规律,就能生成任何符合物理逻辑的声音,甚至包括现实中从未存在过的声音。

这种能力,让Noiz AI突破了“模仿现有声音”的局限,走向“创造未知声音”。

比如,现实中没人用利刃切开岩石,模型可以根据岩石的硬度、利刃的锋利度,模拟出强烈的摩擦声、岩石碎裂的爆裂声;没人见过恐龙被切开的场景,模型可以根据恐龙的材质、体型,生成对应的撕裂声、嘶吼声。

这些声音没有现成素材可模仿,完全是基于物理规律的“原创生成”。

除了生成声音,模型还能通过声音识别材质、判断场景,对接具身智能领域。当下的具身智能,主要依赖视觉感知物体,无法判断物体的材质、硬度、空心或实心。

而Noiz AI的声音模型,能通过敲击物体的声音,精准识别材质——木头的沉闷、金属的清脆、石头的厚重,甚至能判断物体的裂缝位置、硬度弱点。这种“听觉感知”能力,能为机器人、智能体补上视觉之外的感知维度,拓展更多应用场景。

目前,Noiz AI的双声道声音生成已完全成熟,能稳定输出空间感、层次感十足的声音,适配耳机、普通外放设备;五声道、多声道技术正在攻坚,受限于高质量多声道数据稀缺,尚未商业化,但已完成核心技术验证,未来有望适配影院、专业游戏设备的高端音效需求。

04

深耕创作者痛点,从C端引流到B端

深耕技术落地的核心,是匹配真实市场需求。

Noiz AI的商业化路径,清晰且务实:以C端创作者为流量入口,以B端专业场景为盈利核心,聚焦海外市场,避开国内红海竞争。

目前,Noiz AI的全球用户约120万,核心群体是海外短视频、短剧创作者,以及游戏开发者。这类用户的需求直接、付费意愿强,且海外市场竞争远小于国内,是初期商业化的最优选择。

用户群体可分为两类:一类是泛创作者,包括海外中小短视频博主、个体短剧制作者,他们数量多、需求分散,主要使用基础配音、音效生成功能,留存率偏低,多数是“一次性用户”;另一类是专业创作者,比如成熟短剧公司、小型游戏工作室,他们有稳定业务、明确需求,付费能力强、留存率高,是Noiz AI的核心服务对象。

针对专业用户,Noiz AI会提供定制化服务:比如为短剧公司优化情绪适配模型,匹配其剧集风格;为游戏工作室定制专属音效库,贴合游戏世界观;为影视团队优化场景化声音,适配电影级空间感需求。

这类服务客单价高、粘性强,是未来盈利的核心支柱。

值得一提的是,Noiz AI刻意避开了国内红海赛道——营销号、电影解说配音。

这类场景技术门槛低、同质化严重,国内竞争激烈,利润微薄,占公司营收比例不到5%。创始人直言,这类场景“免费工具太多,商业化价值低,没必要深耕”,反而把精力放在海外空白市场和国内专业B端场景。

商业化的核心逻辑,是C端免费引流,B端专业变现。

Noiz AI保留基础功能免费,吸引海量创作者试用,通过用户反馈不断优化模型——用户标注“哪段声音不自然、哪个音效不匹配”,这些反馈成为模型迭代的核心数据。

当用户从基础需求升级到专业需求(比如定制音色、场景化音效、批量生成),再推出付费服务,形成“引流-留存-付费”的闭环。出海是核心战略,背后是国内外创作生态的巨大差异。

国内短视频、短剧生态成熟,创作者基数庞大,剪映、免费AI工具普及,信息差小,用户对免费工具依赖度高,付费意愿低;而海外创作者分散、生态不成熟,缺乏好用的全声音AI工具,信息差大,用户愿意为高效工具付费。

2025年,Noiz AI已实现快速增长,海外创作者的需求爆发,尤其是AIGC视频崛起后,画面生成技术成熟,但声音质感、场景匹配度差,成为行业痛点,Noiz AI的全声音能力精准切入,迎来增长红利。

短期目标是今年用户量翻倍至200-300万,中期深耕游戏、影视B端,长期拓展企业服务、开发者生态。

05

国内外AI创作生态,藏着底层逻辑差异

深耕海外市场的过程中,Noiz AI团队清晰感知到:国内外AI创作生态,看似都是短视频、短剧、游戏创作,底层逻辑、用户行为、商业化路径天差地别。

最直观的差异是创作者基数与创作活跃度。

国内短视频、短剧创作者数量,是海外的10-20倍。抖音、B站等平台成熟,剪映等工具上手成本低,创作者门槛极低,无论是个体博主、小摊小贩,还是专业工作室,都能快速上手创作,形成庞大的创作生态。

而海外创作者分散,缺乏统一的创作平台和工具生态,创作者基数小,活跃度低。

其次是内容创作逻辑。

国内创作者擅长“模仿爆款、快速迭代”,一个梗火了,几天内就能出现几百个衍生作品,比如B站的“买瓜梗”,衍生作品层出不穷,热度持续数月;而海外创作者更偏向“小众创新”,很难形成全民热议的爆款,内容以搞笑、口播为主,形式单一,创新迭代速度慢。

这种差异,直接导致AI工具的使用需求不同。

国内创作者需要“轻量化、免费、易上手”的工具,快速跟风创作;海外创作者需要“专业化、全功能、稳定”的工具,解决创作痛点,付费意愿更强。

行业生态的另一个显著差异,是AI导师的角色。

国内涌现出大量AI工具导师,通过直播、短视频教创作者使用AI工具,有的免费分享工具、科普技巧,缩小信息差,推动行业普及;有的则靠卖课、卖素材、接广告盈利,陷入“割韭菜”的争议。

这类导师是国内特有生态,加速了AI工具的普及,也让行业内卷加剧。

而海外几乎没有这类生态,创作者获取工具信息的渠道分散,学习成本高,这也是Noiz AI出海时,需要投入精力做用户教育的原因。

更深层的差异,是商业化变现路径。

国内创作者靠流量变现,头部博主能获得巨额收益,中小创作者跟风爆款,试图分一杯羹;海外创作者变现难,很难出现国内式的头部博主,多数创作者收入微薄,付费意愿集中在“能直接提升内容质量、降低成本”的工具上。

这种行业温差,决定了Noiz AI的选择:国内轻运营、重口碑,海外重投入、深耕市场。

国内仅服务少量专业B端用户,避开C端红海;海外聚焦创作者痛点,快速抢占市场,建立品牌壁垒。

06

从音效工具到数字世界的声音引擎

谈及未来,Noiz AI的目标清晰且宏大:三年时间,从声音工具升级为数字世界的声音引擎,跳出娱乐赛道,成为跨行业的通用声音能力提供商。

短期(1年内),深耕游戏、影视专业场景,打磨高端音效、空间声、多声道技术,服务AIGC视频、开放世界游戏、短剧头部公司,解决行业声音质感差、场景匹配度低的痛点,成为游戏、影视领域的声音标杆。

中期(2-3年),拓展企业服务与开发者生态,开放声音能力API,接入各类创作工具、游戏引擎、智能设备,让声音能力成为行业基础设施;同时发力开发者生态,吸引第三方基于Noiz AI的声音能力开发应用,比如自助编辑APP、游戏音效插件、声音交互工具,构建声音生态闭环。

长期来看,Noiz AI的野心不止于娱乐。

声音是人类感知世界的核心方式,也是数字世界交互的关键载体。未来,AI陪伴、虚拟场景、元宇宙、具身智能,都需要沉浸式声音能力——AI陪伴不仅能说话,还能生成冥想海浪声、助眠雨声;虚拟世界能根据场景实时生成环境音、动作声;机器人能通过声音感知环境、交互反馈。

Noiz AI要做的,是把声音能力打造成通用底层引擎,就像视觉领域的渲染引擎、文本领域的大模型,为所有数字场景提供声音支持。

三年后,从创作者工具,升级为跨行业的声音基础设施,让数字世界的每一种声音,都真实、沉浸、有温度。

结语:

声音,是数字世界最鲜活的灵魂

从文字到图像,再到视频,数字世界的进化,始终围绕“更贴近真实”展开。

而声音,是最容易被忽略,却最能构建沉浸感、传递情绪的核心要素。没有声音的数字世界,是冰冷、虚假的;只有声音足够鲜活、足够真实,数字世界才能真正“活”起来。

Noiz AI的出现,不是简单的技术创新,而是一次认知革新——跳出“声音=语音”的局限,看见全维度声音的价值;跳出“模仿声音”的浅层逻辑,探索“创造声音”的深层可能。

它用技术证明,AI声音不止于说话,更能复刻海浪、创造幻想、传递极致情绪。

未来,当AIGC视频普及、元宇宙落地、虚拟交互成为常态,声音的重要性会愈发凸显。

Noiz AI的故事,只是声音革命的开端。

而这场革命的终极目标,从来不是让AI像人,而是让数字世界,拥有和现实一样鲜活、立体、动人的声音灵魂。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白
发表看法