120万用户背后：当同行卷“人声”，他们用声音模型再造“物理世界”_老虎社区_美港股上老虎

120万用户背后：当同行卷“人声”，他们用声音模型再造“物理世界”

图片

今年用户量翻倍至200-300万，它是谁?

图片

@数科星球DigitalPlanet原创

作者丨苑晶

编辑丨大兔

当下，AIGC赛道正沉浸在一场视觉革命的狂欢中。当你输入提示词，AI就能生成波澜壮阔的惊涛拍岸，或是极致细腻的赛博朋克大片。

但只要你打开声音，数字世界仍未摆脱“廉价感”。

画面里的主角在海边嘶吼，情绪拉满，可背景里的浪花声却单薄得像纸片；怪物被利刃切开，视觉极具冲击，配上的却是素材库里千篇一律的生硬音效。

视觉模型已经进化到了理解物理世界的阶段，而声音模型，却似乎还停留在“让AI把话说流利”的初级阶段。

当大厂们疯狂内卷语音合成（TTS）、追逐“更像真人的数字人声音”时，一个最基础的物理常识被整个赛道选择性忽略了——声音，从来不止是人类在说话。

那些脚步踏沙的微小摩擦、器物碎裂的清脆回响、乃至空旷山谷里的微弱混响，才是构建数字世界沉浸感的真正底座。

在这个长期被边缘化的“全维度声音”赛道里，Noiz AI 成了那个罕见的破局者。他们没有选择在单一的“人声克隆”上死磕，而是试图用声音模型再造一个真实的“世界”。

本次，数科星球DigitalPlanet深度对话Noiz AI创始人Vega，我们将这场对话字字珠玑还原，他们是如何在声音赛道另辟蹊径的？让我们一探究竟。

被低估的声音赛道

提起AI声音技术，多数人的第一反应是语音合成（TTS）、语音克隆，或是近两年火热的实时对话语音。

赛道里，大厂们扎堆发力“类人声”，目标是让AI说话足够自然、像真人，主打“无差别对话体验”。

可鲜有人意识到，数字内容创作的核心痛点，远不只是“人说话不够像”，而是“声音场景不够全、情绪不够足、质感不够真”。

先看最普遍的创作场景——短视频与短剧。

刷遍全网的电影解说、剧情短剧里，“小帅”“小美”的音色几乎成了标配。这种音色火于2023年电影解说爆发期，台湾腔或国内固定声线，免费、易获取，成了营销号的首选。

可这种声音的短板显而易见：情绪单一，平铺直叙，撑不起短剧里夸张的冲突、激烈的情绪爆发。

短剧的核心魅力，在于极致的情绪张力——愤怒时的嘶吼、悲伤时的哽咽、惊喜时的尖叫，这些情绪不是“标准发音”能承载的。

传统TTS技术为了保证发音准确，会刻意弱化情绪波动，导致合成语音“字正腔圆却毫无灵魂”，放到短剧里，和夸张的画面形成强烈割裂，观众很难沉浸。

再看后期配音的普遍难题。

早期AI配音最让人诟病的，是“突兀感”。创作者剪辑视频时难免说错话，重新配音后，新语音和原视频的语气、语速、音色衔接生硬，甚至出现“口型对不上、情绪断档”的情况。

名人采访场景更是如此，嘉宾不可能反复重录，一旦口误，后期修改难度极大，稍有不慎就会被听出破绽。

更高阶的影视与游戏场景，痛点更是成倍放大。

电影对声音的要求近乎苛刻：音乐厅里的声音干净无回响、空旷山谷里的回声绵长、室内对话的空间感精准，杜比多声道输出下，任何电音感、失真感都会被无限放大。

而游戏需要的声音更天马行空：从暴雨突变为加州阳光、高跟鞋踩在沙滩上的质感、切开未知生物的碎裂声，这些声音要么不存在，要么难以通过传统拟音实现。

传统拟音师是解决这类问题的传统方案——用道具模拟各类声音，比如用布料摩擦模拟雨声、用高跟鞋敲击木板模拟楼道脚步声。

但拟音成本高、效率低，一场戏的音效制作可能耗时数天，面对游戏里“日抛、月抛”的快速迭代内容，完全跟不上节奏。

更关键的是，行业长期存在一个认知偏差：声音AI=语音AI。

多数团队把所有精力放在人类语音的优化上，忽略了音效、动作声、环境音、音乐节拍等“非语音声音”。

可对于短视频、短剧、游戏创作者而言，语音只是声音的一部分，环境音和动作声才是构建沉浸感的核心。

这就是为什么很多AI生成视频画面精美，配上声音后瞬间“廉价”——声音的短板，暴露了数字世界的“虚假感”。

做全维度声音的“全能选手”

当行业还在卷“人声像不像”时，Noiz AI从诞生之初就选择了一条截然不同的路：不做单一语音工具，做覆盖语音、音效、动作声、音乐节拍的“all-in-one全声音解决方案”。

Vega深耕语音领域多年，2021到2025年持续运营开源语音项目Mockingbird，见证了实时语音技术的爆发，也看透了行业的核心短板——大厂扎堆做实时对话，聚焦“自然度”，却忽略了创作场景的真实需求。

于是，Noiz AI从第一天起，就把模型训练的重心放在“全声音维度”，而非单一人类语音。

不同于多数AI声音模型只接收文本输入，Noiz AI打造了任意模态输入体系——视频、文本、原始声音等多种形式都能作为输入，最终输出匹配场景的声音。

简单来说，你给一段海边视频，它能自动生成贴合画面的浪花声；你给一张游戏角色图片，它能匹配专属音色；你输入“暴雨天室内对话”，它能同时生成雨声、环境混响、人物语音，所有声音浑然一体。

这种能力，直击创作者的核心痛点。

一位短剧创作者分享，此前拍摄海边戏份时，现场收音效果极差，浪花声模糊不清，后期用普通AI工具只能生硬叠加音效，和画面节奏完全脱节。

用Noiz AI后，上传短短几秒视频，模型自动分析浪花的起伏节奏、画面氛围，生成的音效和画面完美契合，自然得像现场实录。

游戏创作者的需求更是被精准满足。

游戏里的角色动作、场景切换、道具交互，都需要专属声音——角色拔剑的清脆声、魔法碰撞的爆裂声、踩在不同地面的脚步声。

这些声音不是语音克隆能解决的，而是需要模型理解“动作与声音的关联”。

Noiz AI能根据角色动作、场景材质，实时生成匹配的动作声，甚至能生成现实中不存在的声音，比如切开岩石的摩擦声、幻想生物的嘶吼声。

在情绪表现力上，Noiz AI更是碾压行业主流产品。

对比海外头部声音工具ElevenLabs、Inworld AI，在相同音色下，Noiz AI生成的语音情绪更夸张、更饱满。

行业主流模型训练时，会把“发音准确率”作为核心指标，导致情绪被不断弱化，最终输出的声音单一平淡。

而Noiz AI从训练阶段就调整了权重，"牺牲部分发音准确性，换取极致的情绪表现力”——激动时的语速加快、紧张时的轻微颤音、愤怒时的语气加重，哪怕偶尔出现轻微口误，也完全贴合情绪，让声音更真实。

这种“情绪优先”的逻辑，完美适配短剧、游戏的场景需求。

短剧需要夸张情绪吸引观众，游戏需要强烈情绪增强沉浸感，Noiz AI的模型设计，正是为这类场景量身打造。

2025年，这套情绪优先的模型已完全成熟，成为Noiz AI最核心的差异化壁垒。

图片

读懂声音的物理规律，而非简单模仿复刻

很多人好奇，Noiz AI为何能做到“全声音覆盖+强情绪表现+场景精准匹配”？

答案藏在技术底层：它不是通过拼接多个小模型实现功能，也不是简单模仿现有声音，而是通过海量数据训练，读懂声音背后的物理震动规律。

行业内，不少工具实现“图片生成音色”“视频配音效”，依赖的是“agent链路拼接”——先通过视觉模型识别图片特征，再提取特征匹配音色模型，最后输出声音。

这种方式步骤繁琐、效率低，而且容易出错，一旦某个环节偏差，最终效果就会大打折扣。Noiz AI走的是端到端模型路径——一个核心模型，直接接收多模态输入，输出目标声音，全程无中间环节。

模型训练时，不聚焦无关特征，只抓取和声音相关的核心信息：角色的表情、嘴型、种族特征，场景的空间结构、材质属性，这些信息直接关联声音的音色、音量、混响效果。

这种设计不仅效率更高，而且准确度和上限远超拼接式模型。

更核心的突破，在于全声音数据混合训练，让模型掌握震动规律。多数声音模型只用人类语音数据训练，学习的是语言的语义、发音规则；而Noiz AI把语音、音效、动作声、音乐等所有声音数据放在一起训练，本质上是让模型学习“声音是震动”这一物理核心。

Vega团队和高校教授交流时发现，一个颠覆认知的结论：全声音数据混合训练，收敛速度反而更快。

因为无论人类说话、海浪拍打、器物碎裂，本质都是物体震动产生的声波，底层物理规律相通。模型学习的不是“不同声音的差异”，而是“震动的通用规律”，一旦掌握这套规律，就能生成任何符合物理逻辑的声音，甚至包括现实中从未存在过的声音。

这种能力，让Noiz AI突破了“模仿现有声音”的局限，走向“创造未知声音”。

比如，现实中没人用利刃切开岩石，模型可以根据岩石的硬度、利刃的锋利度，模拟出强烈的摩擦声、岩石碎裂的爆裂声；没人见过恐龙被切开的场景，模型可以根据恐龙的材质、体型，生成对应的撕裂声、嘶吼声。

这些声音没有现成素材可模仿，完全是基于物理规律的“原创生成”。

除了生成声音，模型还能通过声音识别材质、判断场景，对接具身智能领域。当下的具身智能，主要依赖视觉感知物体，无法判断物体的材质、硬度、空心或实心。

而Noiz AI的声音模型，能通过敲击物体的声音，精准识别材质——木头的沉闷、金属的清脆、石头的厚重，甚至能判断物体的裂缝位置、硬度弱点。这种“听觉感知”能力，能为机器人、智能体补上视觉之外的感知维度，拓展更多应用场景。

目前，Noiz AI的双声道声音生成已完全成熟，能稳定输出空间感、层次感十足的声音，适配耳机、普通外放设备；五声道、多声道技术正在攻坚，受限于高质量多声道数据稀缺，尚未商业化，但已完成核心技术验证，未来有望适配影院、专业游戏设备的高端音效需求。

深耕创作者痛点，从C端引流到B端

深耕技术落地的核心，是匹配真实市场需求。

Noiz AI的商业化路径，清晰且务实：以C端创作者为流量入口，以B端专业场景为盈利核心，聚焦海外市场，避开国内红海竞争。

目前，Noiz AI的全球用户约120万，核心群体是海外短视频、短剧创作者，以及游戏开发者。这类用户的需求直接、付费意愿强，且海外市场竞争远小于国内，是初期商业化的最优选择。

用户群体可分为两类：一类是泛创作者，包括海外中小短视频博主、个体短剧制作者，他们数量多、需求分散，主要使用基础配音、音效生成功能，留存率偏低，多数是“一次性用户”；另一类是专业创作者，比如成熟短剧公司、小型游戏工作室，他们有稳定业务、明确需求，付费能力强、留存率高，是Noiz AI的核心服务对象。

针对专业用户，Noiz AI会提供定制化服务：比如为短剧公司优化情绪适配模型，匹配其剧集风格；为游戏工作室定制专属音效库，贴合游戏世界观；为影视团队优化场景化声音，适配电影级空间感需求。

这类服务客单价高、粘性强，是未来盈利的核心支柱。

值得一提的是，Noiz AI刻意避开了国内红海赛道——营销号、电影解说配音。

这类场景技术门槛低、同质化严重，国内竞争激烈，利润微薄，占公司营收比例不到5%。创始人直言，这类场景“免费工具太多，商业化价值低，没必要深耕”，反而把精力放在海外空白市场和国内专业B端场景。

商业化的核心逻辑，是C端免费引流，B端专业变现。

Noiz AI保留基础功能免费，吸引海量创作者试用，通过用户反馈不断优化模型——用户标注“哪段声音不自然、哪个音效不匹配”，这些反馈成为模型迭代的核心数据。

当用户从基础需求升级到专业需求（比如定制音色、场景化音效、批量生成），再推出付费服务，形成“引流-留存-付费”的闭环。出海是核心战略，背后是国内外创作生态的巨大差异。

国内短视频、短剧生态成熟，创作者基数庞大，剪映、免费AI工具普及，信息差小，用户对免费工具依赖度高，付费意愿低；而海外创作者分散、生态不成熟，缺乏好用的全声音AI工具，信息差大，用户愿意为高效工具付费。

2025年，Noiz AI已实现快速增长，海外创作者的需求爆发，尤其是AIGC视频崛起后，画面生成技术成熟，但声音质感、场景匹配度差，成为行业痛点，Noiz AI的全声音能力精准切入，迎来增长红利。

短期目标是今年用户量翻倍至200-300万，中期深耕游戏、影视B端，长期拓展企业服务、开发者生态。

国内外AI创作生态，藏着底层逻辑差异

深耕海外市场的过程中，Noiz AI团队清晰感知到：国内外AI创作生态，看似都是短视频、短剧、游戏创作，底层逻辑、用户行为、商业化路径天差地别。

最直观的差异是创作者基数与创作活跃度。

国内短视频、短剧创作者数量，是海外的10-20倍。抖音、B站等平台成熟，剪映等工具上手成本低，创作者门槛极低，无论是个体博主、小摊小贩，还是专业工作室，都能快速上手创作，形成庞大的创作生态。

而海外创作者分散，缺乏统一的创作平台和工具生态，创作者基数小，活跃度低。

其次是内容创作逻辑。

国内创作者擅长“模仿爆款、快速迭代”，一个梗火了，几天内就能出现几百个衍生作品，比如B站的“买瓜梗”，衍生作品层出不穷，热度持续数月；而海外创作者更偏向“小众创新”，很难形成全民热议的爆款，内容以搞笑、口播为主，形式单一，创新迭代速度慢。

这种差异，直接导致AI工具的使用需求不同。

国内创作者需要“轻量化、免费、易上手”的工具，快速跟风创作；海外创作者需要“专业化、全功能、稳定”的工具，解决创作痛点，付费意愿更强。

行业生态的另一个显著差异，是AI导师的角色。

国内涌现出大量AI工具导师，通过直播、短视频教创作者使用AI工具，有的免费分享工具、科普技巧，缩小信息差，推动行业普及；有的则靠卖课、卖素材、接广告盈利，陷入“割韭菜”的争议。

这类导师是国内特有生态，加速了AI工具的普及，也让行业内卷加剧。

而海外几乎没有这类生态，创作者获取工具信息的渠道分散，学习成本高，这也是Noiz AI出海时，需要投入精力做用户教育的原因。

更深层的差异，是商业化变现路径。

国内创作者靠流量变现，头部博主能获得巨额收益，中小创作者跟风爆款，试图分一杯羹；海外创作者变现难，很难出现国内式的头部博主，多数创作者收入微薄，付费意愿集中在“能直接提升内容质量、降低成本”的工具上。

这种行业温差，决定了Noiz AI的选择：国内轻运营、重口碑，海外重投入、深耕市场。

国内仅服务少量专业B端用户，避开C端红海；海外聚焦创作者痛点，快速抢占市场，建立品牌壁垒。

从音效工具到数字世界的声音引擎

谈及未来，Noiz AI的目标清晰且宏大：三年时间，从声音工具升级为数字世界的声音引擎，跳出娱乐赛道，成为跨行业的通用声音能力提供商。

短期（1年内），深耕游戏、影视专业场景，打磨高端音效、空间声、多声道技术，服务AIGC视频、开放世界游戏、短剧头部公司，解决行业声音质感差、场景匹配度低的痛点，成为游戏、影视领域的声音标杆。

中期（2-3年），拓展企业服务与开发者生态，开放声音能力API，接入各类创作工具、游戏引擎、智能设备，让声音能力成为行业基础设施；同时发力开发者生态，吸引第三方基于Noiz AI的声音能力开发应用，比如自助编辑APP、游戏音效插件、声音交互工具，构建声音生态闭环。

长期来看，Noiz AI的野心不止于娱乐。

声音是人类感知世界的核心方式，也是数字世界交互的关键载体。未来，AI陪伴、虚拟场景、元宇宙、具身智能，都需要沉浸式声音能力——AI陪伴不仅能说话，还能生成冥想海浪声、助眠雨声；虚拟世界能根据场景实时生成环境音、动作声；机器人能通过声音感知环境、交互反馈。

Noiz AI要做的，是把声音能力打造成通用底层引擎，就像视觉领域的渲染引擎、文本领域的大模型，为所有数字场景提供声音支持。

三年后，从创作者工具，升级为跨行业的声音基础设施，让数字世界的每一种声音，都真实、沉浸、有温度。

结语：

声音，是数字世界最鲜活的灵魂

从文字到图像，再到视频，数字世界的进化，始终围绕“更贴近真实”展开。

而声音，是最容易被忽略，却最能构建沉浸感、传递情绪的核心要素。没有声音的数字世界，是冰冷、虚假的；只有声音足够鲜活、足够真实，数字世界才能真正“活”起来。

Noiz AI的出现，不是简单的技术创新，而是一次认知革新——跳出“声音=语音”的局限，看见全维度声音的价值；跳出“模仿声音”的浅层逻辑，探索“创造声音”的深层可能。

它用技术证明，AI声音不止于说话，更能复刻海浪、创造幻想、传递极致情绪。

未来，当AIGC视频普及、元宇宙落地、虚拟交互成为常态，声音的重要性会愈发凸显。

Noiz AI的故事，只是声音革命的开端。

而这场革命的终极目标，从来不是让AI像人，而是让数字世界，拥有和现实一样鲜活、立体、动人的声音灵魂。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

120万用户背后：当同行卷“人声”，他们用声音模型再造“物理世界”

精彩评论