让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

品玩4月19日讯，微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

免责声明：上述内容仅代表发帖人个人观点，不构成本平台的任何投资建议。

精彩评论

我们需要你的真知灼见来填补这片空白

发表看法

{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":296912893816880,"tweetId":"296912893816880","gmtCreate":1713507348000,"gmtModify":1713507884699,"author":{"id":3585895914412071,"authorId":3585895914412071,"authorIdStr":"3585895914412071","name":"品玩","avatar":"https://static.tigerbbs.com/b172a08e9f14d6bb2f35c135c87f473e","vip":6,"userType":6,"introduction":"有品好玩的科技，一切与你有关","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"title":"让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频","html":"<html><head></head><body>品玩4月19日讯，微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。\nVASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。\n研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。\n</body></html>","htmlText":"<html><head></head><body>品玩4月19日讯，微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。\nVASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。\n研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。\n</body></html>","text":"品玩4月19日讯，微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。 VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。 研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。","highlighted":1,"essential":1,"paper":2,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/296912893816880","repostId":0,"isVote":1,"tweetType":1,"viewCount":373,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":["IE00BLSP4239.USD","IE0009356076.USD","IE00BKVL7J92.USD","IE00BJTD4N35.SGD","IE00BMPRXR70.SGD","GB00BDT5M118.USD","IE00B19Z9505.USD","LU0080751232.USD","IE00BZ1G4Q59.USD","IE0034235295.USD","LU0079474960.USD","LU0056508442.USD","IE00B3S45H60.SGD","LU0149725797.USD","IE0034235188.USD","LU0175139822.USD","IE0004445239.USD","LU0158827948.USD","IE00B7KXQ091.USD","IE00BDCRKT87.USD","IE00BFSS8Q28.SGD","LU0061474960.USD","IE00BJJMRY28.SGD","IE00B775SV38.USD","IE00B1XK9C88.USD","LU0109392836.USD","LU0109391861.USD","IE00BJJMRX11.SGD","IE0004445015.USD","IE00B1BXHZ80.USD","GB00B4QBRK32.GBP","LU0097036916.USD","IE00BKDWB100.SGD","LU0011850046.USD"],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"upFlag":false,"length":479,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/296912893816880"}