每日简讯:真假孙燕姿 虚拟数字人的异化

2023-05-24 08:27:44 北京商报

【编者按】AIGC席卷之下,技术加持让虚拟人类逐渐变得真假难辨。在竞争激烈的市场环境中,亿万分身不眠不休亿万产业无穷无尽,越来越多的虚拟人类被开发、应用于互联网中。技术使机器充分具备了人的特点,人类也在追求智能化的道路上越走越远。英剧《黑镜》在“Be Right Back”使用人工智能克隆人类声音的场景,已经不局限在荧屏中了。在虚拟人类作为技术创新与文艺创作相结合的载体的今天,“AI孙燕姿”们打开的“虚拟人与人”的世界不是一场简单的“双厨狂喜”“梦幻联动”,思考它们如何服务于现实,助推于产业,反哺于社会,认知它们能够在我们的世界中走多远,了解其如何在技术的支持下变得“人性化”非常重要。

5月23日,真身孙燕姿回应AI“分身”,她表示:“人类无法超越AI,做自己就够了。”回应背后,是继ChatGPT后,AIGC迎来的第二次现象级事件。

在B站上,一首由“AI孙燕姿”演唱的《发如雪》意外出圈。截至5月20日,这段发布于4月14日的视频播放量已经达到了180.7万。AI孙燕姿成了新的流量密码,相关平台上,由其翻唱的歌曲呈现爆发态势,粗略计算已超过1000个。


【资料图】

人工智能沉浮十年,终于在ChatGPT出现的那一刻找到了落地的应用场景,随即在产业领域延伸出无限可能。夹杂着市场爆发的期待和挥之不去的侵权争议,AI孙燕姿搅动的,正是AI音乐这一细分领域的一池春水。

AI翻唱

从训练到推理

5月19日中午,科技博主小亦在自己的抖音账号上传了最新一期视频。这一次,他的主题从AI孙燕姿转向了AI张雨生。此前,他用两天的时间分离了200多首歌曲的素材,又用一天多的时间进行了3000次左右的训练。

小亦在抖音上运营着一个叫“AI君主小亦”的账号,4月底,他发现了这项技术,开始钻研应用,并在抖音上上传了自己尝试后制作的视频。目前,小亦上传的AI孙燕姿版《需要人陪》播放量已经超过200万,AI孙燕姿版的《不为谁而作的歌》还曾登上抖音热搜榜单。

比起AI孙燕姿的“以假乱真”,这首AI张雨生版的《没离开过》并没有达到小亦理想中的效果。小亦在视频中坦言,由于张雨生的高音素材相对太少,不能满足充分训练需求,所以对成品质量有影响,现在他正在着手解决这一问题。

据了解,整个翻唱的技术底座是一个来源于全球最大开源社区Github中的项目So-vits-svc。公开资料显示,该项目是基于VITS、soft-vc、VISinger2等一系列项目开发的开源免费AI语音转换软件。在小亦的个人工作室,他为北京商报记者详细地展示了制作AI孙燕姿音乐作品的完整过程,大致可以概括为收集素材、分离“干声”、进行训练、翻唱歌曲四个步骤。

首先要找到足够数量的孙燕姿本人演唱的歌曲,通常在几百首左右,之后通过相关技术手段,将歌曲中的伴奏、混响、和声等与人声分离,再在这个基础上进行切割,删除空白片段,将每个片段控制在5-20秒之间。准备妥当之后就可以开始训练了。

为了满足硬件上的需求,小亦专门在算力市场租用显存。他的日志显示,一些训练达到2000次的时候就被小亦手动暂停了,他解释称,由于训练耗时相对较长,中止训练是为了提早检验效果,以便优化训练参数配置,在确认无误后,会重新训练到大约3万次,以达到最佳效果。另外,虽然训练次数本着多多益善的原则,但如果素材本身有局限,即使训练次数翻倍,成品质量也不会有太大的提升。

完成上述工作就相当于完成了AI翻唱99%的进度,最后一步就是“推理”,即将需要被替换的音频上传。替换一首歌曲的时间通常需要3分钟左右,相比之下,训练的过程则要持续数个甚至数十个小时。

声智科技数智人产品副总裁黄赟贺称,AI孙燕姿属于AI翻唱领域的应用案例,涵盖了拟人化的语音合成、情感计算和音乐合成等技术,这些技术主要以深度学习为技术底座,属于AI语言、语音和图像三大技术领域中的语音分支。

为什么最先出圈的会是AI孙燕姿?黄赟贺认为,AI分身有“虚拟偶像”的特征,可以链接粉丝和偶像产生互动感,具有娱乐性。此次AI孙燕姿在B站火出圈,也是AI产品在合适的应用场景落地能引发用户自传播效应的佐证。

还有人认为这是因为孙燕姿本人咬字清晰,习惯尾音短,句尾收音干净,容易被AI化。但在小亦看来,最主要的原因还是在于孙燕姿的声音集已经通过互联网公开,因此方便大家直接拿来训练,如果要训练其他人的音色,付出的时间成本与技术成本相对较高,自然也就筛掉了一部分出于好奇心理进行尝试的用户。

风险外溢

绕不过的版权槛

当互联网沉浸在AI孙燕姿掀起的狂欢时,人民网评却泼来了一盆“冷水”——AI歌手需系好法律这个第一纽扣。评论指出,AI歌手涉及的法律问题主要有两方面,分别为声音权和著作报酬分配权。

值得一提的是,早在AI孙燕姿走红之前,So-vits-svc就已经停止更新了。So-vits-svc的创作团队声明,他们不知道也无法知道用户使用该项目的目的是什么,所有基于该项目训练的AI模型和合成音频与项目贡献者无关,由此产生的一切问题由用户自行承担。

小亦用“删库跑路”这个词概括这种行为,背后的原因直指歌曲侵权。他也曾在自己制作的AI孙燕姿版的《需要人陪》下面做出类似的声明,比如“仅供娱乐,如涉及侵权请联系删除”。

侵权成了AI歌手浪潮里最大的“不和谐”因素。北京卓纬律师事务所合伙人、律师孙志峰称,AI歌手现象可能有多个层面的法律风险。

比如,AI歌手如果未经许可使用歌手姓名、肖像的,涉嫌侵犯姓名权、肖像权。如果AI歌手的表演宣传过程中导致歌手形象或社会评价降低的,可能侵犯歌手的名誉权。AI歌手未经著作权人许可,演唱表演相应歌曲的,还可能侵犯词曲的著作权。

此外,使用AI模型生成AI歌手实施侵权行为的,属于直接侵权,按照前述规则判定。AI模型开发者,如果其算法并不符合技术中立规则,算法及训练用于侵权用途,或者直接开发了侵犯他人权利的AI模型的,则可能也构成直接侵权,或诱导、帮助等间接侵权。发布侵权AI歌手表演的平台,如果明知或应知侵权,未采取屏蔽/断开连接等方式,则构成侵权。

“人们在面对一项新技术的时候,总是习惯用原有的观念去看待、理解,因此出现争议也是很正常的。”小亦认为。他还给网友提了个醒,如果继续做某个AI歌手翻唱的音乐,在自娱自乐的范围内可以任意发挥,但也要防止一旦大量传播走红之后,遭遇版权商的“釜底抽薪”。

对此,小亦也找到了“卡bug”一般的应对方法:在声纹尚未立法的当下,即便所有人一听就知道训练的是哪位歌手的声音,但只要创作者不明确地标注出来,然后再用他的声音去复制一些没有版权或者不太可能维权的歌曲,就不会有任何问题,“虽然这样的逻辑可能有些不道德,但却在‘法无禁止即可为’的范畴之内”。

今年4月,国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》,为生成式人工智能划出了详细的范围,即基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

同时,征求意见稿也指出,利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息;提供生成式人工智能产品或服务,应当尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权等。

本月早些时候,抖音也发布了《关于人工智能生成内容的平台规范暨行业倡议》,其中提到,发布者应对人工智能生成内容进行显著标识,需对人工智能生成内容产生的相应后果负责,禁止利用生成式人工智能技术创作、发布侵权内容,包括但不限于肖像权、知识产权等。

商业空间

专业玩家的市场

AI音乐惹麻烦已有先例。公开报道显示,今年4月,一名网友曾以加拿大说唱歌手德雷克和加拿大歌手威肯的声音为原型,利用AI技术生成了一首时长两分钟的歌曲《我心可鉴》,此后歌曲迅速爆火并传播到了多个平台。

德雷克所属的音乐公司环球音乐集团认为,这首AI合成歌曲违反了版权法,向平台方投诉令其下架的同时,还要求Spotify和苹果等流媒体平台切断AI对其内部音乐的访问权限,防止开发人员利用其版权音乐训练AI模型。

环球音乐集团在音乐杂志《公告牌》上发布的一份声明中称:“平台负有法律和道德责任,限制侵权者使用其服务”,“我们将毫不犹豫地采取措施保护我们和音乐人的权利”。

AI音乐仿佛陷入了一种矛盾,挥之不去的侵权争议之下,还酝酿着巨大的商业化空间。小亦的视频走红之后,国内也有版权商找到了他,不过交流的主题并不是侵权问题,而是AI音乐的商业化未来。

用AI技术“复活”去世的亲人,实现黄家驹、张国荣的“数字永生”,面对AI音乐商业化,网友早已脑洞大开。

在与版权商的交流中,小亦意识到,因为有版权的护城河以及未来声纹立法的可能性,普通人想借这项技术做大规模的商业化是不太现实的,但这也意味着企业级玩家和音乐人可以享受巨大的红利,因为他们有版权和完整的后续转化衔接链路。

而在充分商业化之后,未来的音乐也可能会实现歌手、歌曲和歌唱技巧的自定义,关键就在于哪个巨头会先出手整合资源。音乐形式也可能出现更新,比如由AI编词作曲、AI制作MV、AI歌手演唱的,完全意义上的AI音乐。普通人或许也能从中受益,即便是五音不全的人也能借助AI完成好听的音乐。

事实上,AI音乐领域里,专业的玩家早已出现。上个月,恰逢7周年,网易严选发布AI主题曲《如期》,据悉,该歌曲由网易云音乐旗下网易天音提供的AI技术辅助支持。2020年底,网易便已发布首支AI生成歌曲《醒来》。

另有媒体报道,于2022年2月成立于南京的AI科技音乐公司“期音科技”也已经实现了全流程AI音乐创作,开始提供To B服务,并上线了面向C端体验者的小程序“伯牙智能创作”。今年2月,昆仑万维还曾在互动平台表示,公司布局的AI生成音乐方向目前已开始商业化。

不过黄赟贺也提到,技术还在不断发展完善,在音乐合成领域还需要人类剪辑、拼接和平滑才能达到更好的效果,即便如此,在音乐情感表达方面也存在诸多技术方面的挑战,当前AI翻唱还很难模仿人类歌手在声音方面的独特性,在触动人类情感方面还存在较大差距。

“但是AI技术整体在日新月异发展,如果与当前流行的ChatGPT这样的大型语言模型技术结合,则可以创造出更多虚拟的音乐歌手形象甚至创造出更多新的数字音乐。”黄赟贺称。

张勒(化名)是一名Live演出活动的运营工作人员,他虽然不能准确地概括出音乐圈对于AI技术的态度,但从他个人的角度,还是表现出了对AI的支持,“它的走红背后,是人们对理想化的追寻以及情怀的复刻。从这个意义上说,AI和真人并不冲突”。

“但现场音乐,终归还是要回到现场的。”交流的结尾,张勒如此说道。