“蚂蚁呀嘿”刷屏背后:AI造假与鉴假者的对决刚刚开始
“蚂蚁呀嘿,蚂蚁呀呼,蚂蚁呀哈哈…”
3月初,抖音短视频平台上,成龙、蔡卓妍、任贤齐等明星等通过AI变脸特效模块,集体唱歌。只需要上传一张照片就可以生成动态唱歌的简单操作,引发无数网友跟风传播。甚至有人做出了巴菲特、马斯克、雷军等中外知名大佬一同“蚂蚁呀嘿”的搞笑视频,形成病毒式传播。
大佬一同“蚂蚁呀嘿”的搞笑视频被疯传
“蚂蚁呀嘿”所借助的AI变脸软件Avatarify在中国区的App Store登上免费榜榜首时,也让它依托的“深度伪造”(Deepfake)技术再度进入大众视野。目前,该应用已经在中国下架,原因或涉及隐私安全。
“面对挤眉弄眼的大佬唱歌,我根本笑不出来,只是觉得深深的恐惧。”一位用户对作者表示,这既来自于“AI深度合成”技术以前所未有的速度和规模,从实验室渗入大众数字生活中,也包括“肉眼难辨真假”的背后对个人信息安全和社会信任体系重新审视的惴惴不安。
当“所见非所得”之后,AI换脸会带来新的创造力吗,还是通往隐私泄露、信任体系崩塌的深渊呢?
我如何让爱因斯坦预测新冠?
当“蚂蚁呀嘿”在中国抖音上登上热搜榜之际,大洋彼岸的Tiktok(海外版抖音)上,影星“汤姆·克鲁斯”对着镜头变魔术和打高尔夫的短视频掀起狂潮,吸粉39万,点击量1100万次,在其他社交平台上的再传播量也达到千万级别。
但问题是,视频中的汤姆·克鲁斯并非本人,而是深伪技术下的一个“幻象”。无数人在假账户下留言惊呼,“你居然告诉我,这是个假视频!?”
“我只想娱乐大家,没有恶意。”这则假视频背后的技术操刀人克里斯·乌米(Chris Ume)在3月4日对作者表示。他强调,假阿汤哥视频借助18000张不同角度的影星照片来训练机器算法,专门模仿阿汤哥的演员Miles Fisher刻意的体态表达让迷惑性更强,同时每则视频在机器加工后还需要技术人员再花费24个小时进行后期调整。
“我使用的电脑硬件或是我的技术,不是普通人拿个手机就可以实现的。”乌米是一位专业的视觉特效师,任职于《南方公园》动画创始人马特·斯通和特雷·帕克的AI实验室,本身也有自己的工作室。他试图通过强调这则假视频背后的专业度,来反驳外界对他正在传播造假工具的指责。曾有用户在留言里痛斥乌米正在“打开潘多拉魔盒”。
在“假阿汤哥”视频之前,乌米还曾经在社交平台上公布过多个借助深度合成技术完成的视频项目,其中包括一则让爱因斯坦开口预测新冠的假视频。基本原理是通过机器学习既修复加强爱因斯坦的历史影像,也训练算法让视频中的嘴型适应新语言。类似的操作已经应用在实践中,比如英国球星贝克汉姆就曾经接拍一则消灭疟疾的公益广告。制作方为了本地化需求,利用深度合成技术,让只用拍一条的贝克汉姆在视频中用九种国家的语言,说出了同一句广告语。全球知名传媒公司WPP也借助深伪技术,让企业培训中的主讲人针对不同国家的员工讲述不同种的语言,视频中的面部动作与语音内容都是由软件合成的。
“文创产业正在广泛研究深度合成技术可能带来的机会,虽然现在精度还达不到电影播放的要求。”乌米对作者表示,在新冠疫情下各地“封城令”影响日常通行并暂停影视拍摄之际,深伪技术的应用,或能变为一种解决方案,弥补影视制作损失。
事实上,深度合成技术已经被应用在好莱坞电影产业。比如,奈飞的电影《爱尔兰人》中就借助深伪技术将主演面部“减龄30岁”,以便让演员同时出演年轻时代,从而大大降低电影的预算。
“技术本身并不违法,20年前,人们用Photoshop也可以做类似的换脸效果。”乌米如此应对外界对他使用深伪技术的指责,“如果应用得当,可以带来创造力。我不是法学家,也许他们可以要求深伪技术处理过的视频需要贴个标签之类。我只是个创作者。我也想通过这些短视频告诉大众,所见,也许并非所得。”
鉴假工具更新赶不上造假速度
与乌米这样走到台前自曝身份,并揭盅技术拆解的“造假者”不同,一批应用开源深伪软件的人群隐身于屏幕后甚至暗网中。利用深伪技术“瞒天过海”的案例屡见不鲜,名人是率先被模仿的群体。
国际范围内,政客演讲视频被深伪技术调慢速度,营造出身体不佳的假象;马克·扎克伯格受访视频被重新调整嘴型,说出“要删除社交网络”等他从未说过的话。
在中国,抖音、快手等短视频平台上,骗子利用简单的合成技术,自称是靳东、马云等知名人士本人,骗取中老年人的感情和金钱。虚假的明星视频甚至形成了规模化的造假产业链,完成了直播带货、转手倒卖或者骗取钱财等多种利用造假变现的形式。
“假视频或是假图片都不是什么新鲜事物,但现在所能达到的精度和造假工具的可及性,是让我担心的地方。”美国加州伯克利大学数字鉴假专家Hany Farid在接受外媒采访时表示。
纽约州立大学布法罗分校计算机工程系教授吕思伟对作者解释道,假音视频愈发“以假乱真”源自三重发展:除了过去十年人工智能在计算机视觉技术上的更新之外,还有赖于CPU、GPU所带来的硬件算力能力提高,和社交媒体普及后影像数据集的指数级增加。机器算法的仿真能力,源自巨量数据集的“喂养”。
造假并非无药可解,吕思伟所在的实验室正在通过机器学习的方法,寻找鉴别虚假音视频的技术解决方案:“欺骗人眼相对容易。但就好像医生可以通过X光看到人眼看不到的问题一样,算法也可以提供数字鉴证的工具。”
但问题是,道高一尺,魔高一丈。鉴假工具更新赶不上造假速度。吕思伟的团队曾经采用眨眼频率的方式来鉴别假视频,因为第一代虚假视频中大量使用网络静态任务图片训练算法。这些图片中的人物都睁着眼睛,因为没人愿意把闭眼的形象展示给公众,而造成造假时的漏洞。
但随着更多动态视频进入数据集,造假视频的仿真程度进一步升级,则需要引入阴影渐变边界等物理特征的区别信号,进行数字鉴别。
在海外,包括脸书、微软在内的美国科技巨头在公众压力下,投入资金研究鉴假工具,但结果却无法让人完全安心。比如,脸书在2019年举办深伪鉴别挑战大赛结果显示,最佳表现的模型在处理公开的数据集时,也仅能达到82.56%准确度,当处理未公开的黑盒数据时,准确度为65.18%。
作者提交乌米制作的假阿汤哥视频至多个提供鉴假工具的公开网站,均无法识别视频为假。
更令人担心的是,造假和鉴假成为一场财力人力悬殊的较量。
吕思伟所在的实验室开发的开源的深伪检测网上工具平台
吕思伟对作者表示,虽然鉴假技术存在,但苦于无法商业化,“因此没有什么人真正去做这个事情”。吕思伟所在的实验室开发了一款鉴假工具,放在网上,从去年11月开始大约有五六百个用户使用。但和Avatarify通过深伪制造娱乐效果,形成自来水式的病毒性社交传播所不同的是,人们对鉴假服务的付费意愿不强,也让两方实力悬殊。
更为吊诡的是,因为深伪算法所依赖的GAN(生成对抗网络)技术本身就依赖两套对应系统,相当于是一个造假者和一个鉴别师在双方对抗,由造假者画出换脸之后的图像,由鉴别师把认为换得不准确的图像舍弃,筛选出仿真度高的进行保留,供机器继续训练精进,因此,鉴假技术的精进,反过来也能促进造假技术的进步,形成左右手互搏的态势。所以,脸书或是微软都未公开自己的鉴假算法。
如何防止AI换脸走向堕落
问题是,深伪工具的开源化、普及化已经让被造假的主体不仅仅是名人,而可能成为任何普通人。
英国作家海伦·莫特(Helen Mort)就是受害者之一。有人通过扒取她在2017-2019年的私人社交媒体账户图片,将她的脸嫁接在色情视频上,广为流传。遭遇类似霸凌经历的还有澳大利亚18岁女生诺埃尔·马丁(Noelle Martin)。她们并不知道始作俑者是谁。
除了开源的深伪软件可下载之外,暗网中藏有专门提供造假服务的群体。网络安全公司Gemini Advisory的研究报告显示,暗网中,只需要付费就有人提供服务,可以针对专门的数据集制造一个“以假乱真”的面孔,用于绕过数字ID等检测系统。根据网络安全公司Deeptrace的报告,30美元就可以买到一项“换脸服务”,如果要更换语音,价格是“10美元50个字”。该报告同时举例称,曾有骗子伪装成一家英国能源公司的母公司老板致电员工,让后者将24.3万美元打给一家匈牙利的供应商,随后发现电话中的声音为合成后的假声音。
除了个人隐私泄露风险和可能成为新的欺诈工具之外,吕思伟还担心,深伪技术若被恶意滥用,可能带来的认知层面的不信任感。“虚假音视频带来的最大风险,是信任体系的崩坏。深伪让人产生一种幻觉,让一些人看上去说了他实际上没有说过的话。这是对信息可靠性最直接的破坏。”
吕思伟认为,大部分非专业制作的虚假音视频依旧粗糙,稍有分辨力的受众,可以有所判断,但由于传播平台指数级的增加,信息批量涌向受众,快速分散着受众注意力,让受众在很短时间里难辨真伪。受众基于自身兴趣,条件反射般地进行转发,也造成对虚假影音视频推波助澜的作用。
虽然普通人现在还无法通过手机,就完成乌米这样专业人士能够完成的深度合成精细度,但不代表未来不可能。
“我只不过想提前让大家看到未来而已。”乌米对作者表示,他愿意和平台或鉴假组织交流,以便让这项技术在监管下引导更多的创造力,而不是“作恶”。