先来看一段视频

（以假乱真的奥巴马视频）

如视频所示，这是一段假视频，制作者是华盛顿大学研究院的童鞋们。近日他们利用现有的奥巴马声音和视频片段，用AI工具合成了一个非常逼真的奥巴马演讲“假视频”，可以说毫无“PS”痕迹！

至于为什么又双叒叕是奥巴马呢？制作者称，那是因为在网上他的高清视频资源获取非常容易，并且不受版权限制。

“假奥巴马”的诞生

为此，研究小组用神经网络分析了数百万帧的视频，对音频和视频进行分析，了解与声音匹配的各种口型，以此确定奥巴马的面部表情如何变化。开口说话需要整个面部器官的协调，所以研究人员不仅分析了口型变化，还包括他的嘴唇、牙齿和下巴周围的皱纹，甚至还包括脖子与衣领。然后选取与音频匹配的口型，将它们嫁接到新视频中。从本质上来说，研究者们是将奥巴马多年来讲话的口型合成为一个新视频。

这种新算法预示着，未来我们可以用现有的音频与视频素材，合成高逼真的假视频。也就是说，我们可以将一段音频加到任意视频片段中，看起来会像视频里的人真的在说这段话。

研究人员称，这项技术有一个潜在的应用是完善视频会议。视频会议的视频内容可能会断断续续或不够清晰，也可能被冻结，但音频内容一般不会出现这样的情况。因此，将来的视频会议可能会直接传输人们说话的音频，然后利用这个软件将他们说话的声音与他们可能出现的口型合成，形成一个虚拟的会议视频。此外，这项技术还能帮助人们在虚拟现实应用程序或加强现实应用程序中与数字虚拟人物进行交谈。

这项技术让世人纷纷表示震惊，但它得以应用的前提是：得有现成的音频与视频素材，然后方能进行选取、匹配与嫁接动作。而在这方面，我们自己国内的技术已经走在了前面。

可以定制的“好声音”

以科大讯飞“配音阁”为例，利用最新的神经网络语音合成算法，不仅可以实现合成名人声音，并且让他（她）读出你指定的文字。这些技术实现的背后，依赖了科大讯飞自主研发的全新一代基于深度学习的语音合成系统，不仅在语音技术上实现了突破，更利用这项技术提取人声的音色与音率，进而提升合成语音的自然度和表现力。

经常使用高德地图GPS导航的人，如果不喜欢机械性的声音，那么台湾名模林志玲和相声大咖郭德纲、小鲜肉TFBOYS的声音，或许可以为枯燥的旅途平添一些快乐。你甚至可以拿自己的声音当素材，提交后台利用科大讯飞提供的神经网络语音合成技术，定制独属于自己的“好声音”导航系统。

现在，多样的声音选择不再局限于导航。想象一下，未来，你可以提炼自己的声音，并且让这个声音给孩子讲故事，给父母朗读报纸等，不觉得是件很神奇而且美好的事情吗？

此外，除了这样的实际应用场景，科大讯飞语音技术已经向虚拟合成方面应用延伸，而且有商业化应用的落地。科大讯飞要实现的目标是让机器像人一样，不仅能听会说，还能理解会思考，具备人类的思维能力。

人工智能，比我们想像的来得更快

今天，人工智能技术正在深刻改变世界。以深度神经网络为典型代表，人工智能技术已经发展到可以通过学习顶尖专家知识和行业大数据，达到一流专家水平，从而超过绝大多数普通专业人士。2016年2月《科学》杂志（《Science》）预测，截至2045年，全球平均会有50%的劳动岗位将被人工智能技术所替代，而其中在中国这个数字将达77%。

（未来，越来越多劳动岗位会被人工智能取代）

科大讯飞董事长刘庆峰曾表示，人类当前工作的45%是可以被技术自动化的。在未来30年，我们四分之三的工作会被人工智能替代掉。

人工智能产业发展，将决定一个国家和民族未来在全球的话语权，决定其在产业链分工中的地位。中国目前在人工智能领域的核心技术及产业创新都面临着良好的发展机遇，以科大讯飞为代表的中国企业，在智能语音研究中已经深入掌握深度神经网络并有多项创新。未来5到10年，这些先进的人工智能技术将像水和电一样无所不在，融入到教育、医疗、金融、交通、智慧城市等几乎所有行业，开启一个全新的“人工智能+”时代！