什么是 Deepfakes 以及如何创建它们？

Deepfakes 包括使用人工智能和基于深度学习的技术，通过操纵视频中的音频或视频内容来改变它们。人工智能不再那么“人工”了。这些时代让它离我们人类非常近。

它可以建议、写作、创造艺术，现在看起来和说话都像活人一样。

这是我们应该利用的该领域的最新发展之一。然而，这也是我们必须警惕的。

什么是深度假货？

Deepfake 这个词是深度学习和假相结合创造的。简而言之，您还可以假设这是经过专业操纵或深度伪造的媒体。

根据维基百科，这也称为合成媒体，其中现有的图像、音频或视频被修改以完全代表其他人。

通常情况下，深度造假会让知名人士似乎说出了一些他们本来不会说的话。

根据其创作者的技术，很难辨别其真假。

Deepfake 是如何运作的？

简而言之，原始视频的一部分（比如一张脸）被看起来相似的假视频所取代。在这种情况下，它也可以称为换脸，就像这个Deepfake“奥巴马”视频中一样。

然而，它不仅限于视频，我们还有 Deepfake 图像和音频（谁知道，在不久的将来还会出现 Deepfake VR 头像）。

生成 Deepfake 的主要过程有三个：提取、训练和转换。

#1.萃取

这是关于从媒体样本（原始媒体样本和交换样本）中检测并挤出感兴趣的主题区域。

根据硬件能力，可以有多种算法来选择有效的检测。

例如，Faceswap 有一些不同的选项，用于根据 CPU 或 GPU 效率进行提取、对齐和屏蔽。

提取只是识别整个视频中的面部。对齐任何面部的关键特征（眼睛、鼻子、下巴等）。最后，遮罩会遮挡图像中除感兴趣区域之外的其他元素。

输出所花费的总时间在选择任何选项时都很重要，因为在平庸的硬件上选择资源密集型算法可能会导致失败或需要很长时间才能呈现可接受的结果。

除了硬件之外，选择还取决于参数，例如输入视频是否受到手部运动或眼镜等面部遮挡的影响。

最后，一个必要的元素是清理（稍后解释）输出，因为提取会产生一些误报。

最终，对原始视频和假视频（用于交换）重复提取。

#2.训练

这是创建深度赝品的核心。

训练是关于神经网络的，它由编码器和解码器组成。在这里，算法被输入提取的数据以创建稍后转换的模型。

编码器将输入转换为向量表示，以训练算法从向量重新创建人脸，就像解码器所做的那样。

随后，神经网络评估其迭代，并通过分配损失分数将其与原始迭代进行比较。随着算法不断迭代，该损失值会随着时间的推移而下降，并且当预览可接受时停止。

训练是一个耗时的过程，输出通常会根据其执行的迭代和输入数据的质量而提高。

例如，Faceawap 建议每张至少 500 张图像，包括原始图像和用于交换的图像。此外，图像之间应有显着差异，在独特的照明下覆盖所有可能的角度，以获得最佳的娱乐效果。

由于训练长度的原因，某些应用程序（例如 Faceswap）允许中途停止训练或稍后继续。

值得注意的是，输出的真实感还取决于算法的效率和输入。而且又受到硬件能力的限制。

＃3。转换

这是deepfake创作的最后一章。转换算法需要源视频、训练模型和源对齐文件。

随后，可以更改与色彩校正、蒙版类型、所需输出格式等相关的一些选项。

配置完这几个选项后，您只需等待最终渲染即可。

如前所述，Faceswap 可与多种算法配合使用，并且可以在其中使用以获得可接受的面部交换。

这就是全部？

不！

这只是换脸，是深度换脸技术的一个子集。换脸，就像字面意思一样，只是替换了脸部的一部分，以模糊地了解深度换脸的功能。

为了进行可靠的交换，您可能还需要模仿音频（更广为人知的名称是语音克隆）和整个身体，包括适合框架的所有内容，例如摩根·弗里曼的这段深度伪造视频。

那么，这里发生了什么？

可能发生的情况是，深度造假作者亲自拍摄了视频（如最后几秒钟所示），将对话与摩根·弗里曼的合成声音对口型同步，并更换了他的头。

最后，这不仅仅是换脸的问题，而是整个画面的问题，包括音频。

你可以在 YouTube 上找到大量的深度伪造内容，以至于你不知道该相信什么。只需要一台配备高效显卡、功能强大的计算机即可开始。

然而，完美很难实现，对于深度伪造品来说尤其如此。

对于一个令人信服的深度伪造，可能会误导或让观众惊叹，需要一定的技巧，并且需要几天到几周的时间来处理一两分钟的视频，尽管人工智能换脸工具确实使任务变得更容易。

有趣的是，这就是这些算法目前的能力。但未来的前景，包括这些应用程序在低端硬件上的有效性，让整个政府都感到紧张。

但是，我们不会深入探讨其未来的影响。相反，让我们看看如何自己做这件事，以获得一点乐趣。

创建（基本）Deepfake 视频

您可以检查许多可用于制作深度伪造视频的应用程序。其中之一是 Faceswap，我们将使用它。

在继续之前，我们将确保一些事情。首先，我们应该有一个描绘不同情绪的目标的高质量视频。接下来，我们需要将源视频交换到目标上。

此外，在继续进行 Faceswap 之前，请关闭所有图形卡密集型应用程序，例如浏览器或游戏。如果您的 VRAM（视频 RAM）少于 2 GB，则尤其如此。

步骤1：提取人脸

此过程的第一步是从视频中提取面部。为此，我们必须在输入目录中选择目标视频并列出用于提取的输出目录。

另外，还有几个选项，包括检测器、对准器、掩模器等；每个问题的解释都在 Faceawap 常见问题解答中，在这里重复这些信息是一种浪费。

通常最好查看文档以更好地理解并获得合适的输出。但是，您可以通过将鼠标悬停在特定选项上来找到 Faceswap 中的有用文本。

简而言之，没有通用的方法，人们应该从最好的算法开始，然后成功地创建一个令人信服的深度假货。

对于上下文，我使用了 Mtcnn（检测器）、Fan（对准器）和 Bisenet-Fp（掩蔽器），同时保持所有其他选项不变。

最初，我尝试使用 S3Fd（最佳探测器）和其他一些掩模相结合。然而，我的 2Gb Nvidia GeForce GTX 750Ti 却首当其冲，进程屡屡失败。

最后，我降低了我的期望和设置来完成它。

除了选择适当的检测器、掩蔽器等之外， “设置”>“配置设置”中还有更多选项，可帮助进一步调整各个设置以帮助硬件。

简而言之，选择尽可能低的 Batch-Size、Input Size 和 Output Size，并检查 LowMem 等。这些选项并非普遍可用，而是基于特定部分。此外，帮助文本进一步帮助选择最佳选项。

尽管该工具在提取人脸方面表现出色，但输出帧的内容可能比训练（稍后讨论）模型所需的内容要多得多。例如，它将包含所有面孔（如果视频有多个面孔）和一些根本没有目标面孔的不正确检测。

这会导致数据集的清理。任何人都可以检查输出文件夹并删除自己，或者使用 Faceswap 排序来获得一些帮助。

使用上述工具将按顺序排列不同的面孔，您可以将必要的面孔组合在一个文件夹中并删除其余的。

提醒一下，您还需要重复提取源视频。

第2步：训练模型

这是创建 Deepfake 的最长过程。这里，输入A指的是目标人脸，输入B是关于源人脸。此外，模型目录是保存训练文件的地方。

这里最重要的选项是Trainer。有很多单独的缩放选项；然而，对我的硬件有效的是 Dfl-H128 和具有最低配置设置的轻量级训练器。

接下来是批量大小。较高的批量大小会减少总体训练时间，但会消耗更多的 VRAM。迭代对输出没有固定影响，您应该设置足够高的值，并在预览可接受后停止训练。

还有更多设置，包括创建具有预设间隔的延时摄影；然而，我用最少的时间训练了模型。

步骤3：交换到原来的

这是deepfake创作中最后的壮举。

这通常不会花费太多时间，并且您可以使用许多选项来快速获得所需的输出。

如上图所示，这些是开始转换时需要选择的一些选项。

大多数选项已经讨论过，例如输入和输出目录、模型目录等。其中一件至关重要的事情是对齐，它指的是目标视频的对齐文件 (.fsa)。它是在提取过程中在输入目录中创建的。

如果该特定文件尚未移动，则“对齐”字段可以留空。否则，可以选择该文件并转到其他选项。但是，如果您之前已清理过提取，请记住清理对齐文件。

为此，这个迷你工具位于“工具”>“对齐”中。

首先在“作业”部分中选择“删除面”，选择原始对齐文件和已清理的目标面文件夹，然后单击右下角的“对齐” 。

这将创建一个修改后的对齐文件，与优化的面文件夹相匹配。请记住，我们需要将其用于我们要交换到的目标视频。

其他一些配置包括颜色调整和遮罩类型。颜色调整决定了蒙版混合，您可以尝试一些，检查预览，然后选择最佳选项。

口罩类型更重要。这同样取决于您的期望和可用的硬件。通常，您还需要考虑输入视频特性。例如，Vgg-Clear可以很好地处理没有障碍物的正面，而Vgg-Obstructed也可以处理有障碍物的情况，例如手势、眼镜等。

接下来，作者会根据您想要的输出提供一些选择。对于例如，选择Ffmpeg进行视频渲染。

总的来说，成功的深度伪造的关键是预览一些输出并根据时间可用性和硬件的效能进行优化。

Deepfake的应用

深度造假的应用有好的、坏的和危险的。

好的做法包括由实际参与的人重新创造历史教训，以提高参与度。

此外，在线学习平台还使用它们从文本生成视频。

但最大的受益者之一将是电影业。在这里，你可以很容易地想象出真正的主角表演特技，即使是特技演员冒着生命危险。此外，制作多语言电影将比以往更容易。

不幸的是，坏事还有很多。事实上，迄今为止最大的 Deepfake 应用程序，96%（根据 Deeptrace 报告）是在色情行业，将名人面孔替换为色情演员。

此外，深度假货也被用来针对“标准”非名人女性。通常，此类受害者的社交媒体个人资料上有高质量的照片或视频，用于深度伪造诈骗。

另一个可怕的应用程序是语音钓鱼，又名语音网络钓鱼。在一个这样的案例中，一家英国公司的首席执行官按照其德国母公司“首席执行官”的命令转账了 243,000 美元，后来才发现这实际上是一个深度伪造的电话。

但更危险的是深度造假引发战争或要求投降。最近的一次尝试是乌克兰总统弗拉基米尔·泽伦斯基（Volodymyr Zelenskyy）告诉他的军队和人民在正在进行的战争中投降。然而，这次的真相却被这段低劣的视频暴露了。

妹恒笔记

什么是 Deepfakes 以及如何创建它们？

什么是深度假货？