太阳成集团(tyc33455cc·China认证)集团网站

钱晓勇｜AIGC的理解

供稿来源：作者：发表时间：2024-07-16

近年来，随着人工智能技术的飞速发展，人工智能生成内容（AIGC）正在各个领域掀起一场革命。那么，AIGC究竟是什么？它是如何运作的？它又在影视剧创作中扮演怎样的角色？针对以上问题，7月15日下午，强氧公司运营总监、资深影视制作策划人、中国电影剪辑学会短篇短视频艺术委员会理事、全国数字影视职业教育集团校企合作工作委员会主任钱晓勇为“影视与广告:重回经典，智向未来”研究生暑期学校的学员们带来了一场名为“AIGC的理解”的讲座。讲座由太阳成集团tyc33455cc副经理蒋军凤教授主持。

本次讲座，钱晓勇总监从自身的学习经历和工作经历出发，结合当下的时事热点，以诙谐幽默的语言讲解了AIGC的工作原理和AIGC的内部架构是如何搭建的等理论知识，除此之外，钱晓勇总监还在现场为学员们演示了AIGC模型、Lora训练、DreamBooth训练等相关内容，并将其进行拆解，以便学员们能够更加深入地认识AIGC。

一、AIGC的工作原理

讲座伊始，钱晓勇总监指出当下AIGC的工作原理主要分为两个关键步骤：学习过程和应用过程。在学习过程中，系统首先接收各种输入数据，如文本、图像和音频等，通过定义规则和分解参数，形成模型。这个过程中，模型通过训练不断优化，生成带有标签或标记的答案。接下来是应用过程，新的输入数据被提供给已经训练好的模型，模型根据之前学习到的规则和参数处理数据，生成高质量的内容。这些生成的内容通过与模式库的统计结果进行比较，确保输出符合预期标准。通过这些步骤，AIGC系统能够持续学习和改进，从而在内容创作和生产中展现出强大的自动化和智能化能力。钱晓勇总监提到AIGC的初始数据库并不是空白的，而是各种随机内容，以湖南、上海、工业等词语为例，想要在使用AIGC的过程中直接定位在以上词语，就需要对AIGC进行不断地训练，把随机内容变为不随机。

钱晓勇总监认为AIGC的爆发并不是偶然的，它背后融合了多学科的长期研究与发展。首先，认知神经科学为AIGC提供了基础理论支持，认知神经科学研究人脑如何处理和理解信息的过程，这些研究成果帮助我们设计出更符合人类思维和行为模式的算法，使人工智能能够更准确地模仿和生成自然语言、图像等内容。其次，统计数学和回归方程是AIGC技术的核心，统计数学通过对大量数据的分析，帮助机器学习算法从数据中提取出有用的信息和模式。回归方程作为统计数学中的一种重要方法，广泛应用于预测和生成任务中，能够有效地模拟复杂的现实世界现象，使AIGC生成的内容更具真实性和实用性。此外，计算机硬件的飞速发展为AIGC提供了强大的计算资源支持，尤其是GPU（图形处理单元）和TPU（张量处理单元）的崛起，使得大规模并行计算成为可能，大大加速了深度学习模型的训练过程。GPU的并行计算能力和TPU在深度学习任务中的高效表现，使得处理海量数据和复杂模型变得更加高效和可行，这些硬件进步是AIGC得以迅速发展的重要技术保障。国内对于AIGC的理论研究颇多，但是技术方面却没有太大进展，目前国内市场大多使用的是国外的AI软件，对此钱晓勇总监表示遗憾。

二、AIGC模型解析

钱晓勇总监主要针对Transformer模型和潜在扩散模型（Latent Diffusion Models）进行了分析。首先介绍了Transformer模型。Transformer模型是当前自然语言处理（NLP）和生成任务中最为重要和广泛应用的架构之一，其核心概念基于自注意力机制，并通过编码器-解码器结构实现高效的信息处理和内容生成。自注意力机制允许模型在处理输入序列的每个位置时，都能关注到序列中所有其他位置的信息。这一机制通过计算“查询”（Query）、“键”（Key）和“值”（Value）之间的相关性来实现。Transformer模型采用编码器-解码器结构，其中编码器负责将输入序列编码成一组表示向量，解码器则利用这些表示向量生成输出序列。编码器和解码器都由多个相同的层堆叠而成，每一层包括两个主要组件：多头自注意力机制和前馈神经网络。钱晓勇总监指出，Transformer模型的设计摒弃了传统序列模型中存在的顺序处理限制，转而采用并行计算，大幅提高了训练和推理的效率。此外，自注意力机制使得Transformer模型在处理长序列时能够有效捕捉全局信息，避免了信息在长距离传递过程中衰减的问题。

潜在扩散模型（Latent Diffusion Models）主要依赖于四个关键步骤：添加不同程度的噪声、蒙特卡罗方法、马尔科夫链和贝叶斯定律。首先，模型在输入数据上添加不同程度的噪声，这一步骤的目的是将数据逐步扰乱，使其逐渐接近噪声分布，通过控制噪声的强度，模型能够捕捉到数据在不同噪声水平下的特征变化，从而理解数据的潜在结构。接下来是使用蒙特卡罗方法，这是一种通过随机采样来近似计算的技术，在潜在扩散模型中，蒙特卡罗方法被用来估计高维空间中的概率分布，帮助模型在复杂的数据分布中进行有效采样，这种方法通过大量的随机采样，能够有效逼近真实分布，从而提高生成内容的质量。第三个关键步骤是马尔科夫链，潜在扩散模型利用马尔科夫链来模拟数据的逐步演化过程，马尔科夫链是一种依赖于当前状态而与过去状态无关的随机过程，在模型中，通过一系列的马尔科夫链步骤，逐步将添加了噪声的数据还原到原始数据分布，这个过程保证了模型生成的数据具有高度的连贯性和一致性。最后，贝叶斯定律在潜在扩散模型中起到了关键作用，贝叶斯定律通过结合先验概率和似然函数，计算出后验概率，帮助模型在生成数据时做出最优决策，贝叶斯定律的应用使得模型能够在不确定性环境下有效地进行推理，从而提高生成内容的可靠性和准确性。

钱晓勇总监表示，Transformer模型正在被广泛应用于各种NLP任务中，如机器翻译、文本生成、问答系统等。而潜在扩散模型在图像生成、自然语言处理等领域展现出了广阔的应用前景。

总而言之，AIGC正在飞速的发展当中，各种AI模型层出不穷，并且越来越精细化。在讲座中，钱晓勇总监用有限的时间为学员们尽可能全面地介绍了AIGC的相关知识，无论是在理论上还是在实践上都使得学员们收益颇丰。

讲座结束，钱晓勇总监对同学们的提问进行了详细解答。

互动环节：

陈闯同学：我对于AIGC了解不多，您在讲座中也提到了文科生与理科生认识AIGC的方向有所不同，那么本着文科生的角度，如果我想要进一步认识AIGC，能推荐一下入门的专业书籍吗？

钱晓勇总监：不推荐大家去读晦涩难懂的专业书籍。现在大多数专业参考书都是从历史开始写，比如我之前读过的一本书叫做《深度学习》，开篇讲了80页的数学史，所以你如果十分不了解AIGC，我是不建议你去读的。当然大家作为研究生想要不断学习、不断拓展自己眼界的心情可以理解，我们现在的教育环境是开源的，AIGC的市场也是开源的，只要大家想要了解AIGC，手边所有的涉及到AIGC的书籍我都推荐大家去看，大家先进入到对AIGC感兴趣的环境之中，然后再考虑专业性的问题。

潘裕林同学：目前短视频市场中已经开始使用AI进行拍摄，以及现在兴起的短剧集电视也在使用AI，如果我也想用AI进行视频的拍摄，那么我要用到哪些AI软件或工具呢？

钱晓勇总监：我最常使用的软件就是ComfyUI，它的功能很多，可以称得上是AI的工具集了，不仅可以使用它复现照片，还可以进行专业的视频编辑等等。现在AI的软件也在不断地更新和精进，我所使用的这款软件也不是特别的完美。另外，有一些人也在质疑，频繁地使用AI工具会不会使得大众审美发生偏移，这实际上也是值得思考的一个问题。不过，AI工具在几大公司的竞争与角逐之下，将来肯定会发生改变，但是目前你们只需要使用入门的AI工具即可，可以尝试使用一下闭源的、比较简单的工具。

夏一凡同学:AIGC在影视制作方面的应用目前表现不是很好，请问多久之后AIGC生成的内容可以达到摄像机拍摄出来的画面质量？

钱晓勇总监：确实，目前AIGC在影视创作方面而表现并不是很好，近两年是AI所制作出来的画面是无法与摄像机拍摄出来画面相媲美的。因为AIGC在参与影视制作中时需要制作一个模型，比如说需要为电视剧的一个演员换脸，就需要先扫描人脸，生成一个高清人脸模型，这是流程很简单，现在有很多工厂在做，但是想要让这个高清模型应用于动画之中，工程量是非常大的，一般影视制作公司承担不起，负担太重。而且AI在制作模型的过程中一定需要做的一项程序叫做“Python”，这个程序非常复杂，一旦有哪方面出现了问题，都无法制作出预设的画面。虽然目前AI制作人脸模型已经从有标记面孔转向无标记面孔，可以更加细节的表现人脸的各种细节，但还是有瑕疵。目前，AI在影视制作中最有优势的两方面是渲染和设计，有了AI的加持，电影电视剧画面生成4K更加节省时间，设计如玄幻相关的电视剧海报也更加轻松。

夏一凡同学：目前以AIGC为宣传噱头的影片会不会和十多年前《阿凡达》上映之后产生的伪3d影片噱头一样？

钱晓勇总监：《阿凡达》是改变了人们认知的一部电影，无论是电影中的AI技术的运用还是色彩等画面设计都很新颖，但目前国内对AIGC的使用还不太熟练，并不能达到此种效果。

文章作者：汪盈贝

摄影作者：翟淼森/袁诚

上一条：黄合水｜媒介的过去、现在和未来

下一条：周星|近年中国电影类型与表现的艺术分析

钱晓勇｜AIGC的理解

公司地址