钱晓勇|AIGC的理解

供稿来源:    作者:   发表时间:2024-07-16

近年来,随着人工智能技术的飞速发展,人工智能生成内容(AIGC)正在各个领域掀起一场革命。那么,AIGC究竟是什么?它是如何运作的?它又在影视剧创作中扮演怎样的角色?针对以上问题,7月15日下午,强氧公司运营总监、资深影视制作策划人、中国电影剪辑学会短篇短视频艺术委员会理事、全国数字影视职业教育集团校企合作工作委员会主任钱晓勇为“影视与广告:重回经典,智向未来”研究生暑期学校的学员们带来了一场名为“AIGC的理解”的讲座。讲座由太阳成集团tyc33455cc副经理蒋军凤教授主持。

本次讲座,钱晓勇总监从自身的学习经历和工作经历出发,结合当下的时事热点,以诙谐幽默的语言讲解了AIGC的工作原理和AIGC的内部架构是如何搭建的等理论知识,除此之外,钱晓勇总监还在现场为学员们演示了AIGC模型、Lora训练、DreamBooth训练等相关内容,并将其进行拆解,以便学员们能够更加深入地认识AIGC。

一、AIGC的工作原理

讲座伊始,钱晓勇总监指出当下AIGC的工作原理主要分为两个关键步骤:学习过程和应用过程。在学习过程中,系统首先接收各种输入数据,如文本、图像和音频等,通过定义规则和分解参数,形成模型。这个过程中,模型通过训练不断优化,生成带有标签或标记的答案。接下来是应用过程,新的输入数据被提供给已经训练好的模型,模型根据之前学习到的规则和参数处理数据,生成高质量的内容。这些生成的内容通过与模式库的统计结果进行比较,确保输出符合预期标准。通过这些步骤,AIGC系统能够持续学习和改进,从而在内容创作和生产中展现出强大的自动化和智能化能力。钱晓勇总监提到AIGC的初始数据库并不是空白的,而是各种随机内容,以湖南、上海、工业等词语为例,想要在使用AIGC的过程中直接定位在以上词语,就需要对AIGC进行不断地训练,把随机内容变为不随机。

钱晓勇总监认为AIGC的爆发并不是偶然的,它背后融合了多学科的长期研究与发展。首先,认知神经科学为AIGC提供了基础理论支持,认知神经科学研究人脑如何处理和理解信息的过程,这些研究成果帮助我们设计出更符合人类思维和行为模式的算法,使人工智能能够更准确地模仿和生成自然语言、图像等内容。其次,统计数学和回归方程是AIGC技术的核心,统计数学通过对大量数据的分析,帮助机器学习算法从数据中提取出有用的信息和模式。回归方程作为统计数学中的一种重要方法,广泛应用于预测和生成任务中,能够有效地模拟复杂的现实世界现象,使AIGC生成的内容更具真实性和实用性。此外,计算机硬件的飞速发展为AIGC提供了强大的计算资源支持,尤其是GPU(图形处理单元)和TPU(张量处理单元)的崛起,使得大规模并行计算成为可能,大大加速了深度学习模型的训练过程。GPU的并行计算能力和TPU在深度学习任务中的高效表现,使得处理海量数据和复杂模型变得更加高效和可行,这些硬件进步是AIGC得以迅速发展的重要技术保障。国内对于AIGC的理论研究颇多,但是技术方面却没有太大进展,目前国内市场大多使用的是国外的AI软件,对此钱晓勇总监表示遗憾。

二、AIGC模型解析

钱晓勇总监主要针对Transformer模型和潜在扩散模型(Latent Diffusion Models)进行了分析。首先介绍了Transformer模型。Transformer模型是当前自然语言处理(NLP)和生成任务中最为重要和广泛应用的架构之一,其核心概念基于自注意力机制,并通过编码器-解码器结构实现高效的信息处理和内容生成。自注意力机制允许模型在处理输入序列的每个位置时,都能关注到序列中所有其他位置的信息。这一机制通过计算“查询”(Query)、“键”(Key)和“值”(Value)之间的相关性来实现。Transformer模型采用编码器-解码器结构,其中编码器负责将输入序列编码成一组表示向量,解码器则利用这些表示向量生成输出序列。编码器和解码器都由多个相同的层堆叠而成,每一层包括两个主要组件:多头自注意力机制和前馈神经网络。钱晓勇总监指出,Transformer模型的设计摒弃了传统序列模型中存在的顺序处理限制,转而采用并行计算,大幅提高了训练和推理的效率。此外,自注意力机制使得Transformer模型在处理长序列时能够有效捕捉全局信息,避免了信息在长距离传递过程中衰减的问题。

潜在扩散模型(Latent Diffusion Models)主要依赖于四个关键步骤:添加不同程度的噪声、蒙特卡罗方法、马尔科夫链和贝叶斯定律。首先,模型在输入数据上添加不同程度的噪声,这一步骤的目的是将数据逐步扰乱,使其逐渐接近噪声分布,通过控制噪声的强度,模型能够捕捉到数据在不同噪声水平下的特征变化,从而理解数据的潜在结构。接下来是使用蒙特卡罗方法,这是一种通过随机采样来近似计算的技术,在潜在扩散模型中,蒙特卡罗方法被用来估计高维空间中的概率分布,帮助模型在复杂的数据分布中进行有效采样,这种方法通过大量的随机采样,能够有效逼近真实分布,从而提高生成内容的质量。第三个关键步骤是马尔科夫链,潜在扩散模型利用马尔科夫链来模拟数据的逐步演化过程,马尔科夫链是一种依赖于当前状态而与过去状态无关的随机过程,在模型中,通过一系列的马尔科夫链步骤,逐步将添加了噪声的数据还原到原始数据分布,这个过程保证了模型生成的数据具有高度的连贯性和一致性。最后,贝叶斯定律在潜在扩散模型中起到了关键作用,贝叶斯定律通过结合先验概率和似然函数,计算出后验概率,帮助模型在生成数据时做出最优决策,贝叶斯定律的应用使得模型能够在不确定性环境下有效地进行推理,从而提高生成内容的可靠性和准确性。

钱晓勇总监表示,Transformer模型正在被广泛应用于各种NLP任务中,如机器翻译、文本生成、问答系统等。而潜在扩散模型在图像生成、自然语言处理等领域展现出了广阔的应用前景。

总而言之,AIGC正在飞速的发展当中,各种AI模型层出不穷,并且越来越精细化。在讲座中,钱晓勇总监用有限的时间为学员们尽可能全面地介绍了AIGC的相关知识,无论是在理论上还是在实践上都使得学员们收益颇丰。

讲座结束,钱晓勇总监对同学们的提问进行了详细解答。

互动环节:

陈闯同学:我对于AIGC了解不多,您在讲座中也提到了文科生与理科生认识AIGC的方向有所不同,那么本着文科生的角度,如果我想要进一步认识AIGC,能推荐一下入门的专业书籍吗?

钱晓勇总监:不推荐大家去读晦涩难懂的专业书籍。现在大多数专业参考书都是从历史开始写,比如我之前读过的一本书叫做《深度学习》,开篇讲了80页的数学史,所以你如果十分不了解AIGC,我是不建议你去读的。当然大家作为研究生想要不断学习、不断拓展自己眼界的心情可以理解,我们现在的教育环境是开源的,AIGC的市场也是开源的,只要大家想要了解AIGC,手边所有的涉及到AIGC的书籍我都推荐大家去看,大家先进入到对AIGC感兴趣的环境之中,然后再考虑专业性的问题。

潘裕林同学:目前短视频市场中已经开始使用AI进行拍摄,以及现在兴起的短剧集电视也在使用AI,如果我也想用AI进行视频的拍摄,那么我要用到哪些AI软件或工具呢?

钱晓勇总监:我最常使用的软件就是ComfyUI,它的功能很多,可以称得上是AI的工具集了,不仅可以使用它复现照片,还可以进行专业的视频编辑等等。现在AI的软件也在不断地更新和精进,我所使用的这款软件也不是特别的完美。另外,有一些人也在质疑,频繁地使用AI工具会不会使得大众审美发生偏移,这实际上也是值得思考的一个问题。不过,AI工具在几大公司的竞争与角逐之下,将来肯定会发生改变,但是目前你们只需要使用入门的AI工具即可,可以尝试使用一下闭源的、比较简单的工具。

夏一凡同学:AIGC在影视制作方面的应用目前表现不是很好,请问多久之后AIGC生成的内容可以达到摄像机拍摄出来的画面质量?

钱晓勇总监:确实,目前AIGC在影视创作方面而表现并不是很好,近两年是AI所制作出来的画面是无法与摄像机拍摄出来画面相媲美的。因为AIGC在参与影视制作中时需要制作一个模型,比如说需要为电视剧的一个演员换脸,就需要先扫描人脸,生成一个高清人脸模型,这是流程很简单,现在有很多工厂在做,但是想要让这个高清模型应用于动画之中,工程量是非常大的,一般影视制作公司承担不起,负担太重。而且AI在制作模型的过程中一定需要做的一项程序叫做“Python”,这个程序非常复杂,一旦有哪方面出现了问题,都无法制作出预设的画面。虽然目前AI制作人脸模型已经从有标记面孔转向无标记面孔,可以更加细节的表现人脸的各种细节,但还是有瑕疵。目前,AI在影视制作中最有优势的两方面是渲染和设计,有了AI的加持,电影电视剧画面生成4K更加节省时间,设计如玄幻相关的电视剧海报也更加轻松。

夏一凡同学:目前以AIGC为宣传噱头的影片会不会和十多年前《阿凡达》上映之后产生的伪3d影片噱头一样?

钱晓勇总监:《阿凡达》是改变了人们认知的一部电影,无论是电影中的AI技术的运用还是色彩等画面设计都很新颖,但目前国内对AIGC的使用还不太熟练,并不能达到此种效果。

文章作者:汪盈贝

摄影作者:翟淼森/袁诚