SignalPlus:生成式AI简介

'SignalPlus:AI简介'

生成式人工智能:探索创造力的新时代

“我不会明白我无法创造的东西” – Richard Feynman

前言

在当今科技日新月异发展的时代,我们发现机器可以在很多领域展现出创造性。无论是绘画、写作、音乐还是游戏,机器都能模仿人类的创作。这项科技被称为生成式人工智能(Generative Artificial Intelligence, GenAI)。目前我们只是探索了GenAI的冰山一角,现在是学习GenAI的最佳时机。

1. 生成和判别模型

GenAI是生成模型的一种。生成模型是机器学习的一个分支,其目标是训练模型以生成与给定数据集相似的新数据。我们可以通过以下步骤来实现生成模型。首先,在数据集上训练生成模型,以捕获图像中像素之间的规则。然后,从模型中采样以生成逼真的图像。相较而言,大多数机器学习问题都是通过判别模型来解决的。判别模型可以预测给定特征下的标签。与之不同,生成模型不需要标签,其目标是生成新的数据。

可以用以下表达式定义生成模型和判别模型:

  • 判别模型建模的是 P(y|x),即根据特征x预测标签y的条件概率。
  • 生成模型建模的是 P(x),即直接估计特征x的概率,可以通过从这个概率分布中采样生成新的特征。

生成模型相较于判别模型更加困难,即使我们能够建立一个完美的判别模型,它仍然不知道如何创作新的数据,它只能输出一个概率,即图像是否来自原有数据的可能性。

2. 生成模型的框架

在了解生成模型的框架之前,我们可以通过一个简单的游戏来理解生成模型的基本思想。假设下图中的点是由某种规则生成的,我们需要创建一个模型来模仿这个规则,并生成新的点。最简单的模型可以是一个矩形框,点只能生成在框内,而不能生成在框外。

通过上述游戏,一个最简单的生成模型产生了。我们从训练数据中创建一个模型,然后从模型中进行采样,希望生成的点与训练数据中的点相似。

现在我们可以正式介绍生成学习的框架了。在此框架中,我们揭示真实的数据生成分布Pdata,并尝试在这个分布上应用生成模型,通过模型采样,以产生类似于原始数据分布的新数据。这个过程如下图所示。

需要注意的是,我们的模型是对真实数据生成过程的简化,通过检查采样点是否符合真实数据分布的规则,我们可以判断模型是否成功模仿了真实数据的生成过程。

3. 第一个生成模型

假设你是一家公司的首席时尚官,你的职责是创造新的时髦的衣服。你收到了50个时尚搭配的数据集,而你需要创造10个新的时尚搭配。

在这个问题中,我们可以使用朴素贝叶斯模型来生成新的时尚搭配。朴素贝叶斯模型是一种生成模型,它假设各个特征之间相互独立。从数据集中统计出每个特征值的频率,并根据这些频率生成新的时尚搭配。

朴素贝叶斯模型在这个问题中是一个较为简单的生成模型,因为特征较少且相对独立,模型可以准确地生成新的时尚搭配。然而,对于特征较多且相关性强的高维数据,朴素贝叶斯模型并不适用,因为模型无法捕捉到复杂的关系。

4. 生成模型的难点

生成模型在处理高维度和相关特征的数据上面临两个主要难题:

  1. 模型如何处理高维特征之间的条件依赖关系?
  2. 模型如何从高维样本空间中找到满足条件的稀有观察结果?

这两个难题使得生成模型在复杂的高维数据上十分困难。为了解决这些问题,深度学习是必不可少的。深度学习模型通过学习数据中的相关结构,可以在高维空间中提取出有效的特征。

深度学习可以实现生成模型中的表征学习,即在高维数据中学习其表示的含义。通过将高维样本空间映射到低维潜在空间,我们可以用更简单的表示形式来描述数据集。

5. 生成模型的分类

生成模型可以分为两类:

  1. 显式建模:对密度函数进行建模,并通过某种方式计算密度函数。典型的显式建模方式包括标准化流模型、变分自动编码器和扩散模型等。
  2. 隐式建模:通过直接生成数据的随机过程来建模。生成对抗网络是典型的隐式建模方法。

总结

生成式人工智能(GenAI)是一种能够创造新内容和想法的人工智能。GenAI是基于深度学习模型进行预训练的超大型模型。通过GenAI,我们可以创造出更炫酷的图像、写出更优美的文字、谱写出更动人的音乐。然而,我们需要理解GenAI是如何创造新事物的,正如Richard Feyman所说的”我不会明白我无法创造的东西”。