马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
书籍官网Understanding Deep Learning,写博客目的为了我本身快速回顾书上的知识,有的章节没有写由于我以为不太重要
1.1监督学习
监督学习模子定义了从输入数据到输出猜测的映射。
呆板学习是人工智能的一个范畴,它将数学模子拟合到观测数据中。它可以大抵分为监督学习、无监督学习和强化学习。深度神经网络对这些范畴都有贡献。
1.1.1回归与分类问题
图1.2a中的模子根据输入特征(如面积和卧室数量)猜测房屋的价格。这是一个回归问题,由于模子返回一个连续的数字(而不是一个类别分配)。
图1.2 b中的模子将分子的化学布局作为输入,并猜测了熔点和沸点。这是一个多元回归问题,由于它猜测了不止一个数字。
图1.2c中的模子接收包含餐厅评论的文本字符串作为输入,并猜测该评论是正面的还是负面的。这是一个二元分类问题,由于模子试图将输入分配到两个类别之一。输出向量包含输入属于每个类别的概率。
图1.2d和1.2e形貌了多类分类问题。模子将输入分配给N > 2个类别中的一个。
在1.2d 输入是一个音频文件,模子猜测它包含哪种类型的音乐。
在1.2e 输入是一个图像,模子猜测它包含哪个对象。在每种情况下,模子都会返回一个大小为N的向量,此中包含N个类别的概率。
1.1.2输入
图1.2a房屋定价示例中,输入是固定长度的向量,此中包含表征该属性的值。这是一个表格数据的例子,由于它没有内部布局;假如我们改变输入的顺序并构建一个新模子,那么我们期望模子猜测保持不变。
图1.2c餐厅评论的输入是一个文本。这里输入的顺序很重要,我妻子吃了鸡和鸡吃了我妻子是不一样的。在将文本传递给模子之前,必须将其编码为数字形式。这里,我们使用大小为10,000的固定词汇表,并简朴地连接单词索引。
图1.2d对于音乐分类,输入向量大概是固定大小的(大概是一个10秒的剪辑),但是黑白常高维的。数字音频通常以44.1 kHz采样,用16位整数表示,以是一个10秒的片断由44.1万个整数构成。显然,监督学习模子必须可以大概处置处罚大量输入。
图1.2e图像分类示例中的输入(由每个像素的连接RGB值构成)也是巨大的。此外,它的布局天然是二维的;彼此上下的两个像素是密切相干的,即使它们在输入向量中不相邻。
图1.2b考虑猜测分子熔点和沸点的模子的输入。一个分子可以包含不同数量的原子,这些原子可以以不同的方式连接。在这种情况下,模子必须同时摄取分子的多少布局和构成模子的原子。
1.1.3呆板学习模子
图1.3的模子表示将输入(孩子的年龄)与输出(孩子的身高)关联起来的一系列关系。使用训练数据选择特定的关系,训练数据由输入/输出对(橙色点)构成。当我们训练模子时,我们在大概的关系中寻找一个能很好地形貌数据的关系。这里,训练的模子是青色曲线,可以用来计算任何年龄的身高。由此可见,刚才五个分类回归的模子需要标记输入/输出对举行训练。例如,音乐分类模子将需要大量的音频片断,而人类专家已经确定了每个音频片断的类型。这些输入/输出对在培训过程中扮演教师或监督者的角色,这就产生了术语“监督学习”。
1.1.5布局化输出
图1.4a形貌了用于语义分割的多元二元分类模子。在这里,输入图像的每个像素都被分配了一个二进制标签,表明它是属于奶牛还是背景。
图1.4b显示了一个多元回归模子,此中输入是街景图像,输出是每个像素的深度。在这两种情况下,输出都是高维和布局化的。然而,这种布局与输入精密相连,这一点可以被利用;假如一个像素被标记为“母牛”,那么具有相似RGB值的邻居大概具有类似的标签。
图1.4c-e形貌了三种输出具有复杂的布局,与输入没有精密接洽的模子。
图c显示了一个模子,此中输入是一个音频文件,输出是从该文件转录的单词。
图d是一个翻译模子,此中输入是英语文本体,输出包含法语翻译。
图e形貌了一个非常具有挑衅性的任务,此中输入是形貌性文本,并且模子必须生成与该形貌匹配的图像。
原则上,c,d,e任务可以在标准的监督学习框架中解决,但由于两个原因,它们更加困难。
起首,输出大概真的是模棱两可的;从一个英语句子到一个法语句子有多个有效的翻译,以及与任何标题兼容的多个图像。
第二,产出包含相当大的布局;并不是全部的单词字符串都能构成有效的英语和法语句子,也不是全部的RGB值集合都能构成可信的图像。除了学习映射之外,我们还必须尊重输出的“语法”。
荣幸的是,这种“语法”可以在不需要输出标签的情况下学习。例如,我们可以通过学习大量文本数据的统计来学习如何形成有效的英语句子。这提供了下一部分的接洽,该部分将考虑无监督学习模子。
1.2无监督学习
从没有相应输出标签的输入数据构建模子称为无监督学习;没有输出标签意味着没有“监督”。
与其学习从输入到输出的映射,其目标是形貌或明白数据的布局。与监督式学习的情况一样,数据大概具有非常不同的特征;它可以是离散的或连续的,低维的或高维的,长度恒定的或可变的。
1.2.1生成模子
图1.5为图像生成模子。
左图:两张图片是由猫图片训练的模子生成的。这些不是真的猫,而是概率模子中的样本。
右图:由修建物图像训练的模子生成的两幅图像。
图1.6这是由文本数据生成模子合成的短篇故事。该模子形貌了一个概率分布,为每个输出字符串分配一个概率。从模子中抽样创建的字符串遵照训练数据(这里是短篇故事)的统计数据,但以前从未见过。
图1.7在原图(左)中,男孩被金属电缆遮住了。这些不需要的地区(中心)被删除,生成模子在剩余像素必须保持不变的约束下合成新图像(右)。
图1.8条件文本合成。给定一个初始文本主体(黑色),文本的生成模子可以通过合成字符串的“缺失”剩余部分来合理地继续字符串。由GPT3生成。
图1.9上图为人脸的变化。人脸大约包含42块肌肉,以是在类似的光线下,只用42个数字就可以形貌同一个人图像中的大部分变化。
1.2.2潜在变量
一些(但不是全部)生成模子利用了这样一个事实,即数据的维度大概比观察到的变量的原始数量要低。例如,有效且有意义的英语句子的数量远远少于随机抽取单词创建的字符串的数量。这导致我们可以使用较少数量的潜在变量来形貌每个数据示例。在这里,深度学习的作用是形貌这些潜在变量和数据之间的映射。根据设计,潜在变量通常具有简朴的概率分布。从这个分布中抽样,传递结果通过深度学习模子,我们可以创建新的样本。
图1.10潜在变量。许多生成模子使用深度学习模子来形貌低维“潜在”变量与观察到的高维数据之间的关系。潜变量设计成一个简朴的概率分布。因此,可以通过从潜在变量的简朴分布中采样,然后使用深度学习模子将样本映射到观察到的数据空间来生成新的示例。
图1.11图像插值。在每一行中,左边和右边的图像是实数,中间的三个图像表示由生成模子创建的插值序列。通过为两张真实图像找到这些变量,插值它们的值,然后使用这些中间变量来创建新图像,我们可以生成中间结果,这些中间结果在视觉上是可信的,并且混合了两张原始图像的特征。
图1.12由标题“时代广场滑板上的泰迪熊”生成的多个图像。
1.3强化学习
呆板学习的最后一个范畴是强化学习。这种范式引入了智能体的概念,它生活在一个天下中,可以在每个时间步执行特定的操纵。
这些举动改变了系统的状态,但不一定以确定的方式改变。采取行动也可以产生奖励,强化学习的目标是让署理学习选择均匀能带来高奖励的行动。
1.3.1两个例子
考虑教一个人形呆板人活动。呆板人可以在给定的时间内执行有限数量的动作(移动不同的关节),这些动作会改变天下的状态(它的姿势)。我们大概会由于呆板人到达停滞中的检查点而奖励它,当它收到奖励时,这些奖励是不相干的。这是当然的。为了到达每个检查点,它必须执行许多操纵,并且不清晰是哪个实例的临时信用分配问题。
第二个例子是学习下棋。同样,署理在任何给定时间都有一组有效的动作(象棋移动)。然而,这些行动以一种不确定的方式改变了系统的状态,对于任何行动的选择,对手玩家大概会做出许多不同的反应。在这里,我们大概会基于捕获棋子而设置奖励布局,或者在游戏结束时为获胜设置单一奖励。在后一种情况下,时间信用分配问题是极端的;这个系统必须知道,在它所做的浩繁动作中,哪些是对成功或失败有帮助的。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |