Crash Course AI(1-10)
课程地址:
导论
人工智能让量身定制成为可能。
P1 什么是人工智能(AI)?
一台机器能够解读数据,并有可能从数据中学习,并利用这些知识来适应环境并实现特定目标,那么我们就称其拥有人工智能(AI,artificial intelligence)。
人工智能和自动化正在改变一切,无论是商业还是就业。这就像18世纪的工业革命,这种变革是全球性的,有些人对此感到兴奋,有些人则感到恐惧。但无论如何,我们都有责任了解人工智能,并思考它将在我们的生活中扮演怎样的角色。
当我们在超市或网上购物时,一种AI会决定进货哪些商品以及进货数量,当我们浏览社交网站时,另一种AI会挑选广告推送给我们;买保险时一种AI可以帮助我们确定车险的保费,去银行贷款时另一种AI决定我们是否能贷到款。AI甚至会影响人生中的重大决定。
当前的AI本质上只是机器中的程序。我们需要给AI提供大量数据,并标记这些数据相关的信息(例如,对人类来说是否好吃,草莓显然是“是”,而香皂则是“否”),然后,AI需要一台足够强大的计算机来处理这些数据,理解所有数据的意义。
人工智能的概念在1956年提出,但受限于当时计算机的性能,一直到2010年左右,人工智能领域都处于“寒冬”之中。后来随着计算机计算能力和处理速度的提高,人工智能的发展才迎来大爆发。有了计算性能,我们还需要有大量的数据可以喂给AI进行学习,得益于互联网的发展,我们今天在在贴吧知乎高谈阔论、在B站抖音刷视频,在微博小红书点赞收藏,在淘宝京东购买零食,使用滴滴高德来打车,甚至是信用卡刷卡记录,几乎所有的活动都会产生数据。
正因为我们拥有海量数据和强大的计算来解读这些数据,我们说人工智能革命正在发生。学习 AI 知识,我们就能做出一些小的决策来引导人工智能革命,而不是感觉自己像是在坐一场我们并不情愿的过山车。
历史告诉我们,革命与其说是事件,不如说是过程。
P2 监督学习(Supervised Learning)
我们可以根据自己的经验不断调整我们的想法和行为,最终让我们做出各种各样的决策,这就是学习的过程。人工智能也需要学习,主要有三种方法:
- 强化学习(Reinforcement Learning):指在环境中通过行为的反馈进行学习的过程。就像孩子们学习走路一样,没有人告诉他们该怎么做,他们只能练习,跌跌撞撞,不断提高平衡能力,直到能够迈出下一步。
- 无监督学习(Unsupervised Learning):指在没有训练标签的情况下进行学习的过程。也可以称为聚类(clustering)或分组(grouping)。
- 监督学习(Supervised Learning):指利用训练标签进行学习的过程。这是人工智能领域应用最广泛的学习方式。
计算机科学家们尝试用一种称为监督学习的过程来帮助计算机像人类一样进行学习。
监督学习是指由一位知道正确答案的人(监督员)在学习过程中指出错误。正如我们之前所说,AI需要算力和数据才能学习。监督学习需要监督者先提供大量的训练示例,例如,给AI提供大量动物的图像,并用标签对其进行分类,比如“爬行动物”或“哺乳动物”。经过训练,AI应该能够正确地对以前从未见过的图像进行分类,例如将小猫的图片识别为“哺乳动物”。这其实也是AI将电子邮件自动划分重要邮件还是垃圾邮件的原理。
灵感来源:大脑
监督学习的灵感主要来源于人脑🧠。我们的大脑中有数十亿个神经元,每个神经元都有三个基本部分:细胞体、树突和轴突。一个神经元的轴突与另一个神经元的树突之间由一个称为突触的小间隙隔开。神经元之间通过突触传递电信号进行交流。当一个神经元接收到来自其他神经元的信号时,其细胞体内的电能就会积聚,直到超过阈值。然后,电信号沿着轴突向下传递,并传递到另一个神经元——在那里一切又重复起来。
现代计算机对人工智能进行编程,使其像神经元一样运作。首先,人工神经元接收乘以不同权重的输入,这些权重对应于每个信号的强度。这些信号的阈值由一个称为偏置的特殊权重表示,可以通过调整偏置来提高或降低神经元的放电意愿。因此,所有输入值乘以其各自的权重,然后相加,并通过数学函数得到结果。在最简单的 AI 系统中,这种函数被称为阶跃函数,它只输出 0 或 1。如果总和小于偏置,则神经元将输出 0 (表示否),如果总和大于偏置,则神经元将输出 1 (表示是)。只要有足够的数据和监督标签,就可以训练 AI 对任何事物做出简单的决定:三角形、垃圾邮件、语言、电影类型,甚至是外形相似的食物。
甜甜圈和贝果
如果我们想让 AI 认识甜甜圈和贝果,我们可以用质量和直径作为信号维度。一开始 AI 一无所知,所以它有一个随机权重来表示质量、直径和偏差,之后,我们拿大量的甜甜圈和贝果的照片让 AI 猜测它是什么,AI 接收这些输入(质量和直径),将它们分别乘以各自的权重,然后将结果相加,如果总和大于偏置值,那么 AI 会判定为贝果,否则 AI 会判定为甜甜圈。如果它答错了,我们就告诉它错了,并让它通过一定的更新规则重新调整权重来帮助他学习,如果它答对了,那么更新规则就是0,即权重不变。这样,随着它不断犯错并被不断更正,权重值会往合理的方向调整。

精确率和召回率
衡量一个AI靠不靠谱的两个指标分别是精确率(precision)和召回率(recall)。精确率告诉你,当AI识别出某种食物时,你应该有多信任它,例如在他说的10个甜甜圈中,有8个确实是甜甜圈,那么精确率为80%。召回率告诉你程序能找到多少你想要的东西,例如在25个甜甜圈中,他只正确识别了8个,所以召回率只有32%。精确率和召回率取决于做出判断的标准,在上面的例子中,是直径和质量。显然,这不够理想,为了提高它的靠谱程度,也许我们应该增加更多的判断指标(例如,是否有种子或糖屑),一般来说,输入越多,准确率越高,但AI也需要更多的处理能力和时间来做决策。
理想的AI系统应该体积小、功能强大,并且拥有完美的精确率和召回率。弄清楚使用哪些标准是解决大多数人工智能挑战的关键。大多数AI处理的问题比将事物分类到两个类别之一要复杂得多。
P3 神经网络和深度学习(Neural Networks and Deep Learning)
上一节让AI认识甜甜圈和贝果的过程,只是一种模仿单个神经元的感知器,但是我们的大脑利用 1000 亿个神经元来做决定,这些神经元之间有数万亿个连接。如果我们把许多感知器连接起来,创建所谓的人工神经网络,我们实际上可以利用人工智能做更多的事情。
图像识别
不久之前,人工智能领域的一大挑战是现实世界的图像识别,例如从猫中识别狗,从汽车中识别飞机,从船中识别汽车。2009年左右,李飞飞教授和其他研究人员创建了一个庞大的公共数据集,其中包含已标注的真实世界照片。他们把这个数据集命名为 ImageNet 。它有 320 万张(2025年这个数字是1400万张)带标签的图片,有 5247 个嵌套名词进行分类(例如“狗”标签嵌套在“家畜”标签下,家畜”标签又嵌套在“动物”标签下)。他们借助互联网的力量让成千上万人帮忙标注数据。
2012年,一名叫 Alex Krizhevsky 的研究生决定将神经网络应用于 ImageNet ,并取名为 AlexNet 。AlexNet 运用了很多隐藏的图层,以及速度更快的计算硬件来处理神经网络进行的所有数学运算,它的脱颖而出引发了神经网络研究的爆炸式增长。于是计算机科学家们开始将其应用于图像识别以外的许多领域。
神经网络的架构
所有神经网络都由输入层、输出层以及中间任意数量的隐藏层组成。输入层是神经网络接收数据的地方,这些数据以数字形式表示。每个输入神经元代表一个单一特征,即数据的某种特性(例如,甜甜圈中的糖克数),实际上,几乎任何东西都可以转换成数字(例如,声音可以用声波的振幅来表示,色彩可以用GRB数字组合)。
如果我们试图给一张狗的图像贴上标签,那么每个特征就代表一个像素的信息。一旦特征有了数据,每个特征就会将其数值发送到下一层中的每个神经元,每个隐藏层神经元都会对接收到的所有数字进行数学组合。目标是衡量输入数据是否包含某些组成部分,例如 “是不是红色”、“是不是包含眼睛”、“是不是包含毛发”……隐藏层中的每个神经元都会进行一些稍微复杂的数学运算,并输出一个数字,然后,每个神经元将其编号发送给下一层中的每个神经元,下一层可能是另一个隐藏层或输出层。
输出层是将最终隐藏层的输出进行数学组合以解决问题的地方。输出神经元对应每个标签的概率,例如狗92%,汽车1%,意大利面2%,于是我们选择概率最高的答案。

神经网络看起来就像一个黑盒子,它进行数学运算并输出答案。通常我们在使用一个神经网络时,它已经经过训练,神经元具有数学公式可以查找图像中的特定组成部分(例如,狗的鼻梁顶部的弧度),如果这个神经元专注于这个特定的形状和位置,它可能并不关心其他地方发生了什么。因此,它会将大多数它不关心的特征值乘以 0 或接近 0,而关心的乘以一个正或负的权重。这个隐藏神经元会将来自输入神经元的所有加权值相加,并将结果压缩到 0 到 1 之间。最终的数字基本上代表了该神经元的猜测(例如,这是狗的鼻子)。而其他的神经元负责其他的部分,最终传递给下一层去寻找更复杂的成分。最终到达输出神经元做出最终的判断(例如,是狗的概率为93%)。
记住,当我们的特征越来越多,层数越来越多,神经网络所需要的做出的数学运算也就越多,计算起来也就需要更长时间。
生活中的神经网络
神经网络正被用于为我们的生活做出越来越多的决定。例如,银行通过用户行为检测和预防诈骗,医疗机构通过显微镜下的细胞图像判断患癌风险,抖音通过视频图像识别为你推荐标签。了解这一切是如何发生的,对于当今世界的人来说都非常重要。

