弗兰克·凯恩

什么是机器学习?简单地说,机器学习描述了用真实数据训练的计算机算法,以建立预测模型。

尽管机器学习是人工智能(AI)的一个子领域,但它并不像看起来那么复杂。举个简单的例子,假设我们收集了100个人的身高和体重数据。我们称其为训练数据.我们可以在X轴上的测量高度和Y轴上的重量进行绘制我们收集的数据,如下所示。

机器学习,数据科学与Python的深度学习

最后更新于9月2021日

  • 116次讲座
  • 初级水平
4.7 (25,842)

使用数据科学、Tensorflow、人工智能和神经网络完成动手机器学习教程|由Frank Kane,Frank Kane,Sundog教育团队的晒太狗教育

探索课程

该图中的每个点代表给定人的高度和重量。简单的机器学习算法可以适合该数据。然后,我们可以使用那条线来预测赋予他们身高的新人体重。将其视为一个高中数学问题。一条线的一个等式是y=mx+b哪里m是直线的坡度,并且b是y轴截距。一个机器学习算法叫做线性回归可以用来学习的最佳价值观mb适合我们拥有的数据。在这种情况下,我们最终得到y = 2.75x + 16.5,这导致这一行:

现在我们已经了解了最适合我们的训练数据的线,我们可以插入新的高度值X并对其上的权重进行预测y. 看看机器学习有多简单?

机器学习的类型

有不同类型的机器学习最适合不同类型的问题。它们通常分为两类:有监督的和无监督的——但有时我们也将两者结合起来。

学习方法

我们上面看到的线性回归就是一个例子监督学习.这意味着我们的培训数据包含已知的,正确的答案,我们正在尝试预测。对于每个人进行线性回归模型培训,我们知道它们的身高。它被称为监督因为我们可以通过将模型与已知的正确答案进行比较,轻松评估模型在训练过程中的表现。大多数机器学习算法属于监督学习范畴,包括回归、决策树、XGBoost等。

在机器学习的世界里,我们试图预测的是标签.所以,我们说有监督的机器学习处理标记为培训数据。

无监督的机器学习

有时,我们正在尝试在我们拥有的数据中揭开不间断的模式。例如,描述一组文档的更广泛的主题是什么?我们可以根据他们的情节摘要和脚本如何分类电影?我们可能不知道提前的主题或电影类型是什么,但无监督的学习技巧可以揭示它们。这些未知属性称为潜在的特征.可以使用K-means聚类、主成分分析、潜在Dirichlet分配和k -最近邻等技术来揭示这些潜在特征。

由于我们事先不知道正确答案,所以使用无监督算法未标记培训数据。

Semi-Supervised学习

现实世界的项目并不总是如此削减和干燥。想象一下,你有一系列训练数据,但只有一些标签(已知正确的答案。)这是一个常见的情况;在它可以用于训练机器学习算法之前,许多问题需要人类标记数据。例如,训练图像识别系统可能需要人类在用于训练系统的一组图像中手动对象进行手动对象。但是,您可能有更多的图像需要标签,而不是您实际上能够标记,因为您只有这么多人类。

这就是半监督学习的由来。您可以使用监督学习来训练一个模型,该模型根据接收到的人工生成的标签为未标记的数据分配标签。随着时间的推移,我们可以将监督算法生成的标签与人工生成的标签进行比较。当他们开始达成一致时,我们可以使用监督模型来标记我们的训练数据,而不是在模型有高可信度的情况下人类。这些机器生成的标签被称为伪标签

由于我们的训练数据现在包含由人类指定的已知标签和由模型推断的数据的混合物,因此这些模型称为半监督

那么神经网络呢?

神经网络并不完全符合前面提到的机器学习类别。相反,它们是高度灵活的算法,可以用于监督、非监督和半监督学习。如果你在寻找一种可以解决几乎所有问题的一刀切的机器学习算法,神经网络就是最好的选择。

神经网络的灵感来自于人类大脑的生物学,尽管现代神经网络与它们的生物学对等物有很大的不同。今天,神经元仍然是理解神经网络如何工作的一个有用的隐喻,但在引子之下,它们基本上是由线性代数和微积分驱动的,已经为最佳结果进行了优化。

概念上,您可以将神经网络视为全部相互连接的虚拟“神经元”的层。这是神经网络架构的一个例子:

这个假设的网络将用于根据其分类特征.也许我是想根据导演和演员来预测电影的类型。我们把这些特征——演员和导演——输入神经网络的底部。一旦网络被训练,它就会产生在上面输出的许多不同类型电影中的一个的概率。

该图中的每个圆形代表了神经元,尽管这些天虽然它们主要被称为“单位”。在该网络的顶部和底部之间是几层神经元,所有这些都是互连的。每个神经元的工作都是总结到它的所有信号(这是Sigma符号意味着什么)并应用激活函数决定将什么信号输出到下一层(这就是弯折线所代表的)。

当我们训练神经网络学习每个神经元之间的最佳权值和偏差时,神经网络的魔力就产生了。一种叫做梯度下降用于找到分配给每个连接的最佳权重。由于存在许多不同的权重,可以具有许多不同的值,神经网络可以代表非常复杂的问题。我们最终的大量混乱的重量使得难以直观地理解为什么一个训练有素的神经网络产生它所做的答案,但它通常很好地工作。

近几年来,神经网络以其极其灵活的特性在机器学习研究中占据了主导地位,可以应用于广泛的复杂问题。但是,它们并不总是最佳解决方案,调整它们以获得最佳性能可能非常具有挑战性。

人工智能呢?

神经网络、人工智能和机器学习经常互换使用——但它们是不同的东西。

人工智能是一个比机器学习更广泛的范畴。人工智能的早期尝试根本没有使用机器学习算法;相反,许多都是基于规则的系统。早期的会话机器人实际上是由预先编程的响应组成,这些关键字他们可以参考,具体取决于所要求的问题。如果你说“快乐”这个词,那么机器人可能会有一个人类生成的规则来回应“我很高兴你对此感觉很好!”像这样的AI系统的行为是明确编程的,而不是它所学习的东西。

现代人工智能倾向于更多地依赖机器学习,其中神经网络是几种方法之一。神经网络可以根据训练期间的反馈得知,对“我感到高兴”的恰当反应是“我很高兴你对此感到高兴”。

神经网络并不是人工智能领域使用的唯一机器学习技术。另一种流行的算法被称为强化学习,学习根据训练期间所做决定的结果在不同状态之间做出决定的最佳方式。例如,强化学习系统可以通过尝试随机移动和观察导致被鬼魂杀死、导致寻找能量药丸和吃鬼魂来学习如何扮演吃豆人。当你读到有关AI系统在视频游戏或棋盘游戏中击败人类的故事时,这很可能是在使用强化学习技术。

复杂的人工智能系统,如自动驾驶汽车,可能会结合不同的技术。神经网络可以用来识别街道标志,而强化学习可以用来学习如何最好地导航街道,其中可能也有很多基于规则的系统。

因此,从我们的角度来看,神经网络是机器学习的一个子集,而机器学习是人工智能的一个子集。他们不是一回事。

机器学习的肮脏秘密

机器学习研究的世界充斥着奇特的数学、算法和术语——但这掩盖了一些令人不快的事实。如果你进入现实世界中的机器学习领域,你会发现玩算法只是工作的一小部分。

尽管机器学习系统的算法复杂,但成功的机器学习系统在很大程度上是反复试验的结果。我们给它起了个好听的名字:超参数调谐. 这些模型通常有许多优点超参数比如学习速率,你的神经网络有多少层,每层有多少神经元——对于一个给定的问题,没有什么好方法可以知道这些参数的最佳值。机器学习的实践者通过简单地尝试各种各样的参数组合来调整他们的模型,并看看哪些参数在实验中效果最好。在一天结束的时候,它就像往墙上扔一堆隐喻性的意大利面,然后看看什么能粘住。那没有什么了不起的!

现实世界的机器学习通常更多地是关于数据处理,而不是实际的机器学习。算法和参数的选择远不如训练机器学习系统的数据质量重要。数据科学家通常花费更多的时间分析和清理用于训练系统的数据,而不是使用算法本身。有一个完整的学科叫做特征工程致力于准备和预处理训练数据,以产生最佳效果。这是机器学习研究人员在现实世界中花费大部分时间的典型方式。数据分析、统计分析和处理缺失数据是这项工作的重要组成部分。当您使用云计算将特征工程应用于海量数据时,它很快成为应用机器学习的难点。

在工作中,甚至你为问题选择最佳算法的能力也可能不重要。“AutoML”系统可以在训练数据上尝试不同的算法,并通过实验自动找出最适合使用的算法。您可以简单地将您的培训数据提供给AutoML系统,对其执行自动超参数调优,并生成一个高度优化的机器学习系统,而无需您的参与或专业知识。机器学习系统现在可以创建自己的机器学习系统了!
对于这个领域的新手来说,这是个好消息——机器学习比以往任何时候都更容易获得。但是那些了解引擎盖下发生了什么的人为什么?如何在今天的就业市场上,机器学习的重要性仍然很高。

您是否知道机器学习和深度学习是什么?阅读关于它的本文。

机器学习的顶级课程

机器学习功能选择
索莱达加利酒店
4.8 (1,422)
不平衡数据的机器学习
索莱达加利酒店
4.7 (268)
用Javascript进行机器学习
斯蒂芬格莱德里
4.6 (2,569)
机器学习的封锁率优化
索莱达加利酒店
4.8 (123)
畅销书
机器学习无代码方法:使用Azure ML Studio
Aderson Oliveira,Software Architect.ca,Scott Duffy•550.000多名学生
4.8 (386)
BI的机器学习,第2部分:分类建模
Maven Analytics,Joshua MacCarty
4.7 (89)
最高评级
机器学习,数据科学与Python的深度学习
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.7 (25,842)
数据科学和机器学习训练营
何塞波罗拉
4.7 (13,745)
最高评级

更多机器学习课程

机器学习学生也会学习

赋予你的团队。引领行业。

使用Udemy for Business订阅您所在组织的在线课程和数字学习工具库。

请求演示

弗兰克·凯恩的课程

终极动手Hadoop:驯服你的大数据!
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.6 (25,080)
畅销书
Apache Spark与Scala -实践大数据!
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.6 (14,133)
最高评级
使用Spark Streaming和Scala进行大数据流传输-动手操作
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.7 (3,109)
机器学习,数据科学与Python的深度学习
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.7 (25,842)
用Apache Spark和Python驯服大数据-动手!
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.5 (11247)
畅销书
用Mapreduce和Hadoop - 手驯服大数据!
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.5 (2,659)
畅销书
用AWS Lambda建立一个无要的应用程序 - 手上!
弗兰克·凯恩,布莱恩·泰德丁,弗兰德·凯恩,尚多教育队的晒街教育
4.6 (1817)
Elasticsearch 6和弹性堆叠 - 深入和手
Sundog Education的作者是Frank Kane
4.3 (2,308)
建立带机学习和AI的推荐系统
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.4 (2029)
畅销书
自治车:Python的深度学习和计算机视觉
Sundog教育由Frank Kane、Frank Kane、Ryan Ahmed博士、MBA、Mitchell Bouchard、Sundog教育团队
4.8 (843)
最高评级
终极非官方Udemy在线课程创建指南
Frank Kane的Sundog教育,Frank Kane,Sundog教育团队
4.7 (212)
AWS认证数据分析专业2021-动手!
弗兰克凯恩,斯蒂芬马雷克的Sundog教育|AWS认证云从业者,解决方案架构师,开发商,弗兰克·凯恩,晒太街教育队
4.5 (8,102)
畅销书

弗兰克·凯恩的课程