弗兰克凯恩

什么是机器学习?简单地,机器学习描述了用真实世界数据训练的计算机算法来构建预测模型。

尽管它是人工智能(AI)的一个子场,但机器学习并不像它​​看起来一样复杂。作为一个简单的例子,想象一下,我们已经收集了100人的身高和体重的数据。我们称之为我们培训数据.我们可以将我们收集到的数据用测量的高度在x轴上,重量在y轴上绘制成图表,如下所示。

机器学习,数据科学和深度学习与Python

2021年4月最后更新

  • 111讲座
  • 初级水平
4.6 (25,167)

完整的实践机器学习教程,具有数据科学,纹身流,人工智能和神经网络|弗兰克凯恩的尚多教育由弗兰克凯恩

探索课程

这张图上的每个点都代表了一个人的身高和体重。一个简单的机器学习算法就可以将这一数据拟合成一条直线。然后,我们可以利用这条线,根据身高预测新人的体重。把它想成是一个高中数学问题。直线的一个方程是y = mx + b, 在哪里m是线的斜率和B.是y-erlcept。一种称为机器学习算法线性回归可以用来学习最好的价值mB.以符合我们现有的数据。在本例中,我们得到y = 2.75x + 16.5,结果如下所示:

现在我们已经了解了最适合我们培训数据的线路,我们可以插入新的高度值x并产生重量的预测y.看看机器学习如何?

机器学习类型

有不同类型的机器学习最适合不同类型的问题。他们通常分为两类:监督和无人监督 - 但有时我们也结合了两种。

监督机器学习

我们上面看到的线性回归是一个例子监督学习.这意味着我们的训练数据包含了我们想要预测的事情的已知的正确答案。对于每一个接受线性回归模型训练的人,我们知道他们的身高。它被称为监督因为我们可以轻松评估模型在培训的时候,通过将其与已知正确的答案进行比较来培训。大多数机器学习算法属于监督学习类别,包括回归,决策树,XGBoost等等。

在机器学习的世界中,我们正在努力预测的是标签.所以,我们说监督机器学习涉及标签训练数据。

非监督机器学习

有时,我们试图在现有数据中发现看不见的模式。例如,描述一组文档的更广泛的主题是什么?我们能根据情节总结和剧本的相似程度来对电影进行分类吗?我们可能不知道这些主题或电影类型是什么,但非监督学习技术可以发现它们。这些未知的属性被称为潜在特征.诸如K-means聚类,主成分分析,潜在Dirichlet分配和k最近邻居的技术可用于揭示这些潜在特征。

由于我们不知道提前的正确答案,无监督的算法使用未标记训练数据。

半监督学习

现实世界的项目并不总是那么一成不变。假设你有大量的训练数据,但只有一部分带有标签(已知的正确答案)。这是一种常见的情况;许多问题需要人类对数据进行标记,然后才能用来训练机器学习算法。例如,训练一个图像识别系统可能需要人类手动分类一组用于训练系统的图像中的物体。然而,你可能有更多的图片需要标记比你实际上能够标记,因为你只有这么多的人。

这是半监督学习进入的地方。您可以使用受监管学习来培训一个模型,该模型根据其接收的人为生成的标签为未标记数据分配标签。随着时间的推移,我们可以将监督算法产生的标签与人类产生的标签进行比较。在他们开始同意的时候,我们可以使用监督模型来标记我们的培训数据而不是人类,因为模型具有高信心的情况。调用这些机器生成的标签伪标签

由于我们的培训数据现在包含由人类分配的已知标签的混合和模型推断的数据,因此调用这些模型半监督

神经网络怎么样?

神经网络不适合上述机器学习类别。相反,它们是高度灵活的算法,可用于监督,无监督和半监督的学习。如果您正在寻找一个可以解决几乎任何问题的机器学习算法,那么神经网络就是它。

神经网络受到人类脑的生物学的启发,尽管现代神经网络与他们的生物对应物相当多分散。今天,神经元仍然是一个有用的隐喻,用于了解神经网络如何工作,但在引擎盖下,它们基本上由线性代数和微积分驱动,这些模糊已经针对最佳结果进行了优化。

从概念上讲,你可以把神经网络看作是互连的虚拟“神经元”层。下面是一个神经网络架构的例子:

这个假设的网络将被用来根据它们来分类事物特性.也许我正在努力预测电影是基于涉及的董事和演员的类型。我们喂养这些功能 - 演员和董事 - 进入这个神经网络的底部。一旦网络训练,它将产生电影在顶部输出中的许多不同类型之一中的概率。

图中的每个圆圈代表一个神经元,尽管它们现在大多被称为“单位”。在这个网络的顶部和底部之间是几层神经元,它们都是相互连接的。每个神经元的工作是将所有进入它的信号(这就是Sigma符号的意思)相加,然后应用激活功能确定输出到下一层的信号(这就是弯曲线代表的)。

当我们训练他们学习每个神经元之间的最佳重量和偏差时,就会发生神经网络的魔力。一种叫做技术梯度下降法用于查找要分配给每个连接的最佳权值。由于有许多不同的权值可以有许多不同的值,神经网络可以代表非常复杂的问题。我们最终得到的大量混乱的权重使得我们很难直观地理解为什么一个经过训练的神经网络会产生它所能得到的答案,但它通常工作得很好。

神经网络近年来主导了机器学习研究,因为它们非常灵活,可应用于广泛的复杂问题。但是,它们并不总是最佳解决方案,并为最佳性能调整它们可能是非常具有挑战性的。

人工智能怎么样?

神经网络,AI和机器学习通常可互换使用 - 但它们是不同的东西。

AI是比机器学习更广泛的类别。AI的早期尝试根本没有使用机器学习算法;相反,许多是基于规则的系统。早期会话机器人实际上是由一组预先编程的关键词组成的,这些关键词可以根据被问到的问题来参考。如果你说“高兴”这个词,机器人可能会生成一条规则来回应“我很高兴你对此感到高兴!”像这样的AI系统的行为是明确编程的,而不是在运行过程中学习的东西。

现代AI倾向于更多地依赖机器学习,其中神经网络是几种方法之一。神经网络可以了解到对“我觉得快乐”的适当回应是“我很高兴你对此感到乐意”,就在训练期间的反馈。

神经网络不是人工智能领域使用的唯一机器学习技术。调用另一种流行的算法加强学习,这将根据在培训期间作出的决策后果来学习不同状态之间的最佳方式。例如,加强学习系统可以通过尝试随机移动和观察被鬼魂杀死的方式来学习如何玩PAC-MAN,这导致了寻找能力丸和吃鬼魂。当您阅读有关在视频游戏或棋盘游戏中击败人类的AI系统的故事时,可能正在使用的强化学习技术。

复杂的AI系统,如自动驾驶汽车,可能会结合不同的技术。神经网络可用于识别街道标志,而强化学习用于学习如何最好的导航街道,也可能存在大量基于规则的系统。

所以,工作方式,神经网络是机器学习的一部分,机器学习是人工智能的子集。他们不是一回事。

机器学习的肮脏秘密

机器学习研究的世界充斥着花哨的数学、算法和术语——但这隐藏着一些令人不快的事实。如果你进入现实世界的机器学习领域,你会发现玩弄算法只是工作的一小部分。

尽管其复杂的算法,成功的机器学习系统在很大程度上主要是试验和错误的结果。我们给出这个花哨的名字:HyperParameter调整.这些模型通常有很多普遍存在如学习率,您的神经网络有多少层,以及每层中有多少个神经元 - 并且很少知道这些参数的最佳值用于给定问题的好方法。机器学习从业者通过简单地尝试这些参数的各种组合来调整其模型,并查看哪些在实验上最佳地工作。在一天结束时,它在墙上扔了一堆隐喻意大利面,看到了什么棍子。没有什么比这一点更有意思!

实际机器学习往往比实际机器学习更有关数据处理。您选择的算法和参数的选择远非您培训机器学习系统的数据质量。数据科学家经常花费更多时间分析和清洁用于训练系统的数据,而不是与算法本身一起使用。有一个叫做整个纪律特征工程致力于准备和预处理您的培训数据以产生最佳结果。这通常是机器学习研究人员如何在现实世界中花费大部分时间。数据分析,统计分析和处理缺失数据是工作的重要组成部分。当您使用云计算添加要素工程到大量数据的挑战时,它很快成为应用机器学习的硬部分。

即使您在作业上选择最佳算法的能力可能是不重要的。“Automl”系统可以在培训数据上尝试不同的算法,并自动弄清楚通过实验使用的最佳算法。可以简单地向Automl系统提供您的培训数据,执行自动化的HyperParameter调整,并产生高度优化的机器学习系统,具有非常少的参与或来自您的专业知识。机器学习系统现在可以创建自己的机器学习系统!
对于那些新的人来说,这是一个好消息 - 机器学习比曾经更容易进入。但是那些了解在引擎盖下发生了什么的人为什么如何在当今的就业市场中,机器学习仍然非常有价值。

你想知道机器学习和深度学习之间的区别吗?请参阅这篇文章。

机器学习中的顶级课程

基于Javascript的机器学习
Stephen主梁
4.7 (2,478)
机器学习的特征选择
Soledad Galli.
4.7 (1,326)
使用SWIFT的机器学习和人工智能
穆罕默德阿扎姆
4.8 (94)
机器学习,数据科学和深度学习与Python
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.6 (25,167)
AWS认证机器学习专业(MLS-C01)
Chandra lingam.
4.6 (2,516)
畅销书
DP-100:使用蔚蓝机器学习的A-Z机器学习
Jitesh Khurkhuriya,Python,数据科学与机器学习A-Z团队
4.5 (3,805)
畅销书
机器学习模型部署
Soledad Galli, Christopher Samiullah
4.5 (2,816)
Unity机器学习入门指南
Penny de Byl, Penny @Holistic3D.com
4.5 (1581)
机器学习功能工程
Soledad Galli.
4.7 (1,944)
机器学习实用锻炼|8个现实世界项目
Ryan Ahmed博士,博士,MBA,Mitchell Bouchard,Ligency团队
4.3 (984)

更多机器学习课程

机器学习的学生也会学习

让你的团队。领导行业。

通过Udemy为Business获取组织的在线课程和数字学习工具库的订阅。

请求演示

弗兰克凯恩课程

终极实践Hadoop:驯服你的大数据!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (24230)
畅销书
Apache Spark与scala - 用大数据的手!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.6 (13,491)
畅销书
用火花流和scala流媒体大数据 - 手上
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.6 (3,023)
机器学习,数据科学和深度学习与Python
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.6 (25,160)
用Apache Spark和Python驯服大数据 - 手上!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (10607)
用MapReduce和Hadoop驯服大数据-动手!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (2,619)
畅销书
用AWS Lambda构建一个无服务器应用程序-动手!
Frank Kane, Brian Tajuddin, Frank Kane的Sundog Education
4.5 (1,651)
Elasticsearch 6 and Elastic Stack - In Depth and Hands On!
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.8 (2,302)
利用机器学习和人工智能构建推荐系统
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.5 (1,845)
畅销书
自动驾驶汽车:Python中的深度学习和计算机视觉
弗兰克凯恩,弗兰克凯恩,瑞安·艾哈迈德博士,博士,MBA,Mitchell Bouchard
4.1 (797)
最终的非官方UDEMY在线课程创作指南
弗兰克凯恩,弗兰克凯恩的晒太惠教育
4.9 (188)
AWS认证数据分析专业2021 - 手上!
Sundog Education by Frank Kane, Stephane Maarek | AWS Certified Cloud Practitioner,Solutions Architect,Developer, Frank Kane
4.5 (7,207)
畅销书

弗兰克凯恩课程