Close Banner

机器学习入门(中/英)

有趣及有利的特征识别

中级

大约 10 个礼拜

6小时每周 (按照自己的节奏)

加入成千上万的全球学员

开始免费课程

加入课程
免费
可享受
课程视频
实战练习与参考项目指导
中级

大约 10 个礼拜

6小时每周 (按照自己的节奏)

加入成千上万的全球学员

课程概述

如今,机器学习是通向数据分析领域最令人兴奋的职业生涯的“头等舱”机票。随着数据源以及处理这些数据所需计算能力的不断增殖,直捣数据“黄龙”已成为快速获取洞见和做出预测的最简单直白的方法。

机器学习将计算机科学和统计学结合起来,驾驭这种预测能力。对于所有志向远大的数据分析师和数据科学家,或者希望将浩瀚的原始数据整理成提纯的趋势和预测值的其他所有人士,机器学习都是一项必备技能。

本课程将透过机器学习的视角向你讲授终端到终端的数据调查过程。课程将向你讲解如何提取和识别最能表示你的数据的有用特征、一些最重要的机器学习算法,以及如何评价你的机器学习算法的性能。此课程提供中文版本。

喜欢这门课程?加入“机器学习工程师”或“数据分析师纳米学位。

为什么学习这门课程?

这门课程中,你将手脑并用,通过实践来学习!我们将通过展示引人入胜的使用案例以及解决趣味横生的现实世界问题(例如无人驾驶车),将机器学习带到现实生活中来。在毕业设计中,你将挖掘美国安然(Enron)公司的电子邮件和财务数据,找出美国历史上一次最大的公司欺诈案中的利益相关人士。

完成此入门课程之后,你将可以使用机器学习技术分析数据,也准备好攻读我们的数据分析师纳米学位了。课程一开始,为了助你在机器学习的旅程上起步,我们将教你如何使用辅助工具(如预先写好的算法与程序库)回答有趣的问题。

先修要求

要想通过本课程,你必须事先精通 Python 编程,并了解基本统计学知识。如果你需要回顾一下这些主题,可以看一看以下课程:

另一门课程数据科学入门最好也学一下,因为它将有助你熟悉如何以科学的方式解决问题。然而,不需要完成此额外课程,即能够通过本课程。我们还将用到一点点 git 的东西,相关课程也可以在优达学城上找到。

有一点我们不作要求,那就是你不需要事先了解机器学习。如果你是刚刚接触机器学习的初学者,那你来对地方了。

查看使用优达学城的技术要求

你将学习什么内容?

项目

从安然公司邮件中识别欺诈行为

你将扮演侦探角色,运用你所学的机器学习技能,根据安然公司公开的财务和邮件数据集,创建一个算法,从而识别可能有欺诈行为的安然公司员工。

学习计划

你将学习如何从一个问题和/或数据集入手,使用机器学习把它们转化为洞见。

第 1-4 课:监督分类

朴素贝叶斯模型:我们首先学习也许是世界上最伟大的文本分类算法。

支持向量机 (SVMs):机器学习领域10佳算法之一,在许多分类任务中都必须尝试的一种算法。它为什么如此特别?因为它能够独立地、飞速地生成新特征。

决策树:非常直白,往往准确度不亚于SVM,但是(通常)要快得多。它是更复杂的方法(比如随机森林和 Boosting 方法)的起步点。

第 5 课:数据集和问题

在任何大型机器学习项目的背后,都有一个巨大的数据集,供算法从中借鉴。我们的灵感来自安然公司的电子邮件和财务数据这个“宝箱”,它本来应该是严格保密的,但是当该公司因一件重大欺诈案破产后,公诸于世。在讲师的带领下,让我们将这个数据集整理成准备好可供机器学习的格式,目标是尝试预测欺诈案件。

第 6、7 课:回归与异常值

回归法是使用最广泛的机器学习算法,其重要程度与“分类”不相上下。然而,在回归法当中,有种情况会造成迅速出错,知道是什么吗?那就是数据中存在让人伤脑筋的异常值。我们将攻克难关,看一看如何识别和清理走那些烦人的数据点。

第 8 课:非监督学习

K-Means 聚类:处理没有标记的数据时,它是同类算法中的佼佼者。使用它可以在首次接触数据集时快速地搜寻其中的范式。

第 9-12 课:特征、特征、特征!

特征创建:把你对世界具有的人类直觉变成计算机可以使用的数据。

特征选择:爱因斯坦说得好:“让一切尽可能的简单,简单到不能再简单。”应用到我们这门课,就是说要识别你的数据的最重要特征。

主成分分析:特征选择的一个更复杂的做法,最重要的非监督学习方法之一。

特征缩放:确保你的数据和算法能够相互配合的简单技巧。
从文本学习:在文本中可以找到的信息比任何其他格式都多,而且我们有现成的有效而又简单的工具用于提取这些信息。

第 13-14 课:验证与评价

培训/测试数据拆分:怎样才能知道你所做的是否有效?只有靠验证。训练-测试拆分十分简单,也是理解你的结果的黄金标准。

交叉验证:给你的训练/测试拆分函数注射一点激素!像专业人士那样验证你的机器学习结果。

精度、召回和 F1 得分(调和均值):经过所有这些数据驱动的辛苦劳作,现在应该针对你最关心的问题定制指标,用来量化你的结果了。

第 15 课:最后总结

我们退后一步,回顾我们迄今已经学到了哪些内容,看一看它们如何形成一个整体。

项目

每节课结束有迷你项目

毕业设计:在安然公司数据中寻找公司欺诈的迹象。

讲师与合作伙伴

Katie Malone

Katie Malone

Katie 是实验物理学家出身,她第一次接触到机器学习是在搜索希格斯玻色子等新粒子时,并从此对机器学习产生了兴趣。不过,学习机器学习可不需要物理博士学位。很荣幸,Katie 欣然接受了我们的邀请,来教大家如何使用数据分析解决有趣的问题。除了在实验室寻找新粒子和从事教学之外,她通常会在野外跑跑步,或者用食物“贿赂”邻家的小狗。

Sebastian Thrun

Sebastian Thrun

Sebastian Thrun 是优达学城的创始人,同时也是斯坦福大学计算机科学专业研究教授、Google 研究员、美国国家工程院和德国科学院成员。Thrun 因为他在机器人和机器学习领域的研究为人所知,他在无人驾驶车领域的研究尤为出众。

官方微信公众号二维码

优达学城(Udacity)微信