模型搭建与验证

高级数据分析技巧

高级

大约 8 个礼拜

6小时每周 (按照自己的节奏)

由以下企业参与制作:
加入成千上万的全球学员

开始免费课程

加入课程
免费
可享受
课程视频
实战练习
高级

大约 8 个礼拜

6小时每周 (按照自己的节奏)

由以下企业参与制作:
加入成千上万的全球学员

课程概述

这门课程将教你如何从头利用数据知识回答现实中的问题。在这一过程中,会小范围地涉及到机器学习。模型构建流程包括设置收集数据的方式,理解数据中的哪些部分很重要,并回答你提出的问题,找到统计学、数学或模拟模型,从而理解数据并做出预测。

所有这些内容都同等重要,模型构建是所有科学领域的重要技能。这一流程对科学方法来说也一样,运用从模型中掌握的知识,对你正在研究的内容产生理解,并得出能够经得住检测的预测结论。

在这一过程中,我们将一起构建各种模型。其中包括提出问题、收集和操纵数据、构建模型,最终检验并评估这些模型。

喜欢这门课程?加入“机器学习工程师”纳米学位。

为什么学习这门课程?

很多人或许已经学习了机器学习或数据科学课程,或者熟悉机器学习模型。

在这门课程里,我们将采取更加宽泛的方法,学习模型构建流程的提问、建模和验证步骤。

这门课的目标是帮助你练习深度思考问题,并自己想出解决方案。我们将提到的很多示例并非只有一个正确答案,希望你能够运用我们在这门课程里讲解的方法来逐步解决问题。

先修要求

本课程的理想对象是有所准备的学生,具有:

  1. Python 编程知识,熟悉 Python 工具,例如 Ipython Notebook,并熟悉数据分析库,例如 Scikit-learn、Scipy 和 Pandas
  2. 描述性、推断性和预测性统计学知识
  3. 微积分(尤其是导数和积分)知识
  4. 基本矩阵代数知识(矩阵、向量、行列式、单位矩阵、乘法、倒数)
  5. 机器学习入门知识,并了解常见监督式学习和非监督式学习算法,例如 SVM 和 K 平均算法

查看使用优达学城的技术要求

学习计划

第 1 课:QMV 流程简介

学习数据分析的提问、建模和验证 (QMV) 流程。理解每个步骤的基本原理,并运用 QMV 流程来分析优达学城员工是如何选择糖果的!

第 2 课:提问阶段

我们将讨论 QMV 流程的提问阶段,介绍如何将模糊的问题变成统计学问题,可以通过统计学和机器学习来分析这些问题。你还将分析 Twitter 数据集并预测用户何时会发下一条推文!

第 3 课:建模阶段

在学完第 2 节课后,你将学习如何构建强大的数据、统计学和机器学习模型,以便做出准确的预测。你可以查看近期发布的美国医疗数据集,并发现其中的异常交易。

第 4 课:验证阶段

如何判断你的模型是否可行呢?在这节课,我们将介绍一些基础知识和重要指标,使你能够为你所构建的模型的性能评分。你将分析 AT&T 相连汽车数据集,并通过分析司机的开车模式,判断每位司机开的是哪辆车。

最终项目:通过网络流量日志发现黑客攻击

你将创建一个检测网络流量日志数据的项目,并按 1 到 10 打分,表示日志显示服务器上正在遇到非常强烈的攻击。

讲师与合作伙伴

Don Dini

Don Dini

Don M. Dini 在数据科学领域已经有十多年的实践经验,并且一直在此领域教学,同时还发表了一些著作。他在伊利诺伊大学厄巴纳-尚佩恩分校和南加州大学学习了计算机科学和人工智能。他还在南加州大学担任过计算机科学讲师,并专注于将 AI 运用到各种现实问题上,例如通过模拟了解城市人口,并开发用于防止出现未知攻击的系统,这些系统应用到了 LAX、美国海岸警卫队等其他机构。现在,Don 是 AT&T 的一名数据科学家,正在研究创建下一代通信网络,并创建能够理解人类沟通交流的模型。此外,Don 是一名功夫教练,并在加州 Palo Alto 授课。

Rishi Pravahan

Rishi Pravahan

Rishiraj Pravahan 是 AT&T 的一名数据科学家。在加入AT&T 之前,Rishiraj 在欧洲核子研究中心 (CERN) 参与了ATLAS 实验,并且与团队成员一起发现了希格斯玻色子。在CERN 期间,他主要负责构建、试运转和校准ATLAS 检测器,并运用软件技术来分析大型强子对撞机得出的大批量数据集,发现新的物理现象。
他还是一名充满激情的教师,在美国、欧洲、印度和拉丁美洲积极发表公开演讲并开展研讨会,推动人们对科学的认识。他目前的工作主要是了解网络、客户数据的隐私性和安全性,收集、存储和分析传感器数据,并在统计学及机器学习领域取得前沿性成就。工作之余,他喜欢阅读、打桌球、烹饪、旅行,以及了解其他文化。

官方微信公众号二维码

优达学城(Udacity)微信