用 MongoDB 进行数据整理(中/英)

数据操作和检索

中级

大约 2 个月

6小时每周 (自主学习)

由以下企业参与制作:
加入成千上万的全球学员

开始免费课程

加入课程
免费
可享受
课程视频
实战练习与参考项目指导
中级

大约 2 个月

6小时每周 (自主学习)

由以下企业参与制作:
加入成千上万的全球学员

课程概述

在本课程中,我们将学习如何从各种数据源中整理数据,并对数据进行处理,以便启用数据驱动的应用。一些数据科学家的大部分时间都是在执行这些操作!

你将学习如何从广泛使用的数据格式中收集和提取数据,并学习如何评估数据质量,了解数据清理的最佳做法。我们还会向你介绍 MongoDB,涵盖数据存储的基本知识,以及 MongoDB 查询语言和使用 MongoDB 聚合框架进行探索性分析。

本课程非常适合以下人士:想应聘入门级数据科学职位的求职者;或者目前是一位业务/数据分析师,并希望增加自己的技能;或者与数据专业人士合作或者希望利用大数据的的管理者。此课程提供中文版本。

喜欢这门课程?加入“数据分析”纳米学位。

为什么学习这门课程?

学完本课程后,你将能够:

  • 程序化地提取存储在常见格式(例如 csv、Microsoft Excel、JSON、XML 等)文件中的数据并抓取网站以便解析 HTML 中的数据。
  • 审核数据质量(有效性、准确性、完整性、连续性和一致性),并判断性地评估不同背景下的数据清理选项。
  • 使用 MongoDB 存储、检索和分析数据。



本课程最后包含一个实战项目,你需要运用所学的知识解决现实中的数据分析问题。

先修要求

你最好已经具备以下技能:

  • Python 编程经验,或愿意阅读少量的文档,从而理解本课程中的示例和练习。
  • 能够在 Windows 或 Unix 上进行基本的系统管理操作。

最好至少具有一些 unix shell 或 Windows PowerShell 的使用经验,但不是必须的。

无需具有数据库经验。

关于 MongoDB
本课程是与 MongoDB, Inc. 合作开发的。MongoDB, Inc. 是开源数据库 MongoDB 的创建者和主要贡献者。MongoDB 是领先的 NoSQL 数据库,根据当今构建和运行应用的模式设计而成,使企业更加灵活可扩展。通过 MongoDB,我们能够创建新类型的应用、改善客户体验、加快上市时间,并降低成本。

查看使用优达学城的技术要求

你将学习什么内容?

项目

整理 OpenStreetMap 数据

https://www.openstreetmap.org 选择世界上的任何一个地点,并使用数据整理技巧(例如评估数据质量,查看数据的有效性、准确性、完整性、连续性和一致性)为你关心的世界某个角落清理 OpenStreetMap 数据。

学习计划

第 1 课:数据提取基础知识

  • 评估数据质量
  • Tabular 格式介绍
  • 解析 CSV 文件
  • 使用 XLRD 解析 XLS 文件
  • 介绍 JSON
  • 使用网络 API

第 2 课:格式更加复杂的数据

  • 介绍 XML
  • XML 设计准则
  • 解析 XML
  • 网络数据采集
  • 解析 HTML

第 3 课:数据质量

  • 什么是数据清洗?
  • 脏数据的来源
  • 衡量数据质量
  • 清洗蓝图
  • 审核有效性
  • 审核准确性
  • 审核完整性
  • 审核一致性
  • 审核均匀性

第 4 课:如何使用 MongoDB

  • MongoDB 数据建模
  • 介绍 MongoDB
  • 字段查询
  • 投影查询
  • 将数据添加到 MongoDB 中
  • 使用 mongoimport 工具
  • $gt、$lt、$exists、$regex 等操作符
  • 查询数组和使用 $in 及 $all 操作符
  • 更改条目:$update、$set、$unset

第 5 课:分析数据

  • 聚合框架示例
  • 聚合管道
  • 聚合操作符:$match、$project、$unwind、 $group
  • 使用给定操作符的多个阶段

第 6 课:案例研究 – OpenStreetMap 数据

  • 对大型数据文件进行迭代解析
  • Open Street Map XML 概述
  • OpenStreetMap 数据练习
  • 项目说明

讲师与合作伙伴

Gundega Dekena

Gundega Dekena

Gundega 曾是优达学城的学员。如今,从某种意义上来说,她依然是个学生,因为她每天都会从一起共事的讲师和优达学城的同事身上学到新的东西。

如果你想阅读一些关于机器人、科技和游戏方面的趣味新闻,不妨在 G+ 上关注她 - https://plus.google.com/+GundegaDekena

Shannon Bradshaw

Shannon Bradshaw

Shannon 是 MongoDB 的教育总监,负责 MongoDB 大学的现场培训和免费在线课程。在加入 MongoDB 之前,Shannon 是杜尔大学的计算机科学副教授,研究领域包括用户体验、信息科学和语义网。在过去的七年内,Shannon 既专注于学术研究,又涉足行业发展。他在高盛负责培训软件工程师,在摩根史坦利设计文本检索系统,并为金融行业的小型律所创建了各种交易和分析应用。

官方微信公众号二维码

优达学城(Udacity)微信