CSE 8803 专题内容:大数据

中级

大约 0 个星期

6小时每周 (自主学习)

由以下企业参与制作:
加入成千上万的全球学员

开始免费课程

加入课程
免费
可享受
课程视频
实战练习
中级

大约 0 个星期

6小时每周 (自主学习)

由以下企业参与制作:
加入成千上万的全球学员

课程概述

数据科学是很多行业的重要组成部分。在面对大量的异构数据时,可扩展的机器学习和数据挖掘算法和体系对数据科学家来说变得异常重要。随着数据量和复杂性的增长以及数据发展速度的加快,我们更加需要可扩展的数据分析算法及体系。在这门课程中,我们将学习医疗环境下的算法和体系。

在医疗行业中,各种医疗机构(付款方、供应商、药房)都会遇到大量的异构医疗数据。这些数据资源可以帮助改善医疗保健服务并减少浪费。这些数据集的数据量和复杂性给分析及后续应用到实际的临床环境带来了巨大的挑战。

为什么学习这门课程?

在这门课程中,我们将介绍医学数据的特征,以及处理这些数据面临的数据挖掘挑战。课程将涉及各种大数据分析的算法和体系。我们重点学习在具体的医疗分析环境下(例如预测建模、计算表型和患者相似性)如何运用这些大数据技巧。我们还将学习大数据分析技术:

可扩展的机器学习算法,例如在线学习和快速相似性搜索。

大数据分析系统,例如 Hadoop 体系(Hive、Pig、HBas),Spark 和 Graph DB。

先修要求

基本机器学习和数据挖掘概念,例如分类和群集;

熟练的 Python、Java 和 Scala 编程和系统技能;

在处理数据方面拥有丰富的知识和经验(建议的技能包括 SQL、NoSQL,例如 MongoDB)。

查看使用优达学城的技术要求

学习计划

大数据介绍

大数据课程概述

预测建模

分类方法:指标

集成方法

MapReduce

群集

计算表型

降维/张量分解

Spark

患者相似性

医学本体论

图表分析

讲师与合作伙伴

David Joyner

David Joyner

David Joyner 在佐治亚理工学院完成了其以人为中心的计算专业博士学位,擅长于在探索性的学习环境中为学生提供自动反馈和评估。他加入优达学城后主要从事按学生的能力和学习进度设计练习、课题和(将有一天!)整个课程。

官方微信公众号二维码

优达学城(Udacity)微信