Close Banner

计算机视觉概论

佐治亚理工学院提供 CS6476

中级

大约 4 个月

6小时每周 (按照自己的节奏)

由以下企业参与制作:
加入成千上万的全球学员

开始免费课程

加入课程
免费
可享受
课程视频
实战练习
中级

大约 4 个月

6小时每周 (按照自己的节奏)

由以下企业参与制作:
加入成千上万的全球学员

课程概述

此课程介绍了计算机视觉,包括图像形成、摄像机成像几何、特征检测与匹配、多视图几何(包括立体法、运动估计与跟踪)和分类的基本原理。我们将开发基本应用方法,包括寻找图像中的已知模型、通过立体法进行深度恢复、摄像机标定、图像稳定、自动对齐(如全景照片)、跟踪和行为识别。计算机视觉 (CV) 的机器学习方面我们不会涉及太多,此分类理论在机器学习 (ML) 课程中学习效果最好。

本课程的重点在于激发方法的直觉和数学思维,通过问题集了解理论与实践之间的差别。幻灯片中的算法都非常完美。但是记住 Yogi Berra 曾经说过的话:理论上来说,理论和实践是没有差别的,但在实践中却并非如此。(爱因斯坦也说过类似的话,但谁对真实生活了解更多?)在此课程中,大多数时候你不需要应用高层次的库函数,只需使用低到中层算法来分析图像和提取结构信息。

为什么学习这门课程?

图像变得在计算中无处不在。有时候我们会忘记图像往往会捕捉物理场景中反射的光。这节课将帮助你了解图像形成与分析的基础知识,以及获得在远超像素级的层面提取信息的能力。对于想要以情景感知方式操作图像,或在来自多个情景的图像需要以适当的方式进行组合或组织时, 这些技能非常有用。

先修要求

  • 数据结构:你将编写代码来构建图像、特征和几何结构的表达式。
  • 采用 NumPy 的 Matlab 和/或 Python 的充分工作知识。教学视频有时使用 Matlab 进行示范,因为讲师年纪较大,偷懒未做更换。问题集将在 Matlab 和 Python 中完成。如下方的资源备注中所提到,你可以使用 Matlab 或开源版本 Octave。
  • 此课程不只要求你掌握计算机科学 (CS) 相关知识,你还需要掌握:线性代数、矢量计算和线性代数(是的,我又说了一遍线性代数)。
  • 无需提前具备计算机视觉处理知识,但是若有信号处理相关经验更好。

查看使用优达学城的技术要求

学习计划

以下是单元大纲,分为 10 个部分:

第 1 部分:简介

  • 1A 简介

第 2 部分:计算机视觉的图像处理

  • 2A 线性图像处理
  • 2B 模型拟合
  • 2C 频域分析

第 3 部分:摄像机模型和视图

  • 3A 摄像机模型
  • 3B 立体几何
  • 3C 摄像机标定
  • 3D 多视图

第 4 部分:图像特征

  • 4A 特征检测
  • 4B 特征描述器
  • 4C 模型拟合

第 5 部分:灯光

  • 5A 光度测定
  • 5B 亮度
  • 5C 明暗成形

第 6 部分:图像移动

  • 6A 概述
  • 6B 光流

第 7 部分:跟踪

  • 7A 跟踪简介
  • 7B 参数化模型
  • 7C 非参数化模型
  • 7D 跟踪考虑因素

第 8 部分: 分类与识别

  • 8A 识别简介
  • 8B 分类:生成模型
  • 8C 分类:判别模型
  • 8D 行为识别

第 9 部分:有用方法

  • 9A 颜色空间与分割
  • 9B 二值形态学
  • 9C 3D 感知

第 10 部分:人类视觉系统

  • 10A 视网膜
  • 10B 大脑中的视觉

讲师与合作伙伴

Aaron Bobick

Aaron Bobick

Aaron Bobick 博士于2015年1月1日加入圣路易斯华盛顿大学,担任工程与应用科学学院院长和 James M. McKelvey 教授。在加入华盛顿大学之前,他在佐治亚理工学院交互计算学院担任教授并是该学院的创始主席,自1999年起便在此执教。他拥有麻省理工学院数学(1981 年)和计算机科学(1981 年)理学士学位及认知科学(1987 年)博士学位。他于 1992 年加入麻省理工学院媒体实验室教员队伍,是计算机视觉行为识别的先驱。1999 年,Bobick 教授加入佐治亚理工学院,成为 GVU 中心主任,这是一所在计算机视觉、图形、普适计算和人机交互 (HCI) 领域享有国际盛誉的研究中心。2005年,交互计算学院创立,Bobick 教授担任创始主席。Bobick 不仅是美国电子电气工程师协会 (IEEE) 会士,并享有美国计算机协会杰出科学家称号。他曾担任多数国际计算机视觉会议的高级领域主席,包括 IEEE 计算机视觉与模式识别会议的项目主席。此外,他还曾担任多类监督为主的计算机视觉和医学影像技术公司的顾问委员会或董事会成员。

Irfan Essa

Irfan Essa

Irfan Essa 是位于美国佐治亚州亚特兰大的佐治亚理工学院交互计算 (iC) 学院的一名教授及计算学院 (CoC) 副院长。Essa 教授主要从事计算机视觉、计算机图形、计算感知、机器人与计算机动画、机器学习与社会计算,对视频分析与制作(例如:计算摄影学与视频、基于图像的建模与绘制等)、人机交互、人工智能、计算行为/社会科学和计算新闻学研究具有潜在影响。他在领先刊物与会议场所上发表过超过 150 篇关于这些话题的学术文章,其中一些曾获得最佳论文奖。他曾荣获美国自然科学基金委杰出青年学者奖 (NSF CAREER) 并选为美国电子电气工程师协会 (IEEE) 会士。此外,他还曾在迪斯尼研究中心 (Disney Research) 和 Google Research 担任扩展研究咨询职位及担任过卡内基梅隆大学机器人研究所兼职教员。他分别在 1990 年和 1994 年取得理学硕士和博士学位,之后在麻省理工学院媒体实验室担任研究教员(1988 年至 1996 年),后于 1996 年加入佐治亚理工学院教师队伍。

Arpan Chakraborty

Arpan Chakraborty

Arpan 致力于寻找解决日常问题的计算机解决方案。他对人机交互、机器人和认知科学拥有浓厚的兴趣。他获得了北卡罗莱纳州立大学的博士学位,专注于生物启发计算机视觉的研究。在优达学城,他投入了大量时间,除了为自动化工作流程设置了一些小项目外,还为他主讲的课程设计交互练习。

官方微信公众号二维码

优达学城(Udacity)微信