2019年8月27日

从告别7年数学的文科生到数据科学家

从告别7年数学的文科生到数据科学家

作者:机器学习纳米学位毕业生-Hou Jue

2年前还是7年没学数学的文科生,现在的我已经是一名在东京工作的数据科学家了。在机器学习热,数据分析热的大环境下从文科转行,颇有感触。

为什么转行?

这波人工智能的浪潮早在几年前就开始了。那时候经常听到相关的新闻:AI会下棋,能认识人脸,能自动驾驶,但相比于对最新技术的憧憬,更害怕哪一天我被机器取代。我本身是一名在日本留学的文科生,毕业前小钻研了一下Java,运气比较好,碰上日本IT缺人,找到了一份儿系统工程师的工作,也算边学边干。工作一年后,我发现手头的工作基本是将一些业务逻辑自动化。而我更想用计算机做一些更酷的事情,所以决定转行数据科学。

很多人问,我是文科生能不能转行?我数学不好,能不能转行?

首先,一定要纠正的思想是:“因为我专业不对口,所以我干不了那个”,或者“因为我不会,所以不能干”。这种思想,我以前也有。没有谁生来就啥都会,写字说话都是我们一点一点学来的。 如果把思想转换成:“因为我想干那个,可是我不会,所以我要学那个”,是不是更积极一点?

我自己的经历是,作为一个大学+研究生六七年没有学数学的文科生,开始学习的时候,高中数学我只记得y=kx+b,看到Σ更不知道是什么。但不会的知识慢慢啃,到现在啃论文已经不成问题了。

数据科学家在做什么?

我在一家专门做数据分析的公司。简单的说,我的工作是定义问题→处理数据→分析,建模→撰写报告,跟教科书里的数据分析流程是一模一样的。

具体一点,就以前段时间接触的电话营销公司的项目举例:

原本的电话营销就是拿着手里的名单,随便给人打电话,效率极低。我需要通过建模预测他们的潜在客户:谁会在哪一个时间段内接听电话?谁更容易推销成功?通过这个模型,接通率和成交率都提升了好几倍。

那之后也接到过这个电话营销公司的文本数据,即客户通话录音转化成的文本。原始的数据真的脏到一定程度,而我那时候还是个刚入职不久的小白,每天回家学习到很晚,在公司也各种跟大佬请教。最终写了一套还算复杂的算法,可以直接分析哪些语句利于成交,为电话营销员的话术提供优化方案。公司之后的确是打算提供自然语言解决方案,而我写的那套东西正是解决方案的第一步。对于刚入职的我来说,真正做出有商业价值的东西,给了我很大的成就感。

值得一提的是,转行之后,有一个关键软技能是成为数据科学家之前没有关注到的:沟通能力。

作为一名数据科学家,你必须了解如何将你的“数据故事”讲给不同背景的人:技术大佬、非技术背景的同事、关心其业务的雇主等(法律也规定涉及建模的时候,必须向客户解释这个模型的原理),沟通的重要性远比想象的重要。

【文科生的转行学习建议】

我的主要学习方法是网课+书。

【网课】:udacity的机器学习进阶纳米学位+Coursera机器学习

我曾经听有人说这两个课几乎成了找工作的标配。不管这句话是否严谨,但我个人觉得这两们课是互补的。Udacity 偏实战,Coursera 偏理论。

【书】

因为在国外,我就说一些国际通用的好了。

图片

《Python for Data Analysis》

图片

《Introduction to Machine Learning with Python》

这两本书是基本中的基本,把这两本看完,练习一遍代码,就可以胜任一些最基本的数据分析的工作。

图片

《Deep Learning from Scratch》

(中文名:深度学习入门:基于 Python 的理论与实践)

这个系列有两册,第一册是深度学习基本原理+CNN,第二册是自然语言处理相关+RNN(gru lstm等等)不调包,需要徒手装深度学习模型。

GitHub 地址:Deep Learning from Scratch

图片

《机器学习》西瓜书

图片

《深度学习》花书,很有名还没看,暂时没有发言权。

即使课程毕业,书也读了一遍,这一切都不是你学习的终点。

应该是所有data scientist 都在说的:要多读 多读 多读!就我个人而言,通过碎片时间读的文章、查的资料可能比书本与课程加起来都多。希望继续深造的人,可以根据 data scientist roadmap 一点一点查漏补缺:

图片 data scientist roadmap

关于转行的一些建议

  1. 没有工作经验、不是科班出身不用怕,有作品就是硬道理。但如果只是嘴上说熟练使用某项技能,面试官是无法确认你是否真的掌握的。你需要通过真正做过的项目,证明你懂这些知识与方法。(勤刷kaggle!)
  2. 面试:基本任何工作都离不开两个话题:会不会干和想不想干。前者是专业知识,后者包括转行/辞职的理由、工作的动力,提前做好准备。

总体而言,相比之前的工作只是让业务效率化,现在数据科学的工作能够利用数据为公司创造更多附加价值。同时,接触到了更多种多样的业务场景、用到更多新的技术、学到了更多知识,获得了更大的成就感。

最后题外话,做第一份工作时在 Udacity 学习了 Java,后来转行数据科学还是在 Udacity 学习的,一路走来感谢 Udacity 的陪伴。

了解相关纳米学位