2018年6月13日

数据科学家在公司都有哪些作用

揭秘:数据科学家在公司都有哪些作用?

enter image description here

导语

数据科学家究竟做些什么?厉害在哪?相比数据分析师,他们又多了哪些技能和知识呢?我们采访了 Bookings.com (缤客)的高级数据科学家 Nishikant Dhanuka 让他来聊聊这份工作的职责和宝贵经历。

01

面试缤客

enter image description here

在迪拜从事了为期三年的咨询工作后,两年半前我作为一名"数据科学家"加入了缤客。缤客 (Booking.com),是一家荷兰在线预定住宿网站,也是美国上市公司 Booking Holdings 的旗下品牌之一。 2018年4月其网站上显示共有 2,837 万个房源, 位于 13 万个旅行目的地,遍及全球 228 个国家和地区,每日预订晚数超过 155 万晚。对于我的职业生涯而言,从咨询转行到纯粹的数据科学工作是一个巨变。事后看来,我很庆幸当初的决定。事实上,在面试期间我就被这家公司惊艳到了。我最喜欢的一点是当初面试我的是同职位的同事,因此在这个过程中有很多高质量的互动。这也再次证实了招聘人员所说,这家公司有着“扁平化管理”。同时,被面试者的背景也是多元而有趣的——一位有着天文学博士学位,另一位是他自己的创业公司的 CTO。

enter image description here

——另外,我必须承认,办公室的豪华午餐(以及阿姆斯特丹的工作地点)也在很大程度上影响到了我的决定 🙂

02

加入团队

如今我依然记得,在入职的第一天,一位小伙伴问我:“你觉得你的电脑屏幕怎么样?”。我不确定该怎么回答,因为我之前只在一个笔记本上工作。然后我就得到了一个 Macbook,两个大屏幕(主要用于投射我的代码,展示给非技术用户看)以及其他很多酷玩意。我准备用我的新头衔——「数据科学家」,去征服世界!

enter image description here

(图片来源于网络)

很快,我就得到了我的第一个入职项目,主要是分析大量文本并获得一些商业洞察。之前,我只接触过结构数据,所以这次挑战让我激动万分。我立刻全身心投入其中,并努力提升自己以对文本数据进行有意义的分析,但是很快,我就遇到了麻烦:缤客的数据规模。

缤客 Booking.com 每 24 小时就被预定超过 1,500,000 个房间,并且上百万人在任何时间都能浏览网页,这就意味着身为数据科学家的我所接触到的数据是非常庞大的。幸运的是,缤客提供了“用 Spark 进行分布式计算”的内部培训。我立即参加了这个培训,现在我的分析能在多台机器上运行了。

03

更多项目

enter image description here

(缤客的数据科学家在分析学会议上展示他们的项目)

我的第二个项目是为我们的合作网站建立一个“推荐系统”,用来推荐相关机会。这个项目让我十分激动,因为之前只做过标准回归和分类模型的工作,所以我迫不及待的想尝试新的东西。这是我第一次接触到这个迷人的领域——协同过滤 (collaborative filtering) 和因子分解机 (factorization machines)。由于数据规模过于庞大,我必须再次在 PySpark 中用稀疏矩阵来解决这个问题。然后,我编写了代码并启用 A/B测试,看看它是否对我们的业务产生正面影响。这也是我的第一个 A/B 测试经历,幸运的是,我们拥有出色的实验工具和基础设施,建立这个测试并没有费太大劲。在几次测试之后,我们也能够处理冷启动问题了,我很高兴能够成功完成第二个项目。

enter image description here

接下来就是一个有趣的多项目组合,每个项目都是不小的挑战,需要我全身心投入并持续学习。比如说,其中一个项目需要我将业务问题展示成加权网络图,并基于此进行有趣的数据分析;而在另一个项目中,我必须演咨询顾问的角色,通过简单的数据分析获得有意义的商业见解,进而验证一个重要的战略决策。

两年半的时间过得飞快,经过深度学习,如今我已是 Booking.com 的一个高级数据科学家。挑战的难度只会越来越大,最近我在开发一个 AI(人工智能)产品“机器翻译”,并采用神经网络和深度学习算法来构建一个全面的翻译应用系统。尽管机器翻译是近期有较大突破的研究领域课题,我们仍决定采用“业务驱动的AI”方式,专注于如何为客户提供帮助。我会在另一篇博客上对这个话题上进行深入的讨论。

如果你对缤客 Booking.com “全规模神经网络的机器翻译应用案例”有兴趣,也可以在后台回复「booking」下载相关学习资料

04

团队架构

接下来简单聊一聊缤客的数据科学家在团队中是如何安排任务的:我们称之为的“嵌入式”结构,在这里,数据科学家与业务紧紧相连。举例来说,我在一个团队中身兼开发者,数据科学家,产品负责人和其他许多特殊职位。我们这样做,就让团队具备了能让一个想法从概念化到最终实施的相关能力。对于日常运营,我们遵守“缤客短平快要领”:每日站会,回顾总结,列待办事物表,团队目标,KPIs 和 OKRs(目标和关键结果)。这些再结合每周两次的冲刺会议,能让团队稳步前进,每次展示的案例无论是成功还是失败,我们都可以尽快从中学习到很多知识。

——正是因为这种与商业的密切互动,缤客的数据科学家在沟通,商业意识,技术工艺等方面都表现得非常出色。这些都是我们在面试中考察的基本技能。

05

最值得一提的:团队成员

enter image description here

(每周分析讨论会上的缤客数据科学家团体)

缤客有超过 120 名数据科学家,并且这个团体正在日渐增长。我们每个人都有不同的经历,背景和工作偏好。对于一些人来说,这是他们博士毕业后的第一份工作,而另一些人则已经拥有了大量的工作经验;有些人是贝叶斯学派,有些人则是频率论学派;有些人喜欢 R,有些人则偏爱 Python;有些人强烈拥护外核学习(Vowpal Wabbit),而有些人则更喜欢用 Spark 和 H2O 进行分布式计算。这种多样性让大家在团队中能互相学习和进步。我们有周会,比如说分析学讨论会,日报俱乐部等,能让我们得到同辈们对分析的意见,并讨论如何将最新研究论文中的想法应用于解决缤客面临的实际问题。此外,人们自愿定期举办技术培训,包括 A/B 测试,Git, Hive, R, Spark, H2O, TensorFlow 等主题。

——对我而言,这种“员工和团体”文化是这份工作中最棒的部分,它让我每天都能学到了新技能,我很享受这个过程。

06

一些挑战

像每一个企业正在成长的数据科学家一样,我们也面临着许多挑战。

  • 首先,因为我们的数据科学家社群正在快速成长,有时难以及时的分享知识。为了解决这个问题,我们一直在尝试新的方法,如通过专题讲座(如自然语言处理 NLP),emails,Hacksons 等,以帮助在成长的每个阶段都能快速的分享所学。

  • 将数据科学家融入商业中也有不利之处。有时我们会在日常工作中错过关键而友好的同行反馈。为了解决这个问题,我们鼓励大家经常展示他们的工作,并与同行及时讨论他们的最新项目。同时,我们也为新加入者提供了导师计划。

  • 尽管我们多次为数据科学家团体做出贡献,但是我们无疑可以更好的将学习经验和实践项目分享给外界。我们目前正在制定一些相关方面的指导方针。

我认为好的方面是我们看到了上述这些问题和其他许多挑战,并且组建了特别工作组来研究这些可以改进的地方。

最后我要说的是,在这样的企业担任一名数据科学家,工作和生活也绝对不会枯燥的!

enter image description here

(缤客数据科学家们一起享受阿姆斯特丹的夏日)

上周,Udacity 在阿姆斯特丹的 TNW 科技峰会上,也向全球首发新课——【数据科学家】纳米学位,通过这门殿堂级课程,你可以在 7 个月内完成比这位缤客数据科学家更多的实战项目,其中也包括:

  • 图像分类器(深度学习)

  • 客户档案细分(与 Arvato 共同设计)

  • 文本信息处理(与 Figure Eight 共同设计)

  • 推荐引擎(与 IBM 共同设计)

  • ....

共计七个与行业领袖一起设计的实战项目,让你真正学会并掌握最顶级的数据分析技能和工具,成为价值不菲的稀缺人才!