读芯术 · 2019年07月30日

哪些最重要因素造就了伟大的数据科学家?

全文共2286字,预计学习时长4分钟

image

数据科学就业市场变化迅速。以前,只有少数卓越的科学家才有能力创建机器学习模型。但如今,仅有基本编码经验的人也可以按照步骤训练简单的scikit-learn 或keras 模型。

由于对“本世纪最性感工作”的热潮有增无减,加上相关工具更容易使用,招聘人员已疲于应付各种应聘,对数据科学家工作的期望也正在发生变化。公司逐渐开始认识到,训练机器学习模型不过是成功的数据科学家所需要的一小部分。

以下是让优秀数据科学家脱颖而出的最有价值的品质。

  1. 聚焦企业影响

天生的好奇心是激发数据科学家寻找数据模式的最常见动机。深入搜寻探索数据集十分有趣,可以试验领域最新科技、系统地测试实验结果,然后发现新事物。数据科学家应该具备这种科学动机。然而,如果这是唯一的动机,问题就大了。在这种情况下,科学家就容易陷入孤立,并迷失在统计细节中,忘记考虑其作品的具体应用以及更大层面的公司背景。

最优秀的数据科学家拥有创造商业价值的内在动力,知道如何让自己的作品融入公司全局。如果简单方案已经足以解决问题,他们不会浪费时间实验复杂技术。他们会考虑到项目的更大目标,在提出解决方案之前敢于质疑核心假设。同时也会关注整个团队的影响力,并积极与利益相关者沟通。他们对新项目充满想法,不惧打破常规,为自己帮助了多少人而不是为使用了多先进的技术而感到自豪。

数据科学很大程度仍是不规范的领域。数据科学训练营教导的东西和企业真实需要的东西仍存在很大差距。最优秀的数据科学家不惧走出舒适圈,解决紧急问题并充分利用他们的影响力。

  1. 培养扎实的软件工程技能

每当想到理想的数据科学家,人们脑海中常常会浮现名牌大学中大名鼎鼎的教授。的确,雇佣高资历人才能够帮助公司在激烈竞争中尽快建立高精度的机器学习模型。通过任何必要方式获取最高精度非常重要,但也需要关注数字细节、测试最复杂的方法,甚至发明专门优化某一特定用例的新统计技术。

image

但在现实世界中,这并不必要。对大部分公司而言,精度较高的标准模型已经足够,因此无需投入大量时间和资源将合适的模型转化为世界上最先进的模型。更重要的是更快构建精度尚可的模型以及尽早树立反馈周期,这样就可以开始进行迭代,加快识别最有价值的用例的过程。精度上的细小差别通常不会决定数据科学项目成败与否。因此,软件工程技能在商业世界中要比科学技能更加重要。

数据团队的典型工作流程大致如下:首先,数据科学家利用面条式代码反复试验后,设计出一些解决方案的雏形。一旦试验结果初具成效,结果将转移给软件工程师。这时,软件工程师就需要重头开始重写所有内容,然后给出可扩展的、高效的和可维护的解决方案。虽然数据科学家并不需要提交和全职软件工程师水平相同的生产代码,但如果数据科学家更熟悉软件工程的原理,并且对可能发生的架构问题有所了解,整个过程就会更流畅,也更快速。

再者,考虑到新软件框架正取代数据科学工作流程的更多部分,扎实的工程技能无疑是数据科学家应该具备的最重要的技能之一。

  1. 谨慎管理期望值

在行外人士眼中,数据科学是一个非常模糊和混乱的领域。这只是一场炒作,还是世界真的在经历一场革命性的变革?是不是每个数据科学项目都是机器学习项目?业内人士是科学家、工程师还是统计学家?他们主要的产出是软件,还是仪表盘和可视化界面?为何模型能展示错误预测?有人能修复这个错误吗?既然如今只写出这几行代码,他们过去一个月到底在干些什么?

很多事情并不明确。在一个公司内,不同的人对数据科学家工作的期待也会有很大不同。

对于数据科学家而言,积极与利益相关者保持沟通非常重要,有助于设立清晰的期望值,尽早解决误解,并让每个人保持步调一致。

最优秀的数据科学家知道其他团队的不同背景和日程如何影响期待值,并能谨慎调整沟通方式。他们能够简单明了地解释复杂的方法,从而让非专业的利益相关者更好地理解目标。他们知道何时抑制过于乐观的期待,何时说服过度悲观的同僚。最重要的是,他们强调数据科学固有的实验性质,不会在项目尚未明确成功时说大话。

  1. 熟悉云服务

云计算是数据科学工具包的核心部分。很多时候,在本地机器上操作Jupyter Notebook会受到限制,无法完成工作。在这些情况下,云服务就非常有用。比方说,在功能强大的GPU上训练机器学习模型、在分布式集群上并行数据预处理、部署REST API以公开机器学习模型、管理和共享数据集,或查询数据库以进行可扩展分析。

最大的提供商有亚马逊WebServices (AWS)、微软Azure 和谷歌Cloud Platform (GCP)。

image
鉴于其庞大的服务集和平台之间的差异,要熟悉各个云供应商提供的所有服务几乎是不可能的任务。但对云计算有基本的了解十分重要,要能够浏览文档并在需要时了解这些功能如何运作。这至少有助于提出更好的问题,并为和自己的工作关系紧密的数据工程师制定更具体的要求。

现在了解了吧。对于希望从头开始建立数据科学团队的公司,建议寻找那些具有扎实的工程技能、对商业价值十分敏感、善于解决问题的实用型候选人。卓越的统计能力可以创造许多价值。但在大部分实际情况中,特别是对早期团队而言,这越来越不重要。

如今,大多数公司倾向于雇佣具有强大学术背景的数据工程师,如数学和物理学博士。考虑到近几年行业快速发展,将来是否会有更多软件工程师或技术产品经理转变为数据科学角色,请拭目以待。

42285fed7a93226892ddd9d0438f376.jpg

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

0299d4e99b14a182ffed86c6cd27ef1.jpg
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~

推荐阅读
关注数
15
文章数
8
专注年轻人的AI学习与发展平台。我们的微信公众号“读芯术”
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息