IT大嘴巴 · 2021年08月02日

数据科学家 (Data Scientist) 的核心技能是什么?

在谈论数据科学家的核心技能是什么之前,我想先说一说关于数据科学是什么。

在我眼中的数据科学,是一个相当性感的职业,把海量数据注入到新兴产业之中,大量新的技术涌现。无论从大型产业到学术研究,都体现出社会对该专业领域知识需求的增长,如语音识别、视觉中的物体识别、人工智能和自动驾驶、神经科学,乃至到宇宙的起源、生物演变的追述都离不开数据科学。

美国计算机科学家和图灵奖获得者吉姆·格雷(Jim Gray)认为,继经验主义、理论主义及计算模式的思潮过后,数据科学一跃成为“第四范式”。用格雷的话说,信息技术改变了一切。不知不觉中我们已步入第四次工业革命,数据科学连同机器学习与分布式计算一直处于前沿领域,日后的信息技术只会更加普及。数据科学涵盖了多个学科,数据科学家们要做的就是就是将知识提取出来,基本上就是是指成功调试工具进行更高效的信息采集、存储、数据处理和合成。

不过,虽然都叫数据科学家,但是在不同公司里面干的活还是不一样的,有的偏机器学习、建模,有的偏数据分析。有的叫数据科学家,干的很多事情跟软件工程师(SWE)很类似。有的偏产品,风格短平快。有的偏长期研究,看的是一两年甚至更久的效果。

数据科学家们最根本的目的,就是通过数据分析来引导产品改进的能力,最核心的技能也是围绕着这个目的而服务的,比如说写个 SQL 看看过往哪些内容被浏览得最多,用户参与度最高,然后把这些内容推送给新用户,简单粗暴;又比如说做一个用户画像,找出来那些花的时间多的用户都有什么特点,花的时间少的用户又有什么特点,然后对症下药;再比如说做一个先进到没朋友的机器学习、深度学习、好好学习的模型,然后每天给用户推送他们最喜欢的内容等等。

要实现这些目的,就必须利用深度学习的能力,深度学习是基于数据的,任何一种深度学习模型都需要大量的数据进行训练,才能达到我们想要的推理、分析、预测等一系列结果。目前深度学习已在自然语言处理、语音处理以及计算机视觉等领域中得到了空前广泛与成功地应用。越来越多的科学家从事神经网络与深度学习的研究工作。现在也有越来越多的企业希望将深度学习嵌入到实际生产应用中,希望提高自己的竞争力。

有需求,就会有答案。

近年来出现了多种适合深度学习的基础架构,如Caffe、MXNet和TensorFlow,它们的出现促进了深度学习在各领域发挥更大的应用价值。数据科学家们都期待或正在利用这些框架来降低深度学习部署和应用门槛,加速 AI 应用的落地,在其中,我较为欣赏的企业是英特尔,他们的slogan就让人很动容——至强的X 成就X种非凡,有说出这句话的底气,自然在技术层面也是相当出众的。

就拿英特尔的 oneDNN 来说,它不仅集成有众多优化的深度学习基元,例如直接批量卷积、池化、激活等,可提升各类深度学习应用的效率,更可针对 CPU 的各项特性实施优化,例如将上述基元向量化为 AVX-512 指令,并运行在支持 AVX-512 指令集的处理器中。

如图所示,一系列经优化的深度学习基元可在英特尔oneDNN 这个调度负责人的指挥下,能在英特尔至强可扩展处理器家族中发挥出更强的性能优势,构建高效易用AI平台。

例如目前制造业正普遍关注的瑕疵检测、智能品控等AI应用就有不少借助它们提升效率的成功实践——宁德时代就利用面向英特尔架构优化的PyTorch与OpenVINO工具套件,大大提升了 AI 动力电池缺陷检测解决方案的推理性能,实现了单工序 400FPS 以上的图像处理速度以及零漏检的检测精度,从而可以通过基于 AI 的实时缺陷检测能力来保证产能与品质的双赢。

在性能方面,英特尔至强架构性能更是在业内处于头部,2020年问世的第三代英特尔®至强可扩展处理器家族已集成了英特尔深度学习加速技术这两种 AI 加速指令集,并被广泛运用于商业深度学习应用的训练和推理过程。其中,AVX-512_VNNI 理论上可使推理效率提升至 4倍,而 AVX-512_BF16 则能帮助训练性能提升达 1.93 倍。

第三代英特尔至强可扩展处理器新增BF16加速能力,据实测数据显示,与 FP32 相比,使用BF16加速后 ResNet-50 的训练性能提升达1.64倍,DLRM 的训练性能提升达1.4倍,ResNeXt-101 32x4d的训练性能也提升达1.6倍,未来加速云数智变革,应用英特尔至强构架灵活高效平台是个非常好的选择。

云上是未来的方向,全新第三代英特尔至强可扩展平台为从云到智能边缘的广泛的细分市场进行了优化。为云端工作负载的严苛要求进行了设计和优化,并支持广泛的服务环境。目前全球已有超过800个云服务提供商选择英特尔至强可扩展处理器,同时所有超大型云服务提供商都计划在2021年提供基于第三代英特尔至强可扩展处理器的云服务。

以上提及的至强只是英特尔产品组合的一部分。

英特尔还为数据科学家们提供英特尔傲腾持久内存200系列、英特尔傲腾固态盘P5800X、英特尔固态盘D5-P5316、新一代英特尔至强D处理器、英特尔以太网适配器E810-2CQDA2、英特尔Agilex FPGA、英特尔解决方案和英特尔oneAPI工具包等等硬件或软件产品。

特别要强调下 oneAPI 工具包,它让开发者能够使用跨 XPU 的单一代码库来开发跨架构应用程序,利用独特的硬件特性,并降低软件开发和维护成本。开发者可以针对他们要解决的特定问题选择合适的加速器架构,且无需为新的架构和平台再次重写软件。

说oneAPI 是工具包其实是委屈了它。作为一个开放、基于标准、统一的跨架构编程模型,oneAPI 更像是一个行业计划,它服务的目标是整个生态系统,帮助大家快速进入分布式智能时代。

我相信,英特尔最近发布的一系列产品,能够帮助各位数据科学家解决现实中各种错综复杂的问题,以上。

推荐阅读
关注数
1932
内容数
249
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息