一文读懂数据科学家：需要哪些素质、类型与工作流程 - 技术の宅 - 论坛

一文读懂数据科学家：需要哪些素质、类型与工作流程

所在版块：技术の宅

发贴时间：2019-06-18 22:57

用户信息

昵称: 功夫熊猫

经验: 25860

等级: ?? 等级太高

资产: 99578 华新币

发贴: 73611

在线: 40463 小时

复制本帖HTML代码

我要回复↙ 相关跟贴↙ 平板模式手机浏览下一跟贴只看此人本帖链接　字体: 小中大

高亮: 今天贴 X 昨天贴 X 前天贴 X

首先介绍一下我的职业发展经历哈。我中文名字是王建强(Jay Wang)，美国排名前15的统计系的博士，之后在湾区工作过8年，大家可以在领英、脉脉上搜到我。湾区的第一段工作经历在惠普研究院，做零售业的需求预测和产品线优化方面的决策智能。2013-2015年在twitter总部广告组，负责广告点击率预测和排序算法。2015-2018年历任stitch fix, 一家已上市的推荐电商公司，推荐算法负责人及snapchat 滤镜广告技术负责人。

今天我会结合我在数据科学中探索的心得体会，跟大家聊聊数据科学的话题。分享的对象是互联网公司的工程师、产品经理、运营同学和所有对数据科学感兴趣的读者。

数据科学家需要哪些方面的素质？

数据科学家是当前无论硅谷还是国内都很稀缺、炙手可热的职业，优秀的数据科学家更是寥寥。数据科学家这个职位，对专业和综合素质都要求很高，需要“一专多能”，就是常说的T形人才。

数据科学家要有基于数据指导业务和分析预测的能力。具体来说，需要具备的素质有:大数据平台实战经验、理解企业业务、懂数学软件和编程、掌握分析的理念、熟悉算法跟编程。所以数据科学是对业务思维能力、数学建模能力和工程开发能力要求都很高的行业。

但成为好的数据科学家并不限定教育背景或从事的领域。我共事过的优秀的数据科学家来自截然不同的领域，在成为数据科学家以前，他们有人在金融业做证券分析，有人研究流行病的传播，有人搜寻宇宙中超新星的爆发，有人从事脑神经科学的研究，林林总总。

恰恰是来自不同专业领域的经验给数据科学这个行业带来了不一样的风景。流行病传播的模型被用到twitter, facebook 等社交网络来研究爆款内容的传播，脑神经科学的理论在人工智能领域广泛运用。我stitch fix前同事有些物理的Ph.D.从普林斯顿的高等研究院(就是爱因斯坦、冯·诺伊曼、奥本海默等大神工作过的地方)过来。他们之前从宇宙射线的数据中搜寻超新星，而现在却在研究女装的动态库存。

但行业顶尖的数据科学家无一不是业务思辨、建模和动手能力都非常扎实的。要成为优秀的数据科学家，其一需要系统的量化科学的训练，在网络发展到今天，大家可以找到丰富的免费学习资料。其二要培养“大胆假设、数据求证”的思维框架，而且要刻意练习用这套思维框架解释生活和工作中的问题。

数据科学家可以分成哪些类型？

数据科学家可划分为Analytics和MachineLearning两类，但是也有很多人兼顾两个角色，在工作中相互转换，就是戴两顶帽子(wearing two hats)。前一类通过AB测试、深度分析等指导产品决策，而后一类搭建智能决策的产品，提升效率。

Analytics大多是问题导向，如购物平台上用户在工作时间和下班后消费习惯的差异。最初可以针对用户总体进行分析，然后在结果的基础上做更细化的分析。可把用户按照城市、地理位置、用户使用的客户端来分类细化。整个过程是交互式的，就是不断提出新问题，通过分析解决问题，然后再提出新的问题，最终目的是做决策辅助。

MachineLearning主要是指标驱动，如提高广告平台上用户的转化率。转化率就是从用户点击广告到生成转化（如用户访问广告商网站和下载APP）的比率。通过应用预测模型或对当前系统调参来提升指标，最终生成智能化的产品。

数据科学的一般工作流程是什么？

下图是基本的数据科学流程：

开始先搜集原始数据(企业的CRM数据、交易记录等)，还有网站点击流或用户APP内行为的埋点日志。

之后，对原始数据进行预处理，也叫数据清洗。原始数据会有很多冗余、变量缺失以及错误。基于清洗过的数据，可以做一些探索性分析和机器学习建模。

在探索性分析方面，尿片和啤酒是很经典的案例。很多分析师会对商品信息进行归类以及监督商品的相关度。一般情况，大多数的商品相关度都很低，约在0.1左右，啤酒跟尿片的相关度是0.3左右。针对这个奇怪的现象，分析师们做了分析，发现很多父亲晚上去超市给婴儿买尿片的同时也会买啤酒来自己喝。这样一来，超市摆放商品时可以把相关度比较高的商品放在一起，方便顾客挑选。所以对数据科学来讲，通过数据分析、建模可以得到一些可以让人信服的信息，便于做决策辅助。

另外就是数据产品，分为分析型和智能化产品。

分析类数据产品。如现在了解当前北京实时交通状况，可以爬取网上数据，针对这些数据做一些可视化和交互式分析。这样数据产品可以展现数据和定时更新数据内容，就是一个分析型数据产品。

智能化数据产品。如基于机器学习实现的搜索引擎，广告推荐系统等，自动搜集数据并基于数据决策的系统。

工作中有趣的故事？

这里介绍些以前在stitch fix工作中的例子。stitch fix是哈佛商学院毕业生Katrina Lake 于2011年为解决都市白领女性购物痛点创办的服装电商公司，国内有很多stitch fix 的效仿者，连唯品会也推出了类似stitch fix的唯你搭产品。

用户在stitch fix注册时，需要填写详细的个人风格问卷。问卷涉及购买衣服时考虑的款式、颜色、价位、尺寸、版型等。Stitch Fix收到用户风格问卷后，结合算法和造型师的建议进行推荐，按月寄给用户五件搭配好的的衣服。用户选择喜欢的留下来，不喜欢免费退回。

在stitch fix我们做过些很有趣的数据案例。其中之一是算法应该给造型师推荐多少候选集：我们在A/B测试不同的桶中给造型师分别展示250，200，150，100，50件衣服。得到的结果是转化率随着候选集减少反而提升了！这个结果大大提升了我们对算法的信心，也从侧面验证了算法从数据中得到规律的价值，而造型师偏离算法排序结果可能导致结果变差。

其二是推荐转化率为什么周一周二最高，之后逐渐下降？这个问题曾经一直困扰我们。分析转化率的波动，我们一般会从库存质量，造型师水准和用户分层来研究。发现的一个有趣的结果是周末有大量衣服退回到仓库，库存的深度跟广度增加，可供平台选择的增加了，算法和人工的组合也就能产出更优的推荐了。