Kaggle调研数据揭秘如何成为一名合格的“数据科学从业者”?

RS君 DT数据侠 2018-10-12

有人说“数据科学家”被誉为21世纪最性感的职业,尤其在互联网大数据日渐兴盛的当下更是如此。数据侠Yoki Zhang分析了Kaggle上发布的全球从事机器学习、数据科学领域人员的2017年深度调研数据,揭开了数据科学家的神秘面纱。

本文转自RS实验所(ID:rs_lab)


2017 Kaggle ML & Data Science Survey此次调研共收到涵盖52个国家的16,000+份问卷回复,问卷内容包含该领域有关从业者人群基本信息、该行业现状及业界最新动态等290个维度信息。


本篇选取了包括港澳台在内的858份国内数据,着重从数据科学从业者人物画像、流行的编程语言及算法、薪酬行业现状及推荐的优质开源平台等方面分析得出相应结论。


什么是"数据科学家"?


“数据科学家”迷人的一方面在于其工作职能的广泛性并要求一定的熟练度,与其他大多数传统职业不同,在大数据时代下数据科学家似乎是一种复合型人才,集成了统计分析、编程技术、商业敏感度、数学建模和可视化设计思维等能力并运用服务于企业工作的各个环节中。



尽管我们把数据科学家定义得较为宽泛,似乎无所不能。国内相关领域涵盖的工作非常多,此次调查中较普遍的头衔有软件开发工程师、数据分析师、机器学习工程师等。其中有80%掌握至少一种编程语言,且不同工作属性对技能要求略有不同,但不言而喻数据科学家对掌握技能的数量要求最为严苛。


(图片说明:SKILLSETS SUMMARY TABLE)


数据科学家做项目时完整的生命周期包括前期准备、产品搭建到后期商业优化的全过程。一个最为简单的基本工作流程包括数据的前期准备,模型的搭建,案例分析建模,可视化呈现,结果解释性分析,商业后期优化六个步骤。


目前所花的时间36%是在前期数据的计划筹备阶段,人们常说的“大”数据不仅指体量(Volumes)上的大,还有数据类别(Variety)之大,此次调查中数据科学领域从业者接触更多的是非结构化的数据(如文本、影视、图像等信息),数据工程师更多是处理一些关系型数据。


另外调查中关于从业者工作中遇到最具有挑战性的问题中,对脏数据的预处理遥遥领先地排在了第一位。


(图片说明:TIME SPENT ON WORKFLOW)


"数据科学家"的基本画像


接着我们从人口统计学入手描绘数据领域人员的基本画像,本次调查对象的平均年龄大约28岁,如图可见主要集中在20-30岁区间内,近九成从事最新的这份数据领域工作不到两年,可见更换不同工作频率较快,另外该产业在国内发展逐渐兴盛,期待更广阔的前景。

 

(图片说明:AGE & EXPERIENCE DISTRIBUTION)


通常来讲,女性依然是数据科学领域稀有的存在,数据科学从业者中最普遍的学历是硕士,但在女性数据相关领域群体中,拥有学士学位的从事者略高于硕士学位。


流行的分析工具及算法


近些年来,Python是数据科学领域人员最推荐也是发展较快的工具,推荐人数占75%,还有很多仍然保持着对R语言的忠诚,C/C++/C#则是程序员的有力武器。可见R、Python是两个最热门的开源数据分析工具,因此核心掌握这两门语言会让数据分析师具备更有力的竞争优势。


另外值得关注的是,在关于分析师次年想要pick的机器学习工具的问题中,解决神经网络等深度学习的有力工具TensorFlow热度显著仅次于Python,以及一些大数据工具Hadoop,Hive,Spark等的推荐指数也很高。



在数据科学领域实际工作项目中,随着AI和机器学习的不断渗透,神经网络模型、CNN卷积神经网络、随机森林、决策树和SVM支持向量机模型的使用逐渐趋于频繁。另外,功能强大的集成方法、贝叶斯及数据可视化也十分受欢迎,时间序列和文本挖掘如NLP也逐渐被使用,回归仍是工作之中最经典的算法之一。


(图片说明:ALGORITHMS/ANALYTIC METHODS)


行业薪酬排行榜



从国内数据科学领域现状看来,相关职位的全职年薪平均值约为$47K,尽管剔除了一些极端离异值的影响,仍不排除调查误差的存在。从薪酬排行榜的行业分布来看,其中薪水较高的公司集中在一些高新科技企业、CRM公司、零售、金融、计算机互联网公司等巨头行业,其中科技公司的薪酬极差最大。


从专业分布来看,可能拿到较高薪水的专业如工程学位、计算机科学、信息管理专业、数学统计学等热门专业,但薪酬排名前三名的专业极差也较大。相对于目前的薪酬,在工作中的项目经验积累往往更为重要,因为在关于工作相关因素重要性的调查中,我们发现从业者对「职业发展机遇和学习机会」的重要性排序超过了对「补偿和福利」的关注。


(图片说明:JOB FACTOR IMPORTANCE RANKNING)


优质的开源平台



没有数据一切就是无稽之谈,之前也提到在前期数据的准备阶段最为耗时,如何找到有效且干净的数据用于训练和项目开发就显得相当重要。其中36%推荐使用数据集聚合平台,如本文的数据来源Kaggle等社区便成为最频繁使用的平台。世界上最大的代码库GitHub也有数据的大量资源共享,另外自己通过爬虫也是很好的获取数据资源方法。


(图片说明:TIME SPENT ON SELF-IMPROVEMENT PLATFORMS)



数据科学是一个急速发展、日新月异的领域,有很多有价值的资源可以助你一臂之力。无论是对数据领域小白还是已经在此领域中摸爬滚打的资深玩家,都能帮助你不断充电提升竞争力,保持自己在业内的顶尖优势。


选择自学的人数占四成且花时间最多,其次选择Coursera, Udemy, Edx在线课程提升自我的也占一定比例35%,无所不能的Stack Overflow可以让你站着巨人的肩膀上,避免踏入前人的坑。


值得推荐的是,Kaggle这个数据科学爱好者组成的社群,里面不定期发布的机器学习竞赛的实战项目也可以让你从实践中收获更多。


结论


1. 数据科学家要求掌握编程技术、商业敏感度、数学建模和可视化设计等各种能力的综合。在基本工作流程中大部分时间是在前期数据的计划阶段。


2. 数据从业者平均年龄大约 28岁,男女比例基本成八二分,数据科学从业者中最普遍的学历是硕士。


3. Python是机器学习者最推荐的编程语言,TensorFlow热度也值得关注。一些CNN、随机森林、决策树和SVM等算法使用频率较高。


4. 高薪行业集中在高新科技企业、CRM公司、计算机互联网等行业,但行业内差距也较大,可能拿到高薪的专业如工程学、计算机科学、数理统计学等。


5. 较多人推荐使用Socrata、Kaggle等平台搜集原始数据,近四成使用Coursera, Udemy, Udacity, Edx在线课程保持竞争力,Stackflow/GitHub等在线社区也很值得推荐。



此篇是介绍了ML&Data; Science调查结果的国内篇,数据量较为有限,另外Kaggle作为著名的在线数据科学竞赛平台,此次调查可能是针对Kagglers对数据科学领域的回复,本文的分析结果希望给大家作为一个参考。


注:内容仅为作者观点,不代表DT数据侠立场。


作者 | Yoki Zhang

题图 | 站酷海洛


期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。


数据侠门派


本文数据侠Yoki Zhang,统计学硕士,就职于Merkle。追求挑战的非正经数据分析人,成长中的数据可视化玩家,热衷画画爵士的资深作女,享受感性艺术和理性分析的激情碰撞。曾参加第十一届全国研究生数学建模竞赛获二等奖、全国大学生数据挖掘大赛等,致力用数据分析将生活变得更其乐无穷!



加入数据侠


数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加DT君微信(dtcaijing003)并备注“数据社群”,合作请联系datahero@dtcj.com。


    本文由自媒体作者DT数据侠投稿,版权归原作者所有
    如若侵权,请联系本站删除