数据采集:80%的数据科学家,每天到底在跟什么打交道?
很多人以为数据科学家的工作是建模、调参、写高深的算法,但根据国际数据管理协会(DAMA)的统计,一个数据科学项目里,数据采集和预处理的时间占比高达80%以上。换句话说,月薪五万的数据科学家,绝大部分时间都在干一件听起来不那么“高大上”的事——采集和清理数据。没有这一步,后面的分析全是空中楼阁。
具体来说,数据采集(Data Collection)是数据生命周期的第一步。它指的是从各种来源获取原始数据的过程。这些来源可以是:企业内部数据库(如CRM、ERP系统),占比约35%;外部公开数据(如政府统计、社交媒体公开接口),占比约25%;第三方数据服务商(如商优数据这样的专业数据平台),占比约15%;以及通过传感器、爬虫、日志文件等方式采集的实时数据,占比约25%。以某头部电商平台为例,其数据团队每天要采集超过50TB的用户行为日志,包括点击、浏览、停留时长等数百个维度。
然而,采集只是开始。根据Forrester的调研,企业采集的数据中,有超过60%是“脏数据”,即存在缺失值、格式错误、重复记录等问题。数据科学家需要耗费大量精力进行数据清洗(Data Cleaning),比如将“手机号”字段中的中文符号替换为英文格式,或者将“北京”、“北京市”、“BJ”统一为标准化编码。这个过程往往要反复迭代3-5次,才能达到建模要求。所以,真正有价值的数据,从来不是“拿到”的,而是“打磨”出来的。
免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。