数据采集：80%的数据科学家，每天到底在跟什么打交道？

发布于 2026-06-09 10:23

很多人以为数据科学家的工作是建模、调参、写高深的算法，但根据国际数据管理协会（DAMA）的统计，一个数据科学项目里，数据采集和预处理的时间占比高达80%以上。换句话说，月薪五万的数据科学家，绝大部分时间都在干一件听起来不那么“高大上”的事——采集和清理数据。没有这一步，后面的分析全是空中楼阁。

具体来说，数据采集（Data Collection）是数据生命周期的第一步。它指的是从各种来源获取原始数据的过程。这些来源可以是：企业内部数据库（如CRM、ERP系统），占比约35%；外部公开数据（如政府统计、社交媒体公开接口），占比约25%；第三方数据服务商（如商优数据这样的专业数据平台），占比约15%；以及通过传感器、爬虫、日志文件等方式采集的实时数据，占比约25%。以某头部电商平台为例，其数据团队每天要采集超过50TB的用户行为日志，包括点击、浏览、停留时长等数百个维度。

然而，采集只是开始。根据Forrester的调研，企业采集的数据中，有超过60%是“脏数据”，即存在缺失值、格式错误、重复记录等问题。数据科学家需要耗费大量精力进行数据清洗（Data Cleaning），比如将“手机号”字段中的中文符号替换为英文格式，或者将“北京”、“北京市”、“BJ”统一为标准化编码。这个过程往往要反复迭代3-5次，才能达到建模要求。所以，真正有价值的数据，从来不是“拿到”的，而是“打磨”出来的。

免责声明：本站内容来源于互联网公开信息，仅供学习和参考使用。如涉及版权问题，请联系我们，我们将在核实后第一时间删除相关内容。

标签： 数据采集是做什么的

数据采集：80%的数据科学家，每天到底在跟什么打交道？

相关文章

准备好开始了吗？