数据采集与数据清洗

发布于 2026-05-29 09:50

如果我们参加天池或者Kaggle竞赛，原始数据集会公开提供给各参赛方。但现实中公司不会在下发一个预测任务的同时就为你准备好数据集，所以准备数据的第一步是数据采集。假设公司下发了一项任务：给某电商平台的用户推荐商品，从而提高平台销售业绩。

这个时候，我们首先应该思考3个问题，即预测任务究竟是什么？什么样的数据可能与预测任务密切相关呢？这些数据是否可以获取，获取的方式是什么？在上面的例子中，我们的预测任务是，当我们向消费者推荐一款商品时，如何提高消费者的购买率；我们认为消费者以前的购物数据与购物行为有密切关系，这些消费者历史购物数据就是所需要的一部分数据；这部分历史购物数据，可以亲自从公司数据仓库中提取，也可以委托数据采集部门的同事帮助提取。数据采集环节对算法工程师来说，重点的工作是，真正理解预测任务的本质，明确哪些数据可能会对最后的预测结果造成影响。

而具体的数据采集工作倒是其次，算法工程师可以自己亲自提取数据（如从数据仓库中提取数据），也可以向数据采集部门的同事提出数据采集需求，让他们埋点采集新数据或者从数据仓库中提取数据。数据采集之后，并不意味着数据就可以直接使用，例如可能存在数据缺失或者无效的情况，这时就需要进行数据清洗。现实中，公司数据仓库中的数据来自各个业务数据库的历史数据，这样就难免会出现数据缺失、数据错误甚至数据之间矛盾冲突的情况，也就是产生“脏”数据。

业界有句流行语“garbage in,garbage out”，它表达的意思是机器学习算法类似于一个加工机器，最后成品的质量如何在很大程度上受到原材料（数据）质量的影响。所以这些“脏”数据是不能够直接使用的，必须经过清洗。数据清洗，顾名思义就是把“脏”数据“清洗”干净，使数据能够使用的过程，常包括数据一致性检查，数据缺失值、错误值或无效值的纠正等。

免责声明：本站内容来源于互联网公开信息，仅供学习和参考使用。如涉及版权问题，请联系我们，我们将在核实后第一时间删除相关内容。

标签： 数据清洗的目的

数据采集与数据清洗

相关文章

准备好开始了吗？