首页 行业资讯 文章详情

数据采集与数据清洗

发布于 2026-05-29 09:50
数据采集与数据清洗

如果我们参加天池或者Kaggle竞赛,原始数据集会公开提供给各参赛方。但现实中公司不会在下发一个预测任务的同时就为你准备好数据集,所以准备数据的第一步是数据采集。假设公司下发了一项任务:给某电商平台的用户推荐商品,从而提高平台销售业绩。

这个时候,我们首先应该思考3个问题,即预测任务究竟是什么?什么样的数据可能与预测任务密切相关呢?这些数据是否可以获取,获取的方式是什么?在上面的例子中,我们的预测任务是,当我们向消费者推荐一款商品时,如何提高消费者的购买率;我们认为消费者以前的购物数据与购物行为有密切关系,这些消费者历史购物数据就是所需要的一部分数据;这部分历史购物数据,可以亲自从公司数据仓库中提取,也可以委托数据采集部门的同事帮助提取。数据采集环节对算法工程师来说,重点的工作是,真正理解预测任务的本质,明确哪些数据可能会对最后的预测结果造成影响。

而具体的数据采集工作倒是其次,算法工程师可以自己亲自提取数据(如从数据仓库中提取数据),也可以向数据采集部门的同事提出数据采集需求,让他们埋点采集新数据或者从数据仓库中提取数据。数据采集之后,并不意味着数据就可以直接使用,例如可能存在数据缺失或者无效的情况,这时就需要进行数据清洗。现实中,公司数据仓库中的数据来自各个业务数据库的历史数据,这样就难免会出现数据缺失、数据错误甚至数据之间矛盾冲突的情况,也就是产生“脏”数据。

业界有句流行语“garbage in,garbage out”,它表达的意思是机器学习算法类似于一个加工机器,最后成品的质量如何在很大程度上受到原材料(数据)质量的影响。所以这些“脏”数据是不能够直接使用的,必须经过清洗。数据清洗,顾名思义就是把“脏”数据“清洗”干净,使数据能够使用的过程,常包括数据一致性检查,数据缺失值、错误值或无效值的纠正等。

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。

准备好开始了吗?

立即联系我们,获取专业的行业解决方案

立即咨询