先荐 · 2019年09月25日

机器学习过程中,我们该如何分析数据集?

拿到一个数据集,我们应该怎么做?

在这篇文章中,我们将深入探讨机器学习核心步骤中的第一步:探索性分析。

在正式开始前,千万不要把这一步与数据可视化或数据结果统计混淆——数据可视化或数据结果统计意味着结果。

恰当的探索性分析其实就是回答问题,就是从数据集中尽可能多地得到数据启发。

在这一篇中,我们会向大家说明在探索性分析过程中需要了解的内容。

为什么要先分析数据集?

探索性分析是为了更好地了解数据集。这样做可以使项目的其他环节运行更流畅:

1.获得有关数据清理的宝贵灵感(数据清理有可能会破坏模型)

2.获得特征工程的启发(可以使模型性能更好)

3.获得对数据集的感性认识(有助于最终的结果交流和影响传递)

机器学习所需要的探索性分析应该是快速、高效、果断的……我们不要卡在上面,花费太多时间,但是,也不能跳过这一步。

在这个过程中,我们会面对n多张图表,但是,只需要少数几张就可以充分了解所有数据并加以利用。

从基础开始

首先,我们需要回答关于数据集的一系列基本问题:

•有多少个观察组?

•有哪些特征?

•特征对应的数据类型是什么?是数字吗?可分类吗?

•是否有目标变量?

在这里插入图片描述
观察示例

接下来,要展示数据集中的示例观察值。这一步会使我们对每个特征的值都有一个大体的认识,这也是检查所做的工作是否有意义的好方法。

这是房地产数据集的示例:
在这里插入图片描述

在数据集中显示示例,并不是在执行严格的分析,而是为了获取对数据集的一个感性认识,让我们对数据集有一些自己的初步想法。

•列是否有意义?

•列中的值是否有意义?

•数值是否正确?

•缺失的数据是否会成为大问题?

绘制数值分布

接下来,绘制数字特征的分布可能也会给我们一些启发。

通常,我们可以通过直方图来快速了解整个分布。
在这里插入图片描述

在这个过程中,我们需要关注以下几点:

•意外分布

•没有意义的潜在异常值

•本是二进制的特征

•没有意义的边界

•潜在的测量误差

遇上这些情况,我们应该及时记下后续要进行修复的注释。如果某些地方不太对劲,例如某项功能可能存在离群值,要询问客户或者其他利益相关者,或者进行更深入的探讨。

但是,在这里为了让我们整个工作步骤有序进行,我们会等到数据清理的时候才进行修复。

绘制分类分布

分类特征无法通过直方图体现,但我们可以使用条形图。

如果我们要寻找稀疏类,那要注意的是,这些类很少有观察值。

顺便说一句,“类别”(class)是分类特征的唯一值。

例如,以下条形图显示了名为“ exterior_walls”的特征分布。因此,Wood Siding、Brick和Stucco都是该特征下的不同类别。

在这里插入图片描述
从图中可以看到,某些“ exterior_walls”类的条形栏很短,这些就是稀疏类。

在构建模型时,稀疏类往往会出现问题。

•在最佳情况下,它们对模型的影响不大。

•在较坏的情况下,它们可能会导致模型过拟合。

因此,我们建议做笔记整理,稍后合并或重新分配其中一些类。更多细节我们会在之后的内容中提到。

细分

细分是观察分类特征和数字特征之间关系的有效方法。我们可以通过箱型图实现这一点。

在这里插入图片描述
以下是我们可以从上表中得出的一些启发。

•单户住宅的平均交易价格(方框中的垂直竖线)远高于公寓/联排别墅的交易价格。

•最小和最大交易价格在两个类别之间可比较。

•实际上,最小值($ 200k)和最大值($ 800k)的整数表明可能会截断数据,这在以后评估模型的可推广性时非常重要!

研究相关性

最后,我们通过研究相关性查看各个数字特征之间的关系。

相关性是介于-1和1之间的值,代表两个特征同步移动的程度。我们只需要有以下的感性认识即可,无需记住任何数学公式:

•正相关表示随着一个特征增加,另一个特征也增加,例如一个孩子的年龄和身高。

•负相关意味着随着一个特征增加,另一个特征减少。例如学习时间长短和参加聚会的人数。

•接近-1或1的相关性表示强关系。

•接近0的关系表示弱关系。

•0表示没有关系。

相关热图可帮助我们把这些信息可视化。以下是示例(注意:所有相关乘以100):
在这里插入图片描述

通常,我们应该关注以下几点:

•哪些特征与目标变量密切相关?

•其他特征之间是否存在有意思的或意外的强关联?

我们做这一步,也是为了获得有关数据的灵感直觉。这将在整个工作流程的整个过程中为您提供帮助。

在探索性分析结束后,我们会对整个数据集有一个很好的理解,明白一些有关数据清理的注意事项以及和特征工程相关的想法。

先荐是一款赋能媒体的AI产品,是集内容上传、内容管理、内容分发、推荐干预、前端渲染于一体的一站式推荐服务可视化平台,支持PC、WAP、APP全平台接入,帮助媒体从0到1搭建推荐系统,显著提升用户活跃、留存、观看时长等重要业务指标,在减少技术成本投入的同时,大幅提高媒体运营效率,从而实现业务智能化转型。

目前已服务人民日报、环球网、花瓣网、果壳网、段友、36氪、简书等三百余家内容平台,其中在环球网web端的兴趣推荐项目上,实现了点击率58%的提升,同时访问量和营收分别增长了69%、20%。想要申请产品试用,添加先荐小助手(recsysfc)。

推荐阅读
关注数
10
文章数
27
个性化推荐专家
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息