要通过机器学习 (ML) 模型取得最佳结果,您需要真正理解您的数据。然而,机器学习数据集可能包含数以亿计的数据点,每个数据点又都包含数百个(甚或数千个)特性,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。
在执行 PAIR 计划的过程中,我们发布了 Facets,一个用于帮助理解和分析机器学习数据集的开放源代码可视化工具。Facets 包含两个可视化选择,让用户能够以不同粒度查看其数据的整体情况。可使用 Facets Overview 了解数据的每个具体特性,或使用 Facets Dive 探究个别观察的数据集。这些可视化选择允许您调试您的数据,这在机器学习中与调试您的模型一样重要。您可在 Jupyter notebooks 内部轻松使用它们,也可将其嵌入网页。除开放源代码外,我们还创建了一个 Facets 演示网站。此网站允许任何人直接在浏览器中可视化他们自己的数据集,而不必安装或设置任何软件,甚至不需要数据离开您的计算机。
Facets Overview 自动帮助用户快速理解其数据集特性的值分布。可在同一个可视化视图中比较多个数据集(如训练集和测试集)。妨碍机器学习的常见数据问题被推到前端,例如,异常的特性值、缺失值比例很高的特性、分布不均的特性,以及数据集之间偏态分布的特性。
Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]的六个数字特性。这些特性按照不均匀性排序,分布最不均匀的特性位于顶部。红色的数字表示可能的故障点,在这种情况下,将带有高比例值的数字特性设为 0。右侧的柱状图允许您比较训练数据(蓝色)和测试数据(橙色)之间的分布。
Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]九个分类特性中的两个特性。这些特性按分布间距排序,训练数据集(蓝色)和测试数据集(橙色)之间偏态最显著的特性位于顶部。请注意,在“Target”特性中,由于测试数据集中的值末尾带有句点(“<=50K”与“<=50K.”),训练数据集与测试数据集的标签值存在差异。这个差异可在特性图表中以及表格的“首列”条目中看到。这种标签不匹配性将导致针对该数据进行训练和测试的模型无法得到正确评估。
Facets Dive 提供了一个易于自定义的直观界面,用于探索数据集中不同特性数据点之间的关系。借助 Facets Dive,您可以根据每个数据点的特性值来控制数据点的位置、颜色和视觉表征。如果数据点具有与其关联的图像,则可使用图像作为视觉表征。
Facets Dive 以可视化方式显示 UCI 人口普查测试数据集[1]中全部的 16281 个数据点。此动画向用户显示对各数据点进行着色,每个颜色代表一个特性(“关系”),通过一个连续特性(“年龄”)划分某个维度,然后,通过一个离散特性(“婚姻状况”)划分另一维度。
Facets Dive 对“Quick, Draw!”数据集中大量面部绘图进行的可视化处理,结果显示了绘图中笔画数与点数之间的关系,同时可使“Quick, Draw!”分类器将这些绘图正确归类为面部。
有趣的事实: 在大型数据集中(如 CIFAR-10 数据集[2]),一个小小的人为标记错误很容易被忽视。我们通过 Dive 检查了 CIFAR-10 数据集,结果发现了一只青蛙猫——一张青蛙图片被错误标记为猫!
利用 Facets Dive 探索 CIFAR-10 数据集。在这里,我们用行表示真实的标签,用列表示预测的标签。这会产生一个混淆矩阵视图,从而允许我们探究特定类型的错误分类。在这个特定示例中,机器学习模型错误地将一小部分真正的猫标记为青蛙。通过将真实图像放置在混淆矩阵中,我们发现一个有趣的事实:这些“真正的猫”当中有一只被模型预测为青蛙的猫,肉眼观察时也判定为青蛙。借助 Facets Dive,我们可以确定这个分类错误并不是因为模型进行了错误分类,而是因为数据集中存在错误标记的数据。
您能找出那只青蛙猫吗?
在 Google 内部,我们已借助 Facets 实现巨大价值,现在,我们期望与全世界分享这些可视化工具。我们希望这些工具能帮助您发现您的数据中的新鲜有趣的事实,进而激发您创建出更强大、更准确的机器学习模型。由于这些工具已开放源代码,因此,您可以根据您的具体需求自定义可视化内容,或为该项目做贡献,以帮助我们更好地理解我们的数据。如果您在体验 Facets 过程中想提供反馈,请告诉我们您的想法
致谢
这项工作由 Mahima Pushkarna、James Wexler 和 Jimbo Wilson 在整个 Big Picture 团队的支持下共同开展。同时我们要感谢 Justine Tunney,感谢他为我们提供构建工具。
参考文献
[1] Lichman, M. (2013).UCI 机器学习代码库 [http://archive.ics.uci.edu/ml/datasets/Census+Income]。加利福尼亚州欧文:加利福尼亚大学信息和计算机科学学院
[2] 《从微型图像学习多层特性》(Learning Multiple Layers of Features from Tiny Images),Alex Krizhevsky,2009 年。
原文来自:谷歌开发者中文博客
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
通过企业关键词查询企业涉讼详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。
IP反查域名是通过IP查询相关联的域名信息的功能,它提供IP地址历史上绑定过的域名信息。
结合权威身份认证的精准人脸风险查询服务,提升人脸应用及身份认证生态的安全性。人脸风险情报库,覆盖范围广、准确性高,数据权威可靠。
全国城市和站点空气质量查询,污染物浓度及空气质量分指数、空气质量指数、首要污染物及空气质量级别、健康指引及建议采取的措施等。
输入手机号和拦截等级,查看是否是风险号码