数据API 案例 开发者 关于
掌握聚合最新动态了解行业最新趋势
API接口,开发服务,免费咨询服务
新闻动态 > 媒体报道

Google发布机器学习开源可视化工具Facets

要通过机器学习 (ML) 模型取得最佳结果,您需要真正理解您的数据。然而,机器学习数据集可能包含数以亿计的数据点,每个数据点又都包含数百个(甚或数千个)特性,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。

在执行 PAIR 计划的过程中,我们发布了 Facets,一个用于帮助理解和分析机器学习数据集的开放源代码可视化工具。Facets 包含两个可视化选择,让用户能够以不同粒度查看其数据的整体情况。可使用 Facets Overview 了解数据的每个具体特性,或使用 Facets Dive 探究个别观察的数据集。这些可视化选择允许您调试您的数据,这在机器学习中与调试您的模型一样重要。您可在 Jupyter notebooks 内部轻松使用它们,也可将其嵌入网页。除开放源代码外,我们还创建了一个 Facets 演示网站。此网站允许任何人直接在浏览器中可视化他们自己的数据集,而不必安装或设置任何软件,甚至不需要数据离开您的计算机。

Facets Overview

Facets Overview 自动帮助用户快速理解其数据集特性的值分布。可在同一个可视化视图中比较多个数据集(如训练集和测试集)。妨碍机器学习的常见数据问题被推到前端,例如,异常的特性值、缺失值比例很高的特性、分布不均的特性,以及数据集之间偏态分布的特性。

image3.png

Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]的六个数字特性。这些特性按照不均匀性排序,分布最不均匀的特性位于顶部。红色的数字表示可能的故障点,在这种情况下,将带有高比例值的数字特性设为 0。右侧的柱状图允许您比较训练数据(蓝色)和测试数据(橙色)之间的分布。

image2.png

Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]九个分类特性中的两个特性。这些特性按分布间距排序,训练数据集(蓝色)和测试数据集(橙色)之间偏态最显著的特性位于顶部。请注意,在“Target”特性中,由于测试数据集中的值末尾带有句点(“<=50K”与“<=50K.”),训练数据集与测试数据集的标签值存在差异。这个差异可在特性图表中以及表格的“首列”条目中看到。这种标签不匹配性将导致针对该数据进行训练和测试的模型无法得到正确评估。

Facets Dive

Facets Dive 提供了一个易于自定义的直观界面,用于探索数据集中不同特性数据点之间的关系。借助 Facets Dive,您可以根据每个数据点的特性值来控制数据点的位置、颜色和视觉表征。如果数据点具有与其关联的图像,则可使用图像作为视觉表征。

image1.gif

Facets Dive 以可视化方式显示 UCI 人口普查测试数据集[1]中全部的 16281 个数据点。此动画向用户显示对各数据点进行着色,每个颜色代表一个特性(“关系”),通过一个连续特性(“年龄”)划分某个维度,然后,通过一个离散特性(“婚姻状况”)划分另一维度。

image6.png

Facets Dive 对“Quick, Draw!”数据集中大量面部绘图进行的可视化处理,结果显示了绘图中笔画数与点数之间的关系,同时可使“Quick, Draw!”分类器将这些绘图正确归类为面部。

有趣的事实: 在大型数据集中(如 CIFAR-10 数据集[2]),一个小小的人为标记错误很容易被忽视。我们通过 Dive 检查了 CIFAR-10 数据集,结果发现了一只青蛙猫——一张青蛙图片被错误标记为猫!

image4.gif

利用 Facets Dive 探索 CIFAR-10 数据集。在这里,我们用行表示真实的标签,用列表示预测的标签。这会产生一个混淆矩阵视图,从而允许我们探究特定类型的错误分类。在这个特定示例中,机器学习模型错误地将一小部分真正的猫标记为青蛙。通过将真实图像放置在混淆矩阵中,我们发现一个有趣的事实:这些“真正的猫”当中有一只被模型预测为青蛙的猫,肉眼观察时也判定为青蛙。借助 Facets Dive,我们可以确定这个分类错误并不是因为模型进行了错误分类,而是因为数据集中存在错误标记的数据。

image5.png

您能找出那只青蛙猫吗?

在 Google 内部,我们已借助 Facets 实现巨大价值,现在,我们期望与全世界分享这些可视化工具。我们希望这些工具能帮助您发现您的数据中的新鲜有趣的事实,进而激发您创建出更强大、更准确的机器学习模型。由于这些工具已开放源代码,因此,您可以根据您的具体需求自定义可视化内容,或为该项目做贡献,以帮助我们更好地理解我们的数据。如果您在体验 Facets 过程中想提供反馈,请告诉我们您的想法

致谢

这项工作由 Mahima Pushkarna、James Wexler 和 Jimbo Wilson 在整个 Big Picture 团队的支持下共同开展。同时我们要感谢 Justine Tunney,感谢他为我们提供构建工具。

参考文献

[1] Lichman, M. (2013).UCI 机器学习代码库 [http://archive.ics.uci.edu/ml/datasets/Census+Income]。加利福尼亚州欧文:加利福尼亚大学信息和计算机科学学院

[2] 《从微型图像学习多层特性》(Learning Multiple Layers of Features from Tiny Images),Alex Krizhevsky,2009 年。

原文来自:谷歌开发者中文博客

掌握聚合最新动态了解行业最新趋势
API接口,开发服务,免费咨询服务
新闻动态 > 媒体报道
Google发布机器学习开源可视化工具Facets
发布:2017-07-27

要通过机器学习 (ML) 模型取得最佳结果,您需要真正理解您的数据。然而,机器学习数据集可能包含数以亿计的数据点,每个数据点又都包含数百个(甚或数千个)特性,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。

在执行 PAIR 计划的过程中,我们发布了 Facets,一个用于帮助理解和分析机器学习数据集的开放源代码可视化工具。Facets 包含两个可视化选择,让用户能够以不同粒度查看其数据的整体情况。可使用 Facets Overview 了解数据的每个具体特性,或使用 Facets Dive 探究个别观察的数据集。这些可视化选择允许您调试您的数据,这在机器学习中与调试您的模型一样重要。您可在 Jupyter notebooks 内部轻松使用它们,也可将其嵌入网页。除开放源代码外,我们还创建了一个 Facets 演示网站。此网站允许任何人直接在浏览器中可视化他们自己的数据集,而不必安装或设置任何软件,甚至不需要数据离开您的计算机。

Facets Overview

Facets Overview 自动帮助用户快速理解其数据集特性的值分布。可在同一个可视化视图中比较多个数据集(如训练集和测试集)。妨碍机器学习的常见数据问题被推到前端,例如,异常的特性值、缺失值比例很高的特性、分布不均的特性,以及数据集之间偏态分布的特性。

image3.png

Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]的六个数字特性。这些特性按照不均匀性排序,分布最不均匀的特性位于顶部。红色的数字表示可能的故障点,在这种情况下,将带有高比例值的数字特性设为 0。右侧的柱状图允许您比较训练数据(蓝色)和测试数据(橙色)之间的分布。

image2.png

Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]九个分类特性中的两个特性。这些特性按分布间距排序,训练数据集(蓝色)和测试数据集(橙色)之间偏态最显著的特性位于顶部。请注意,在“Target”特性中,由于测试数据集中的值末尾带有句点(“<=50K”与“<=50K.”),训练数据集与测试数据集的标签值存在差异。这个差异可在特性图表中以及表格的“首列”条目中看到。这种标签不匹配性将导致针对该数据进行训练和测试的模型无法得到正确评估。

Facets Dive

Facets Dive 提供了一个易于自定义的直观界面,用于探索数据集中不同特性数据点之间的关系。借助 Facets Dive,您可以根据每个数据点的特性值来控制数据点的位置、颜色和视觉表征。如果数据点具有与其关联的图像,则可使用图像作为视觉表征。

image1.gif

Facets Dive 以可视化方式显示 UCI 人口普查测试数据集[1]中全部的 16281 个数据点。此动画向用户显示对各数据点进行着色,每个颜色代表一个特性(“关系”),通过一个连续特性(“年龄”)划分某个维度,然后,通过一个离散特性(“婚姻状况”)划分另一维度。

image6.png

Facets Dive 对“Quick, Draw!”数据集中大量面部绘图进行的可视化处理,结果显示了绘图中笔画数与点数之间的关系,同时可使“Quick, Draw!”分类器将这些绘图正确归类为面部。

有趣的事实: 在大型数据集中(如 CIFAR-10 数据集[2]),一个小小的人为标记错误很容易被忽视。我们通过 Dive 检查了 CIFAR-10 数据集,结果发现了一只青蛙猫——一张青蛙图片被错误标记为猫!

image4.gif

利用 Facets Dive 探索 CIFAR-10 数据集。在这里,我们用行表示真实的标签,用列表示预测的标签。这会产生一个混淆矩阵视图,从而允许我们探究特定类型的错误分类。在这个特定示例中,机器学习模型错误地将一小部分真正的猫标记为青蛙。通过将真实图像放置在混淆矩阵中,我们发现一个有趣的事实:这些“真正的猫”当中有一只被模型预测为青蛙的猫,肉眼观察时也判定为青蛙。借助 Facets Dive,我们可以确定这个分类错误并不是因为模型进行了错误分类,而是因为数据集中存在错误标记的数据。

image5.png

您能找出那只青蛙猫吗?

在 Google 内部,我们已借助 Facets 实现巨大价值,现在,我们期望与全世界分享这些可视化工具。我们希望这些工具能帮助您发现您的数据中的新鲜有趣的事实,进而激发您创建出更强大、更准确的机器学习模型。由于这些工具已开放源代码,因此,您可以根据您的具体需求自定义可视化内容,或为该项目做贡献,以帮助我们更好地理解我们的数据。如果您在体验 Facets 过程中想提供反馈,请告诉我们您的想法

致谢

这项工作由 Mahima Pushkarna、James Wexler 和 Jimbo Wilson 在整个 Big Picture 团队的支持下共同开展。同时我们要感谢 Justine Tunney,感谢他为我们提供构建工具。

参考文献

[1] Lichman, M. (2013).UCI 机器学习代码库 [http://archive.ics.uci.edu/ml/datasets/Census+Income]。加利福尼亚州欧文:加利福尼亚大学信息和计算机科学学院

[2] 《从微型图像学习多层特性》(Learning Multiple Layers of Features from Tiny Images),Alex Krizhevsky,2009 年。

原文来自:谷歌开发者中文博客

×
企业用户认证,
可获得1000次免费调用
注册登录 > 企业账户认证 > 领取接口包
企业用户认证领取接口包 立即领取
× 企业用户认证,
可获得1000次免费调用,立即领取>
数 据 驱 动 未 来
Data Drives The Future