大数据与企业业务的联系正在日渐紧密,虽然数十年来,众多企业一直都在研究数据分析,但是数据科学依然是一个相对较新的概念。让我们突然间开始接受这样一种数据驱动的文化,还是有一定难度的,尤其是对于那些对数据并没有太深了解的人来说尤其如此。
面对大数据,很多人最大的问题这一,就是不知道应该如何从数据科学家那里获取新的数据或是数据分析。他们不知道该问哪些问题,不知道该使用什么样的术语,也不知道要想获得自己想要的信息,他们需要考虑哪些因素。当所获得的信息并非他们所需要的信息的时候,管理人员会感到明显的挫败感。
我们应该问哪些问题?在进行数据分析的时候,你首先需要搞清楚自己的目标。你要考虑你希望数据对你的业务产生什么样的影响,以及公司自身的能力,能够依靠这些数据采取哪些行动。你要将这些信息告诉数据科学家,在了解了你的需求之后,他们能够更好的判断你需要的是哪些信息和数据。
即使是最细微的歧义也能产生巨大的负面影响。例如,广告经理可能会问数据科学家:“哪些方法可以最有效的增加销售情况?”虽然这个问题看上去并没有什么问题,但是它可能并不是一个好问题,因为大多数企业的真正目标并不是增加销售,而是要让利润最大化。因此在和数据科学家沟通的时候,你要做到尽可能的详细与精确。
我们需要哪些数据?在你阐明了自己的目的之后,下一步要做的,就是和数据科学家一起评估数据的可用性了。先看看是否已经有其它企业做了类似的数据分析。现在的公共数据越来越多,很多时候使用公共数据可以帮你解决很多一般性的问题。
之后你还要考虑你找到的公共数据是否适合你要解决的问题,评估数据的有效性。你所找到的数据或许并没有包含所有你所需的信息。你还需要评估数据的中立性,并不是大规模的样本就一定是中立的。
最后你还需要问问数据科学家这些数据是否足以让他找到答案。
如何获得数据?当你需要更多数据的时候,数据科学家必须在两种数据获取方式之间做出选择。第一,使用企业业务进展过程中所产生的数据;第二,通过实验获得新数据。在和数据分析人员沟通的过程中,你需要问问他们两种数据获取方式的成本和各自的优势。第一种方法成本较低,但是相比实验,这种数据的可靠性较低,因为它只能建立相关性,无法建立因果关系。实验获得的数据,能够让你获得更多控制权,并且呈现可靠的因果关系信息,但是它的成本更高,而且数据分析起来更困难。其次,虽然实验是一个完全合法的东西,但是一些用户非常排斥自己成为实验的参与者,管理者还必须要考虑到这一点,以免给企业带来意料之外的影响。
数据是否清晰、容易分析?一般来说,数据有两种呈现形式:结构化数据与无结构数据。从名字上就能看出来,结构化数据更易于添加到数据库中。大多数分析人员都觉得结构化数据更容易操作,速度也更快。
而无结构数据则完全相反,它们通常没有固定的格式,不易于存储在企业所使用的数据库中。然而,全世界95%的数据都是无结构数据。对于很多大型企业来说,储存和操作无结构数据需要他们投入大量的资源,只有这样才能从数据中提取有用的信息。你需要和公司的数据科学家一起,根据你们的目标和实际情况确定自己需要使用哪种数据
而且,即使是结构化数据,也需要数据分析师进行整理,或是查看数据是否有不完整、不准确的地方。在任何可能的情况下,你都需要鼓励分析师优先使用清晰的数据。否则,他们将会把宝贵的时间和资源浪费在数据检查上。通过使用清晰数据,你可以避免很多潜在的问题,并且节省时间和资源。
模型是否过于复杂?统计学技巧和开源工具能够很好的帮你分析大量数据,但是即使如此,很多时候简单性都是你最优的选择。你所用的工具越复杂,你要花的时间就越长。你应该可数据科学家一起,找到一种简单的方式和工具来对数据进行处理和分析。在进行数据分析的时候,你应该时刻提醒自己采取KISS原则:“Keep It Simple, Stupid!”
在进行数据收集和分析的时候,有时候你可能会发现很多无法避免的问题。但是你可以使用上述步骤来降低成本和风险。通过向数据科学家进行正确的提问,你能够让你们之间的合作更顺畅一些,让你更轻松的获得你意图中的信息和数据分析。
原文来自:SDK.cn
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
通过企业关键词查询企业涉讼详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。
IP反查域名是通过IP查询相关联的域名信息的功能,它提供IP地址历史上绑定过的域名信息。
结合权威身份认证的精准人脸风险查询服务,提升人脸应用及身份认证生态的安全性。人脸风险情报库,覆盖范围广、准确性高,数据权威可靠。
全国城市和站点空气质量查询,污染物浓度及空气质量分指数、空气质量指数、首要污染物及空气质量级别、健康指引及建议采取的措施等。
输入手机号和拦截等级,查看是否是风险号码