在数据分析中定义成功已经有一段时间了。大约两年前,我试图在院长讲座的中探讨这个问题,但最终我认为我错过了这个标记。在那次演讲中,我试图找出标准(我称之为“美学”),通过这些标准,我们可以普遍地评估数据分析的质量,并尝试与音乐理论进行类比。这是一次有趣的谈话,部分原因是因为我必须扮演查尔斯艾夫斯的第二交响曲。

根据我的经验,统计学家不会非常讨论这个话题。这要么是因为它是如此愚蠢,以至于每个人都对它有一个(未说出口的)理解,或者每个人对它有一点点不同的理解,或者没有人理解它。无论哪种方式,在我作为统计学家近二十年的时间里,我认为我没有与任何人就数据分析的成功进行多次深入的对话。我讨论过话题这个最多的的的英文关于与希拉里帕克的非标准偏差,这是一个经常谈话的话题。最近,希拉里发表了一篇关于这个主题的演讲,所以我受到启发,写了一些东西。

我想我已经解决了以下数据分析成功的定义,即:

如果呈现它的受众接受结果,则数据分析是成功的。

这里有很多要解开的东西,所以我会介绍它们。我认为重要的两个关键概念的英文接受状语从句:观众的概念。

验收

第一个想法是接受的概念。将这与信仰混淆是很诱人的,但它们是两个不同的概念需要保持分离(尽管有时可能很难)。接受分析涉及分析本身 – 应用于其的数据和方法,以及解释结果的叙述。对结果的信任取决于分析本身以及分析之外的许多其他事情,包括先前的分析,现有文献和科学状态负责任的受众可以接受分析而不必相信其主要主张,但这两个概念可能是相关的。

例如,假设贵公司的一个团队设计了一个实验来收集数据,以确定降低窗口小部件的价格是否会对您的小部件制造公司的利润产生影响。在数据收集过程中,出现了一个问题,导致某些数据以潜在的信息方式丢失。然后将数据交给您。您可以通过多种插补或其他调整方法尽力解决缺失和由此产生的不确定性。在一天结束时,您向我展示分析并得出结论,降低小部件的价格将使利润增加3倍。我可能会接受您正确地进行了分析,并相信您已尽最大努力解决使用最先进方法在收集过程中遇到的问题。但我可能不同意这个结论,部分是因为缺少数据引入的问题(不是你的错),也部分是因为我们之前降低了我们销售的另一种产品的价格,并且没有相应的利润增长。考虑到进行实验的巨大成本,我可能最终决定放弃尝试修改小部件的价格并将其保留在原来的 位置(至少目前为止)。分析取得了成功。

这个简单的例子说明了两件事。首先,分析接受主要取决于分析的细节以及我是否愿意相信分析师所做的事情。丢失的数据是否占了?是否适当提出了不确定性?我可以推断数据并理解数据如何影响结果吗?其次,对我的查询查询结果信念部分取决于分析之外的事情,这些事情主要在分析师的控制范围之外。在这种情况下,这些是收集过程中缺少数据的存在以及降低不同产品价格的完全独立的体验。在您的分析中,我如何权衡这些外部事物是个人偏好。

验收与有效性

在科学背景下,考虑有效性的英文很有诱惑力的。在这里,如果声明是真的,则数据分析是成功的。如果我分析有关吸烟习惯和死亡率的数据,并得出吸烟导致肺癌的结论,那么如果这种说法属实,那么我的分析是成功的。该定义的优点在于它消除了接受的主观因素,这取决于呈现分析的受众。但是对于任何给定的分析来说,有效性是一个非常高的标准。在这个吸烟的例子中,吸烟和死亡率数据的初步分析直到完成几十年才被认为是成功的。大多数科学结论要求独立调查人员和分析人员在社区认为或得出结论认为是真实的情况下,多年来会发生多次重复。让数据分析师陷入困境这么长时间似乎不切实际,坦率地说,不公平。最后,只要我们认为他们做得很好,我认为我们不想惩罚数据分析师做出的结论是错误的。这些说法是否真实可能取决于他们无法控制的事情。

相关的分析标准本质上是内在有效性的概念。我们不是等到我们能够验证分析声明(可能是几十年后),我们可以通过正确最好的方式评估分析方法已经完成,并采用了正确的方法。但这种方法至少存在两个问题。在许多情况下,不可能知道什么是最好的方法,或者什么是应用方法的最佳组合,这表明在许多分析中,我们不确定成功。这似乎相当不令人满意,最终不切实际。想象一下,聘请数据分析师并对他们说:“在你做的绝大多数分析中,我们都不会知道你是否成功。”其次,即使在理想情况下,我们知道什么是正确的或最好的,内在的有效性是必要的,但远远不够。这是因为上下文其中进行的分析对于理解什么是合适的是至关重要的。如果分析师不了解这种情况,他们可能会从分析和解释的角度出现重大错误。但是,同样的错误在不同的背景下可能是无害的。这一切都取决于,但分析师需要知道差异。

我想到的一个故事来自乔治·W·布什在2000年美国总统大选中对戈尔的选举胜利。这次选举取决于佛罗里达州的选票,布什和戈尔非常接近。最终,提起诉讼并进行了一次审判,以确定计票的确切方式。统计学家被要求为布什和戈尔作证。为戈尔团队作证的统计学家是前耶鲁大学的尼古拉斯·亨纳特纳(当我在那里时,他是我的本科顾问)。Hengartner对戈尔团队给他的数据进行了彻底的分析,并得出结论,佛罗里达州的选票数量存在差异,而且一些选票数量不足。但是,在盘问时,布什的律师能够在“陷阱”时刻抓住Hengartner,这最终与收集数据的方式有关,关于Hengartner一直没有意识到的数据。分析是否成功?没有直接参与就很难说。没有人质疑Hengartner在分析中使用的方法,这在很大程度上都是一个非常简单的分析。因此,人们可以说它具有内在的有效性。然而,人们也可以争辩说他应该知道如何收集数据(也许是更广泛的背景)的问题,并将其纳入他的分析和向法院提交。Hengartner的分析只是提出的一系列证据中的一个,因此很难说它在最终结果中扮演了什么角色。

听众

所有数据分析都有受众,即使您是这样的受众。最终,观众可能会接受分析结果,或者他们可能无法接受,在这种情况下,可能需要进行更多分析。分析师的成功可能取决于与分析师不同的人可能会让一些人觉得不舒服。但是,我认为这是所有数据分析的现实。不幸的是,成功取决于人类,这是分析师必须准备好应对的事情。认识到人性在决定数据分析的成功中起着关键作用,这解释了我们可能认为是好的或坏的分析的一些关键方面。

叙事的作用

数据分析应该是关于数据的,对吧?只是事实?在大多数情况下,直到您需要将您的发现传达给观众。问题在于,在任何对他人有意义的数据分析中,只有太多的结果要呈现,因此必须做出选择。根据受众的身份或受众群体的构成,您需要调整演示文稿,以便让受众接受分析。这是怎么做到的?这有两个极端。

在最糟糕的情况下,它是通过欺骗完成的。带有混乱轴的图形或模糊关键数据的表格; 我们都知道恐怖故事。复杂的观众可能会发现这种诡计并拒绝分析,但也许不会。那就是说,让我们假设我们是纯洁的。如何组织演示才能成功?我们都知道另一个恐怖故事,即数据转储。在这里,分析师展示了他们所做的一切,并基本上将解释的负担转移给了观众。很少这是理想的。在某些情况下,观众只希望数据进行自己的分析,但分析师不需要浪费时间进行任何分析。

最终,必须分析师选择要呈现的内容,这可能会导致问题。必须做出选择以适应分析师关于“数据发生了什么”的叙述。他们会选择包括一些情节而不是其他情况和一些表格而不是其他表格。这些选择由叙述和数据解释指导。当观众对数据分析感到不安并且他们是诚实的时候,他们通常会对选择的叙述感到不满,而不是事实本身。他们会对分析师选择包含的数据分析师状语从句:选择排除的数据的组合感到不满。你为什么不把这些数据包括在内?为什么这个叙事如此集中于这个或那个方面?

创造力的作用

在一个极端情况下,可以认为数据分析师应该很容易被机器取代。对于各种类型的数据和各种类型的问题,应该有一种确定性的分析方法,改变不会据同性质的,这可以被编码到计算机程序中,并且每次都可以将数据馈送到程序中,最后呈现结果。每个数据分析是如此不同以至于需要人来制定解决方案?“创造力”和“数据分析”这两个词怎么能出现在同一个句子里呢?

嗯,每个分析都是不同的,这是不正确的。例如,许多功率计算是相同的。但是,究竟如何使用这些功率计算可能会因项目而异。即使是相同研究设计的相同计算也可以在不同项目中进行不同的解释。其他类型的分析也是如此,例如回归建模或其他更奇特的建模。在数据分析中需要创造力的原因必须从根本上解决我们传统上认为在数据“外部“的事情。

观众是“外部数据”和影响力的一个关键因素是如何,我们分析数据并呈现结果。一种有用的方法是考虑需要生产什么样的最终产品,然后从那里向后工作以产生结果。例如,如果“观众”是另一种算法或程序,那么输出的确切性质可能并不重要,因为它可以适当地馈送到管道的下一部分。特别是,可解释性可能不会那么重,因为没有人会关注这部分的输出。但是,如果一个人在查看结果时,您可能希望专注于一种建模方法,该方法可让该人推理数据并了解数据如何通知结果。例如,您可能想要绘制更多的数据图,或者如果数据集不是那么大,则显示详细的表。

在一个极端情况下,如果受众是另一个数据分析师,您可能希望进行相对“轻松”的分析,然后以这样的方式准备数据,以便可以轻松地将其分发给其他人进行自己的分析。这可以是R包或CSV文件或其他形式。其他分析师可能不关心你的幻想可视化或模型; 他们宁愿拥有自己的数据并制作自己的结果。

部分原因是需要创造力,因为数据分析师必须对受众的需求,背景和接收数据分析结果的偏好进行合理评估。如果分析师可以访问受众,分析师应该询问有关如何最好地呈现结果的问题。否则,必须做出合理的假设,或者为演示文稿本身准备意外事件(例如备份幻灯片,附录)。

“不一致”的结果

很多时候,我有过为两个不同的观众提供相同演示文稿的经验。一个观众喜欢它而另一个喜欢它。如果两种情况下的分析和表述完全相同,怎么可能呢?事实是,不同的受众可以接受或拒绝分析,具体取决于他们是谁以及他们的期望是什么。一个常见的场景是向“内部人士”做一个演讲,他们非常熟悉该领域的背景和标准实践。将该演示文稿逐字地呈现给不熟悉的“外部”观众通常会导致失败,因为他们无法理解正在发生的事情。如果外部受众希望将某些程序应用于数据,那么他们可能会要求您执行相同的操作,并拒绝接受分析,直到您这样做为止。

我清楚地记得我曾经介绍过一些我曾经做过的空气污染和健康数据分析的经历。在实践中,与我自己的小组进行的谈话一切顺利,我认为事情已经相当完整。当向外部小组发表同样的谈话时,他们拒绝接受我所做的(甚至解释结果),直到我还使用不同类型的样条模型进行单独的分析。这不是一个不合理的想法,所以我做了单独的分析,并且在同一组的未来事件中,我并排地提出了两个分析。他们对结论并不满意,但辩论不再集中在分析本身,而是集中在其他科学方面。回想起来,即使他们不一定相信结论,我还是接受了分析。

概要

我认为我提出的成功数据分析的定义具有挑战性(并且可能令人不安),因为它表明数据分析师负责数据之外的事情。特别是,他们需要了解收集数据的背景以及将呈现结果的受众。我也认为这就是为什么我花了这么长时间来解决它。但我认为这个定义更清楚地解释了为什么成为一名优秀的数据分析师的英文如此困难。当我们考虑使用统计学家开发的传统标准进行数据分析时,我们很难解释为什么有些人比其他人更好的数据分析师以及为什么有些分析比其他人好。但是,当我们考虑数据分析师必须兼顾数据的内部和外部各种因素以取得成功时,我们会更清楚地看到为什么这是一项如此艰巨的工作以及为什么好人很难得到。

数据分析成功定义的另一个含义是,它表明人性起着重要作用,而且许多成功的数据分析本质上是人类关系的成功谈判。与使用线性模型或二次模型相比,与受众的良好沟通往往在成功中发挥更大的作用。当分析师必须选择要呈现的内容和省略的内容时,分析师和受众之间的信任至关重要。承认人性在数据分析中发挥作用是困难的,因为人类是高度主观的,不一致的,并且难以量化。但是,我认为这样做可以让我们更好地了解如何判断数据分析的质量以及如何在将来改进它们。

本文地址:http://www.eship.com.cn/wangzhoudongtai/wangzhouyuanchuang/155.html