一本书摘录——回缩观察

一本书摘录——回缩观察

我们很高兴向您介绍摘自 不信任:大数据、数据折磨和对科学的攻击波莫纳学院经济学教授的新书 加里·史密斯. 《华盛顿邮报》称该书的教训“非常需要

比特币价格的变化是由恐惧、贪婪和操纵驱动的,这一事实并没有阻止人们试图破解它们的秘密。 比特币价格的实证模型是数据折磨的一个很好的例子,因为比特币没有内在价值,因此无法用经济数据做出可信的解释。

不畏惧这个现实, 国家经济研究局 (NBER) 论文 报道了耶鲁大学经济学教授所做的令人难以置信的努力 阿列·齐文斯基 和研究生 Yukun Liu 一起寻找比特币价格的实证模式。

Tsyvinski 目前拥有以 Arthur M. Okun 命名的捐赠主席,他于 1961 年至 1969 年担任耶鲁大学教授,尽管他在这八年中有六年休假,以便他可以在华盛顿作为经济顾问委员会工作经济学家、理事会成员,然后担任主席,就总统约翰·肯尼迪和林登·约翰逊的经济政策向他提供建议。 他最著名的是奥肯定律,该定律指出失业率降低 1 个百分点将使美国的产出增加约 2%,这一论点帮助说服肯尼迪总统使用减税措施将失业率从 7% 降低到 4%巨大的经济回报。

奥肯去世后,一位匿名捐助者在耶鲁大学以奥肯的名字捐赠了一系列讲座,解释说

亚瑟·奥肯 (Arthur Okun) 将他作为分析和理论经济学家的特殊天赋与他对同胞福祉的极大关注结合起来,为他的国家的公共政策做出了深思熟虑、务实和持续的贡献。

Okun 对有意义的经济政策的关注与 Tsyvinski 牵强附会的比特币计算之间的对比是惊人的。

Liu 和 Tsyvinski 报告了谷歌每周搜索比特币的次数(与过去 4 周的平均值相比)与 1 到 7 周后比特币价格的百分比变化之间的相关性。 他们还研究了比特币黑客搜索与比特币搜索的每周比率与一到七周后比特币价格百分比变化之间的相关性。 他们报告了过去 4 周和未来 7 周的比特币搜索结果,这一事实应该提醒我们,他们可能尝试了其他效果不佳的前后组合。 同样的事实是,他们没有回顾四个星期的比特币黑客搜索。 他们显然在寻求相关性的过程中折磨了数据。

即便如此,他们的 14 个相关性中只有 7 个似乎有希望预测比特币价格。 欧文·罗斯贝克和我在研究结束后的一年里查看了这些相关性做出的预测,发现它们毫无用处。 他们还不如抛硬币来预测比特币价格。

Liu 和 Tsyvinski 还计算了每周 Twitter 比特币帖子数量与一到七周后比特币回报之间的相关性。 与谷歌趋势数据不同,他们没有报告比特币黑客帖子的结果。 七个相关性中的三个似乎有用,尽管两个是正的,一个是负的。 有了新数据,没有一个是有用的。

他们的数据滥用产生的唯一结果是巧合的统计相关性。 尽管这项研究是由一位著名的耶鲁大学教授完成并由著名的 NBER 发表的,但比特币价格可以从谷歌搜索和 Twitter 帖子中可靠预测的想法是数据折磨所助长的幻想。

具有讽刺意味的是,科学家们创造的统计工具旨在确保科学研究的可信度,但却产生了鼓励研究人员折磨数据的反常效果——这使得他们的研究不可信,并破坏了所有科学研究的可信度。

加里·史密斯

传统上,实证研究首先指定一个理论,然后收集适当的数据来检验该理论。 许多人现在采取捷径在不受理论约束的数据中寻找模式。 这称为数据挖掘,因为研究人员翻遍数据,却不知道他们会找到什么。

早在 2009 年,拥有耶鲁大学和哈佛商学院学位的作家兼演说家马克·普伦斯基 (Marc Prensky) 就声称,

在许多情况下,科学家不再需要做出有根据的猜测、构建假设和模型,并用基于数据的实验和例子来检验它们。 相反,他们可以挖掘完整的数据集来寻找揭示效果的模式,无需进一步实验即可得出科学结论。

我们天生就会寻找模式,但数据泛滥使得绝大多数等待被发现的模式变得虚幻无用。 比特币又是一个很好的例子。 由于没有逻辑理论(贪婪和市场操纵除外)可以解释比特币价格的波动,因此很容易寻找比特币价格与其他变量之间的相关性,而无需过多考虑相关性是否有意义。 除了折磨数据,Liu 和 Tsyvinski 还挖掘了他们的数据。

他们计算了比特币价格与 810 个其他变量之间的相关性,包括加元兑美元汇率、原油价格以及汽车、图书和啤酒行业的股票收益等异想天开的项目。 你可能认为我在编造这个。 可悲的是,我不是。

他们报告发现,比特币回报与消费品和医疗保健行业的股票回报呈正相关,而与制成品和金属采矿行业的股票回报呈负相关。 这些相关性没有任何意义,Liu 和 Tsyvinski 承认他们不知道为什么这些数据是相关的:“我们不给出解释。 . . . 我们只是记录这种行为。” 怀疑论者可能会问:记录巧合相关性有什么意义?

这就是他们发现的全部。 数据挖掘的致命弱点是,大数据集不可避免地包含大量巧合的相关性,这些相关性只是傻瓜的金子,因为它们并不比随机数之间的相关性更有用。 大多数偶然的相关性在新数据中是站不住脚的,尽管有些偶然的相关性会持续一段时间。 在他们研究期间和之后的一年里,一个持续存在的统计关系是比特币回报与纸板容器和盒子行业的股票回报之间的负相关。 这肯定是偶然的——而且毫无意义。

科学家们已经组装了庞大的数据库,并创建了强大的计算机和算法来分析数据。 具有讽刺意味的是,这些资源使得使用数据挖掘来发现转瞬即逝的机会模式变得非常容易。 结果被报道,然后被抹黑,我们越来越怀疑科学家。

喜欢 Retraction Watch? 你可以做一个 支持我们工作的免税捐款, 跟着我们 在推特上, 像我们 在Facebook上将我们添加到您的 RSS阅读器或订阅我们的 每日摘要. 如果你发现撤稿是 不在我们的数据库中, 你可以 在这里让我们知道. 如需评论或反馈,请发送电子邮件至 team@retractionwatch.com.




阅读更多

About crypto

Check Also

比特币 ATM 诈骗:您需要了解的内容

比特币 ATM 诈骗:您需要了解的内容

2024 年前六个月,美国人 …

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注