数据模式不准确不管用的时候

数据失败的最常见方式之一是它只描述了您想尝试分析的内容的一个子集.当我们只看到一部分数据时,我们可能会得出错误的结论.这很常见的一个领域是只检查和估算了平均值而不是数据的具体的分布.


Sam Savage 在 The Flaw of Averages 中提供了一个很好的例子:

统计学家在涉水时溺水身亡,而这条河流平均只有 3 英尺深.

在这种情况下知道河流最大深度的分布比只知道平均深度要好得多.


现实世界中也存在这种情况. Uber 的数据科学家正确地发现,平均等待时间并不是衡量乘车匹配算法有用性的最佳指标.假设一个算法忽略了人口较少的地区(大大增加了这些地区少数乘客的等待时间)但降低了所有其他人口密集区乘客的等待时间.在这种情况下所有乘客平均等待时间已经减少,但这样做是以牺牲居住在人口稀少地区的人为代价的.


当有人因为高回报而不考虑其他波动性而选择投资时,是在金融界同样的问题.当您只考虑可用信息的一个子集时,您将面临结果不佳的风险.

使用诸如平均值之类的简单度量的问题.有时会让你陷入困境:不是你看到的,而是你没有看到的部分在起作用.


原有数据模式会随着时间的推移有不好用的时候.

数据可能产生误导的另一种常见方式是,当数据源自随时间而变化了,创建数据系列的底层机制发生了变化,模式就会不管用了.


一个例子是人们钟爱的市盈率.近十年来,市盈率一直高于历史平均水平,令不少投资者担忧.然而考虑到美国股票的构成在上个世纪发生了很大变化,这个历史平均值是否仍然适用?不仅新类型的公司和新的经营方式被发明出来,而且随着时间的推移,会计规则的修改也降低了市盈率的可比性.这并不意味着市盈率毫无用处,但可能应该持保留态度.


摘译自 August 16, 2022 by Nick Maggiulli

# 大佬Twitter又说了啥

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论