首页 行业资讯 文章详情

炒股避免数据挖掘危机 (I)

发布于 2026-06-02 13:02

以下的这段话在2004年的5月28日刊登于RealMoney:

投资策略

数据挖掘试图赋与数据一个或许不存在的显著答案。技术分析可能涉及数据挖掘。运气可以使一个方法看起来比实际上还要有用。

投资者往往会倾向使用量化分析来投资。这些方法包括基本面分析或技术面分析,并且时常可以看到过去预估未来可能会有不错的结果,但当一般投资大众(或专业投资人)试了这些方法,并未达到预期当中的绩效。这是为什么呢?

这有许多原因,但我认为只有一个最重要的原因:数据挖掘。我稍后会定义数据挖掘的意义并给你几个方法来避免,不管你使用的是量化分析或者是创造一个新的量化分析方法。

数据挖掘的定义

我从未取得我的博士学位,但我拿到了经济计量学的研究生学位。在求学期间,他们教导我的其中一件事就是对资料过度解释所带来的危机。可能有经济学家甚至会说,“如果我能够将数据严刑逼供,我就可以让它招供所有事情”。

当量化分析师在挖掘数据时,他会重复使用不用的假设来测试相同的数据。当他发现有相当显著的正相关时,他就会停止再用其他的假设来测试。他可能会开始对这个假设相当有信心,认为这个假设能够得到重要的结果。

数据挖掘(Data-mining),或有人称它为特定搜寻(specification searching)试图赋与数据一个显著的答案,不管它是不是真的存在。财务数据相当地繁杂,它有太多太多琐碎的信息,时常不是只有单一个讯号。在每一次分析数据时都有很大的机率可能将不起眼的数据解释为单一讯号。对数据的过度解释增加了分析师将噪声判断成为重要讯号的机率。

文章配图-1

数据挖掘的例子

可以用Michael O’Higgins的著作:《战胜道琼(Beating the Dow)》作为例子,在这本书当中他介绍了他广为流传的“道琼狗”理论。或着是也可以看看James P. O’Shaughnessy的《What Works on Wall Street》在这两本书当中,运用不同的假设试着去挤出一个在过去制造出最好绩效的方法。

道琼狗理论的基本理念是买入便宜、大型的股票。但在测试多种不同的假设之后,廉价指标是会改变的。哪一个才是最好的呢?是P/B、盈余、销售额、现金流量、股价还是股利殖利率呢?另一个会变动的因素是要选择哪些股票。要选前十名、前五名、第一名或者是第二名呢?要多久更新数据呢?是一年、一季还是一个月?有这么多的排列组合,这样的策略还是有可能不小心将绩效最好的排除。

What Works on Wall Street当中也有一些不错的核心概念(但它名字似乎取错了,应该要改成What Has Worked on Wall Street,但如果改名的话可能没办法卖得这么好了)。它的核心理念:买进价格正成长和盈余产生动能的便宜股票。但在这个方法中,有许多评估便宜的指标和分析动能的方法,足以测试50种不用的理论。虽然它的基本观念合理,但是能够获胜只是偶然的结果。

…而技术分析

Bloomberg有一个技术分析的回测函数–BTST。它使用8种不同的技术分析方法并显示每一项方法在过去的绩效如何。测出来的结果是有一些方法是有效的。即使分析师用随机数据取代实际的价格数据,这个函数还是有可能会选出其中一个被认为为是获利情况良好的方法。

我在一些“服务”当中也看到了数据挖掘被滥用的情况,这些服务提供辨认“区间震荡股(rolling stocks)”。这些股票似乎仅在一个区间之内波动。这使投资人有机会在区间的下限买入这只股票,并在区间的上限将股票卖出,这样就能够快速的赚得差额。这个方法最大的问题是从过去的数据当中辨识出该股票是否都是在一段区间当中振荡很容易,但是很难去预测未来是不是仍然是这样子的走势。遵从这样子的指示的确是有可能有好的绩效,但是如果情况突然发生转变,你可能会有巨额损失的危险。

文章配图-1

数据挖掘和现代投资理论

股票的绩效能比债券好上多少,受到许多社会上以及政治上的因素影响。人们不可能无止尽地投资下去,他们至少要留一些钱以供日常的生活所需,因此长期的平均回报并不代表投资人平均能够达到的报酬。评价的问题,和债券的报酬率一样。在设定资产配置时,忽略股票评价和债券报酬率会使投资人高估了股票和债券,它们可能在过去有好的表现,但是在接下来的10年不一定会能够产生一样好的表现。

在过去的工作中,我曾为一位有寿险客户的资产管理师作数据分析。公司有数种衍生性金融商品,这使我们使用多样的不同信用风险作为降低风险的一种工具。我时常会看到过去绩效的相关矩阵,因为不同风险的资产组合而使波动的程度有相当大的减缓。我想问站在卖方的量化分析师相关矩阵究竟能有多稳定,在1998年,爆发长期资本管理公司(Long Term Capital Managemtnt,LTCM)危机时,他们给风险最高的固定收益资产多高的相关性,而复苏后的相关性又是多少。绝大部份的时间,他们都没有考虑到这个问题。

一个相当大的警告信号

如果你看到一个分析师总是依赖着某种基于平均数-变益数框架的报酬相关矩阵,一定要特别小心。我在这里最喜欢举的例子就是组合式基金(fund-of-funds),不管是CTA(商品交易顾问基金)或者是共同基金。以下是几个主要的原因:

文章配图-2

第一,没有足够的数据来估计它的相关矩阵。就算那些没有经验的从业者不知道每一个他们所计算出来的相关系数都需要一小段的期间数据,他们还是这样做。举例来说,如果是一个10个收益序列的相关矩阵,那么它至少需要46段期间的数据,如果能够有70段期间才能够达到统计上的可信度。

第二,即使它有足够的数据来计算相关系数,也达到了可信度,这个产生相关系数的财务过程仍然相当不稳定。很难用过去的相关系数来预测未来的相关系数。

第三,“过去的绩效并不代表未来的回报”。不管是报酬率或者是报酬的变益数都一样。这并不让人意外,历史上的平均报酬除以报酬的变动对一个想要得到和过去差不多报酬的经理人来说并不是一个预测未来的适当因子。简而言之,我认为夏普指数(Share Ratio)并不能真正产生报酬或降低风险。效率前缘(efficient Frontier)虽然可以呈现一条漂亮的曲线,但当它的参数是参考历史数据而得的时候,无法真的使资产配置在未来能够达到最适的风险以及报酬。

另一个数据挖掘的反派人物是收益风格分析法(Returns-Based Style Analysis),这个方法假设基金管理人的风格能够以他的报酬和不同的资产指数的相关性来区分。先暂时不谈多元共线性和在受限制的回归下无法建立信赖区间的问题,使用短期的历史数据数据或许能够看得清过去的情况,但是却很难将它运用在预测基金经理人未来的绩效。简而言之,过去的关联性很难用来预测未来的回报。

在金融研究领域来说,只有幸存者才能发表论文,而这些论文需要有统计或者是经济领域的数据作为支撑,但是这可能因为一些原因或者是结构上的改变而发生变化。数据挖掘让一些名气较小的学者有发表论文的机会。

在这篇文章的第二部份,我将会介绍一些评估量化分析的实际方法,以及如何避免数据挖掘。

《The Aleph Blog》授权转载

本篇文章不推荐任何股票,仅仅作为您投资时的参考资料,如果您想了解更多对美股感兴趣的文章和内容欢迎您来到------“沃夫街app”--------。我们为您准备了更多有趣有价值的资讯!

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。
标签: 数据挖掘技术

准备好开始了吗?

立即联系我们,获取专业的行业解决方案

立即咨询