来源:少数派投资 作者:王煜东原标题:量化研究的5点思考
(相关资料图)
近年来,在主动研究的基础上,我们进行了一些量化探索,对相关方法的认知也在逐步深化,尤其是具体策略背后的基本原则,直接决定了后续研究的取舍。
本文将以问答的形式,分享个人在量化研究中的5点思考:
1. 统计结果能够说明什么?
《从掷骰子到阿尔法狗》中有个故事:
贾格尔是一名优秀的机械工程师,他被赌场的转盘机吸引:转盘上有38个数字,理想情况,每个数字出现的概率都是1/38,但在当时的工艺下,机器无法做到完美对称,缺陷的存在将导致转盘偏向某些数字。
他雇了6个助手,持续几天记录每台轮盘机转出的每个数字,并分析其中的规律。他发现,在第六个轮盘上,有9个数字出现的频率明显要高。于是,他对着这台存在偏向性的转盘机,大量投注这9个数字,当天就赚了7万元。
量化回测,可以类比为转动转盘:统计不同策略在历史上的转盘结果,找到“偏向性”,从而下注于大概率获利的投资方向。
贾格尔的故事还没有结束,赌场的管理人员发现了异常,改变了第六个转盘的机械设置,他无法继续赚到钱,最终只能离开赌场。
股市中,价格的形成是参与者各自追求自身利益最大化下博弈的结果,与有着特定机械结构缺陷、明确无人改变的客观转盘有明显不同:
股市的“偏向性”是就参与者的行为互动特征而言的(并非客观物理性),而各方人士会依据历史及当下变化调整自己的行为,乃至基于对交易对手行为的预期、再多考虑一步;更有甚者,不少“博弈点”对特定群体竟然是“可调节”的。
由此一来,不能简单认为回测中的规律性就是参与者行为偏差的结果,基于历史指标的静态押注,很可能会被有着更慢一层思维的动态博弈者所猎杀。那么,如何判断股市中的“特定转盘”有没有被人改变过?
办法有两类:
第一,是数据导向的高频交易:更快地反馈、更快地调整,只要在亏损吞噬掉利润前撤离,不必太在意此前到底做对了什么及背后的原因(即便客观上必然有原因);
第二,是逻辑导向的偏低频刻画:要理解数据背后的微观结构,尤其是特定规则及相关方的利益表达,关注规则变化、跟随演绎进程,并调整自身参与姿势。
本文只针对第二类方法展开,底层的逻辑是:
统计结果只能告诉我们过去发生过什么,但历史数据的表层关系并不会天然地适用于未来,真正发挥作用的是数据背后的“微观结构”。
即,能够反复上演的是特定规则下的具体的微观结构及其因果关系,而不是神秘的数字游戏。如果博弈规则与微观结构改变了,历史上再显著的规律,当前也不再适用了。
2. 我们给出的解释真的合理吗?
于是,一个存在异常收益的历史统计结果,只能是研究的起点。
对于观察到的现象,我们要给出解释,并进一步推论、检验,乃至找到明确的微观结构及对应的规则与环境。现象-解释-推论-验证4步法,是所有研究的必由之路。
现实中,不少人存在这样一个误区:对于一个市场异象,只要给出一个“合理”的经济学解释,那么该规律就具有可重复性。
就好比,亚里士多德发现石头比羽毛落地更快,给出“重的物体比轻的物体落地更快”的解释,问题的关键是,如果这个解释成立,那么它的推论也要经得起数据验证:10公斤的羽毛会比5公斤的铁球落地更快吗?显然,亚里士多德的“合理”解释是错的,但该理论却统治了欧洲近2000年。
不要低估人自圆其说的能力,不要满足于多数人已经在讲的理由、或是一些文献中给出的解释。如果这些解释成立,那么会有哪些推论?是不是与客观数据相违背?有没有更加合理且推论被数据验证的其他解释?
尤其警惕“万金油”式的解释:比如只要一个策略在一定时间内有超额收益,就是“市场反应过度或不足”吗?那么,合理的市场反应该是怎样?再比如,某个策略或因子失效了,就是因为“交易拥挤”吗?
这样的解释只能填充为了有解释而其实没有找到明确解释的理解空洞,缺少必要的微观结构,没有明确的推论,只是围绕已有数据打转,无法推动研究更进一步,甚至可能自以为已经有了合理解释而盲目自信、过度承担风险。
没有哪个解释是绝对合理的,但一个新的合理解释的提出,在能理解更多异象的同时,从实践看,其推论要能够打开新的维度、融入增量信息,推动研究的深入。理论上,每个解释都是“有待证伪”,有价值的研究就是一个不断找到新解释,并持续检验及思辨的过程,解释的关键是要指向明确的做法。
股票研究中,怎样的解释会相对合理、逻辑更硬一些?从已有经验看,直接涉及到相关方的利益,尤其是优势方利益最大化必然选择所带来的规律性,更有可把握的价值。
3. 是否偷换了概念?
量化方法在一定程度上使得很多策略具有了可检验性。但是,在量化的过程中,很容易出现“偷换概念”的问题。
换言之,为了量化而量化,却忽视了本来要解决的问题,乃至检验的对象其实是一个关系不大的其他选股方法。
比如价值因子,买低估值(如PE)的就是价值投资吗?再叠加个高ROE(高盈利能力)的质量因子就是价值投资吗?
按照这样的思路构建回测,你检验的只是被检验指标本身,而不是最初要解决的问题,过度简化让量化验证失去了意义。
对于价值投资,按照格雷厄姆的定义,是以低于内在价值的价格买入,而“内在价值”是指“事实证明合理的价值”。
比如一家公司市值跌到净流动资本以下,买入公司清偿债务、破产清算都有利可图,这是“套利”视角的价值投资;再比如,假设你能看清一家高成长公司未来能够确定地达到某个盈利水平,那么,即使当前PE很高,也可能内在价值高于市价,这是“成长”视角的价值投资……
基于PE、PB等指标的量化策略,只是强调了这个指标本身的高低,却没有刻画出上文表达的“价值投资”的实质:首先要判断出什么是合理价值,市价要“相对”合理价值低、而不是“绝对”的低。(绕开了关键的问题,偷换了概念)
再以银行股为例,PB最低的几只过去几年反而是应该回避的,原因在于更深层的“微观结构”:它们历史包袱很重,且监管不会允许它们一次性风险出清,会在很长时间业绩弱于同业,导致股价持续承压。基于低PB买入与价值投资很可能南辕北辙。
此类问题在不少的量化研究中频繁出现:“噱头”很大,但究其实质,什么问题都没有解决,只是强调了几个没什么关系的变量在历史上的搭配会有不错的回测效果。
明确刻画对象是量化研究的起点。我们到底在刻画什么?有没有偷换概念?是否偏离了最初要检验的命题?我们最终检验了什么?哪些存在“可把握点”?这是值得反思的。
4. 有没有被具体指标绑架?
不少人可能有这样的观点:历史回测,检验了特定指标的有效性。
事实上,具体指标只是对应原理前置因素的代理变量,表面上历史数据验证了指标,其实是检验了背后的原理(微观结构)。
更底层的逻辑是,同一个原理下,换一个指标来刻画,应当取得差不多的结果;如果同样原理下,仅略微调了下参数、或从另一个角度刻画,指标就无效了,那么此前再好的回测结果也没有意义。(原理的推论被证伪)
所谓“被指标绑架”,是指将某些历史上有超额收益的指标“神秘化”,仿佛它有着某种神秘的“选股能力”,哪怕偏差一点都会“神力”不再,产生这样的神秘感是人性的弱点。
不要过分纠结于一个指标的细枝末节,而应该倒退回去,看到它所指向的原理,乃至同一因素不同刻画的共同指向或明确证伪。
历史股价行情有很大的偶然性,在理论上,同样原理的不同代理指标的结果是一样的。即便反复排列组合、拷问出一个更好的回测结果,也没有给原理本身带来任何增益,更没有理由在未来取得更好的实际收益。
更何况,不少指标,究其本质,未必是“因子”,而只能算是一种分类的标准。
可以试想这样的情景:未来某一时间,我们回头反思当前选股得失,总结经验教训,某些股票表现好或不好,难道就是因为它们市值偏小、换手率偏低、或是近几日涨跌幅较大?这样用现象解释现象的归因在事前存在“可把握点”吗?
当我们基于特定的原理,以逻辑为导向进行投资时,必然要有一个发生在未来、可明确的“博弈点”变化,可能是更好的业绩、可能是蹭上某个热点或题材,甚至可能是发生实质性重组等等。
反观这些指标(不少人称之为“因子”),可能会是上述“博弈点”变化的原因吗?可以辅助我们在事前对“博弈点”的变化做出更好的判断吗?还是仅仅因为这样的堆叠可以取得更好的回测结果?
当我们面对一个指标,思考是否应该将其纳入已有模型时,不妨先问一句:它刻画了什么?和模型本身的原理是否有关?拒绝指标绑架,遵从已验证原理本身,才是实事求是的态度。
5. 有哪些增量维度能提升“相对优势”?
无论是主动研究,还是量化模型,最终目标都是要能找到一个相对占优的点,并通过持续积累,将之巩固、放大,这是市场博弈的必然要求。
所谓“相对优势”,包括对投资工具及市场规则的熟悉,对博弈定价特征的认知,对特定事件下参与各方利益点与行为方式的理解,乃至对产业层面博弈进程的洞察等等,甚至更直接——更广的人脉、更多更及时的信息,以及处理海量数据的能力。
爱因斯坦说,“你无法在制造问题的同一思维层次上解决这个问题。”
股票投资中,市场博弈的焦点是股价涨跌,最直接的信息就是交易产生的价量数据,价格变化无非动量与反转,但是导致趋势延续或改变的原因却未必在量价层面。
比如本文开头讲的转盘机,第六个转盘上的9个数字出现频率较高,是由于特定的微观结构:机械设置不完美、有偏向性,而并非动量本身导致动量,同时当前机器尚未被重新调整是下注获利的重要前提。
在股价以外,我们可以引入公司业绩的数据:如果未来净利润增长持续加速,一般会导致股价“动量”;但如果业绩变脸或出现拐点,则可能带来股价“反转”。这样,量化的刻画延伸到了基本面维度的动量。
如果对于公司未来的经营情况还是无从把握,能不能跳出线性外推的怪圈,从更高维度,比如公司融资行为等角度找到影响利润释放节奏的可把握点?于是,增量的信息维度被不断引入……
除此以外,我们还可以缩小研究范围:比如从全市场来看,很难得出明确的判断,但特定的行业会不会明确地高景气或反转?另外,处于几条线索交叉处的特定公司当前是否存在机会?不能苛求某一维度一定要有结论,而应试探各个维度尝试找到可落脚点。
股票研究,不是以各种模式来反复拷问已知数据,而是围绕着要解决的问题本身,逐层拆解:从股价到业绩,再到上市公司行为……乃至缩小包围圈、聚焦交叉点等等,在“遍历”中,挨个维度排查,基于清单逐一落实,以求在某个维度、某些点上觅得“可把握性”、取得相对优势。甚至在探索中,发现前所未有的思考角度,进一步推动信息维度的完善。
计算机程序可以在给定的数据集下,最大程度地优化已知维度与给定信息。比如,从股价动量找到业绩层面的动量,并给出历史最佳参与姿势。但是,如果这两个层面都不存在“可把握点”呢?如果最关键的因果关系并不在当前已给的数据之中呢?如果相关“可把握点”只涉及其中的一小类股票,但相关分类的标准并不在给定信息中呢?……
再惊人的算力,也难以超越给定的数据范围。
此时,更进一步的研究,并不在对数据本身的反复拷问,而是要引入哪些增量的维度、增量的信息,乃至更加明确的针对性、更加细致的分类及相关标准。
此时,人的介入是必要的,主观探索会带来更加丰富的视角,主观降维与增维是量化研究更进一步的重要推力。机器无法做到既定边界以外的事情,这只能由人来补充。
文章的最后,我们借用胡适先生的名句:
“怕什么真理无穷,进一寸有一寸的欢喜”。
没有什么研究方法是可以一劳永逸的,任何一个量化模型都处在持续优化、不断完善的进程中,对市场异象的认知也在否定之否定中曲折前行。
不要局限于既定因子的排列组合与反复拷问,要打破已知边界,直面待解问题本身,在量化与主动的互补中,找到“可把握点”,进而在具体问题上取得“相对优势”。
编辑/lambor