思想荟︱破解“量化七宗罪”

创建时间:2016-09-23
 
最近,有一篇名为《量化策略七宗罪》的文章引起了我们朱雀量化投资部研究员们的兴趣。这篇文章列举了量化入门研究中的七个常见错误,包括:幸存者偏差、前视偏差、讲故事、高换手率、数据挖掘、异常值偏差、非对称性等……这些问题的存在都会导致量化新手研发出的策略实际是无效的。而有经验的量化研究员都会针对这几个问题做严格测试,确保做出的策略和历史回溯的表现相一致。

此文标题将量化研究的入门问题夸大到了整个量化投资的有效性上,是不可取的。但其中提到的七个常见问题,也值得量化研究员和投资者进行深入学习,避免在策略研究中犯同样错误。
 
幸存者偏差以及前视偏差
这两个问题实际都是引用了“未来数据”,导致对策略历史表现的高估。例如美国的HFRI对冲基金指数,只考虑了还在存续的对冲基金产品的业绩,表现较差被清盘的产品实际被排除在样本之外。这一点在做策略时必须是严格控制的。很多情况下,有些量化初学者喜欢一拿到数据就开始研究它的特征,然后直接进行建模,其实这是有很大问题的,要保证数据是当期能取到的。比如股票,有些现在看已经退市了,但当时还是存在的,那么在研究时就必须包含进去,这样才能准确刻画当时的市场情形。实际上,一般用到了未来函数的策略表现都会非常优异,当我们做出一条异常平滑和好看的收益曲线时,往往需要审查是否用到了未来函数。
 
讲故事
讲故事的现象并不局限于量化领域,早在南朝宋时期,就已经有了“管中窥豹,时见一斑”这样的典故。时至今日,“京沪深房价永远涨”、“上证指数一万点”等等言论,都是在某些市场的上涨阶段常能听到的话。

通过大样本检验得到结论才是相对靠谱的,仅仅因为某一阶段观察到的现象就轻易下结论,并找出各种理由去支撑这个观点,那只是自欺欺人。实际研究时都要选取尽可能长的样本去做分析。
 
数据挖掘
数据挖掘(Data Mining)从其英文的字面意思来看,比中文意思更直观。从海量的大数据中,通过统计、情报检索、机器学习、专家系统和模式识别等诸多方法,找到隐藏在其中的信息,挖掘数据中的宝藏。这在金融、消费等领域已经是一种非常主流的研究方法。当你在淘宝上买东西时,底下会根据你的消费习惯弹出很多你可能感兴趣的商品,正是运用了数据挖掘的技术。

量化策略研究当中,也会采用数据挖掘技术去寻找市场中隐藏的蛛丝马迹,但要避免毫无因果关系的过度拟合的问题。某个美国小镇今年夏天冰激凌销量大幅高于往年,同时也观察到当地同期火灾发生数量也高于往年。是否是冰激凌销量上升导致了当地森林火灾发生数量大幅增加呢?其实是气温上升导致了冰激凌销量上升和火灾发生数量的上升,冰激凌销量和火灾没有任何关系。
 
高换手率
有些日内交易和高频交易的策略理论上很完美,每个市场的波动都能抓到,但是却忽视了交易成本。尤其对于高换手和高频交易来讲,加入了交易成本和冲击成本之后,大部分策略都很难赚钱。只有在充分考虑了成本的前提下,做出的关于模型的结论才是可以令人信服的。
 
异常值偏差
在通货膨胀的年代,一提起“人均收入”这个词,大家就会说自己又要拖后腿了。这是由于在统计的过程中,少数土豪远高于普通人的收入使得“平均值”这个指标超过了实际的中位数,不能很好地反映绝大部分人的收入状况。量化研究当中,一些市值极大或市盈率极高的股票也会改变整个数据分布的特征,影响研究结果的准确性。因此,研究员在拿到数据后,都会做一次数据清洗,剔除那些异常值。
 
非对称性
做多和做空的成本在国内是不相同的,做多只需要承担手续费、印花税等成本,而融券在这个基础上需要额外承担年化8.6%的借券利息。有经验的研究员会在做模型的时候,就把这些参数都考虑进去。
 
《量化策略七宗罪》,反映了投资者对量化策略的逐渐关注,也反映了大部分人对于量化研究的方法尚不熟悉。同时,量化研究员对各种工具的运用能力和经验丰富程度层次不齐,都会影响策略的有效性。因此,投资者一定要选择实盘经验丰富,运作规范化的团队进行投资。