首页 ꄲ 投资论道 ꄲ 思想荟︱破解“量化七宗罪”

思想荟︱破解“量化七宗罪”

创建时间：2016-09-23

最近，有一篇名为《量化策略七宗罪》的文章引起了我们朱雀量化投资部研究员们的兴趣。这篇文章列举了量化入门研究中的七个常见错误，包括：幸存者偏差、前视偏差、讲故事、高换手率、数据挖掘、异常值偏差、非对称性等……这些问题的存在都会导致量化新手研发出的策略实际是无效的。而有经验的量化研究员都会针对这几个问题做严格测试，确保做出的策略和历史回溯的表现相一致。

此文标题将量化研究的入门问题夸大到了整个量化投资的有效性上，是不可取的。但其中提到的七个常见问题，也值得量化研究员和投资者进行深入学习，避免在策略研究中犯同样错误。

幸存者偏差以及前视偏差
这两个问题实际都是引用了“未来数据”，导致对策略历史表现的高估。例如美国的HFRI对冲基金指数，只考虑了还在存续的对冲基金产品的业绩，表现较差被清盘的产品实际被排除在样本之外。这一点在做策略时必须是严格控制的。很多情况下，有些量化初学者喜欢一拿到数据就开始研究它的特征，然后直接进行建模，其实这是有很大问题的，要保证数据是当期能取到的。比如股票，有些现在看已经退市了，但当时还是存在的，那么在研究时就必须包含进去，这样才能准确刻画当时的市场情形。实际上，一般用到了未来函数的策略表现都会非常优异，当我们做出一条异常平滑和好看的收益曲线时，往往需要审查是否用到了未来函数。

讲故事
讲故事的现象并不局限于量化领域，早在南朝宋时期，就已经有了“管中窥豹，时见一斑”这样的典故。时至今日，“京沪深房价永远涨”、“上证指数一万点”等等言论，都是在某些市场的上涨阶段常能听到的话。

通过大样本检验得到结论才是相对靠谱的，仅仅因为某一阶段观察到的现象就轻易下结论，并找出各种理由去支撑这个观点，那只是自欺欺人。实际研究时都要选取尽可能长的样本去做分析。

数据挖掘
数据挖掘（Data Mining）从其英文的字面意思来看，比中文意思更直观。从海量的大数据中，通过统计、情报检索、机器学习、专家系统和模式识别等诸多方法，找到隐藏在其中的信息，挖掘数据中的宝藏。这在金融、消费等领域已经是一种非常主流的研究方法。当你在淘宝上买东西时，底下会根据你的消费习惯弹出很多你可能感兴趣的商品，正是运用了数据挖掘的技术。

量化策略研究当中，也会采用数据挖掘技术去寻找市场中隐藏的蛛丝马迹，但要避免毫无因果关系的过度拟合的问题。某个美国小镇今年夏天冰激凌销量大幅高于往年，同时也观察到当地同期火灾发生数量也高于往年。是否是冰激凌销量上升导致了当地森林火灾发生数量大幅增加呢？其实是气温上升导致了冰激凌销量上升和火灾发生数量的上升，冰激凌销量和火灾没有任何关系。

高换手率
有些日内交易和高频交易的策略理论上很完美，每个市场的波动都能抓到，但是却忽视了交易成本。尤其对于高换手和高频交易来讲，加入了交易成本和冲击成本之后，大部分策略都很难赚钱。只有在充分考虑了成本的前提下，做出的关于模型的结论才是可以令人信服的。

异常值偏差
在通货膨胀的年代，一提起“人均收入”这个词，大家就会说自己又要拖后腿了。这是由于在统计的过程中，少数土豪远高于普通人的收入使得“平均值”这个指标超过了实际的中位数，不能很好地反映绝大部分人的收入状况。量化研究当中，一些市值极大或市盈率极高的股票也会改变整个数据分布的特征，影响研究结果的准确性。因此，研究员在拿到数据后，都会做一次数据清洗，剔除那些异常值。

非对称性
做多和做空的成本在国内是不相同的，做多只需要承担手续费、印花税等成本，而融券在这个基础上需要额外承担年化8.6%的借券利息。有经验的研究员会在做模型的时候，就把这些参数都考虑进去。

《量化策略七宗罪》，反映了投资者对量化策略的逐渐关注，也反映了大部分人对于量化研究的方法尚不熟悉。同时，量化研究员对各种工具的运用能力和经验丰富程度层次不齐，都会影响策略的有效性。因此，投资者一定要选择实盘经验丰富，运作规范化的团队进行投资。

ꄴ前一个：无

ꄲ后一个：无