大数据重塑投资流程
网络另一端,没人知道你是一条狗。这曾是人们对网络时代的戏谑,现在看来却是个美丽的误会。浏览网页,你的行迹被跟踪;在线购物,你的偏好被记录;社交网络互动,你的“圈子”被识别;在微博上发布消极话语,你的抑郁症被诊断。以一句话概括,在大数据时代,你的空虚寂寞有人懂,甚至比你更懂你。
大数据不仅关系未来全球的经济格局,还决定将来福布斯富豪的行业出身。展望2025年,麦肯锡按照“钱景”规模,精挑细选出12大颠覆性技术,其中的移动互联网、知识工作自动化、物联网、云、先进机器人、自动汽车、下一代基因组学,是应用价值最为可观的7项。穷其本质,这7项均依赖大数据技术的进步,或者说就是大数据生意。
大数据正在改变资产管理行业——我们赖以生存的执业环境。当各行业都在开展大数据革命,我们边补课边思索:大数据资产、思维和技术,将如何改变投资的方法、流程,以及投资标的本身?万得资讯曾有句广告词,“金融就是数据”。当电商、社交媒体等互联网公司跨界销售基金,金融业也许已经被重新定义:金融不仅仅是数据,还必须是大数据。
大数据对资产管理的影响,不亚于物竞天择,我们当然拒绝成为“活化石”。适应时代和环境变化,率先创立和采用新的解决方法,是获取成功的重要前提。以大数据革新投资思维、方法与流程,这是资产管理行业在大数据时代的机遇与挑战。
大数据颠覆投资方法
大数据是大数据思维、技术与资产浑然一体的称谓。它是互联网,特别是移动互联网高度发展的产物。强调“高度发展”,是因为在互联网发展之初,创业者尚处在商业模式的摸索阶段,没有数据平台、数据搜集乃至数据应用的理念,也就没有大数据这一概念。只有在互联网高度发展之后,多种数据入口、数据采集手段和分析方法逐步建立或引入,大数据才应运而生。
专家们喜欢用“4V”或者“5V”特征来界定大数据,其实大可不必如此烦琐。大数据就是互联网、移动互联网生产的数据,是与用户动态交互的数据。按照这个标准,以其他方式生产的数据,如果仅以计算机或互联网存储、传输,比如网上图书馆、网上身份查证系统等,即使数据再大,也不能被认可为大数据。
尽管大数据概念近来才兴起,但是碎片化的大数据思维早就存在。只是在互联网时代,大数据资源逐渐丰富,对海量或非结构化数据的处理技术逐渐成熟,人们才有条件将大数据思维、大数据技术与大数据资产“合三为一”,从而获得前所未有的信息获取与认知优势。
大数据对投资方法有颠覆性的启示:
一方面,大数据由于大和全,无限接近真实世界,很大程度上可解决投资模型的前瞻性和预测性难题。因为过往的预测模型是对历史或样本数据的最优解释,以及对未来的简单线性外推,它往往忽视“肥尾”或意外的发生,比如蝴蝶翅膀的细微震动,尽管这最终可能酿成一场飓风。
另一方面,大数据不再探求难以捉摸的因果关系,转而关注事物的相关关系,推动投资思维从价值判断向量化策略转变。尽管证券分析师大多要为股票涨跌找理由,但投资者厌烦“马后炮”式的因果分析。抛开“鸡生蛋”还是“蛋生鸡”之类的因果思维,对变量间的相关关系加以探索、利用,投资的方法和思路将会清晰许多。
大即是小,小即是大
大数据与小数据的本质差别在于,前者是总体,或者逼近于总体,而后者是样本。由于用的是总体,大数据可避开随机抽样的诸多陷阱,以及从样本到总体的推断问题。纵使随机抽样绿色环保,可较轻易地抓住事物大概,但仍有可能遗漏重要信息。传统的统计抽样常会舍弃极值样本,从一开始就假设是个某某分布,刻意去掉“极大”或“极小”等异常值,再用样本特征推断总体。我们做计量统计看重系数的显著性,但是系数再显著也只代表大概率,而生活总是充满变数,试图规避或者忽略的意外更具有认知价值。
网络上曾流传“三峡大坝”能够抵御从“万年一遇”、“千年一遇”到“百年一遇”洪水的笑话,便是对没有大样本做支撑的专家论断的无情讽刺。投资圈的专家同样如此,他们常凭感觉研判行情,不加论证地抛出“政策底”、“估值底”或者“钻石底”之类的言论。但A股正是小数据、小样本的典型,与美国股市比更显稚嫩。美股一百多年间经历多轮经济、金融或政治危机,屡次考验估值极限。有了这个大样本,专家对股市进行预测也将更加合理。
由样本到总体,对投资思维的最大启示在于信息获取的全面性。金融交易的本质是对信息以及观点分歧的处理。有信息优势的一方,在对未来的预测方面将更胜一筹,因此可从交易中获利。但问题在于,谁对影响市场的众多因素有把握能力呢?
样本数据越多,蕴藏的信息可能呈现边际递减,但不会是存量减少,相反可能捕捉到随机抽样的盲点和死角。对投资策略稳健性的检验,如果没有纳入尽可能多的样本数据,其结论将十分可疑。埃斯瓦斯·达莫达兰在《打破神话的投资十诫》一书中,用严格的数据论证了高股息率、低市盈率、低市净率等10多项投资策略的可靠性。他悲观地发现,如果将样本量放大、检验时间拉长,这些看起来“简单又好用”的投资策略都将无效。资产管理机构在筛选投资人才时,要求遴选对象经历一个完整的牛熊周期,也正是出于这种考虑。毕竟股市风云莫测,没有足够长的投资经历,不足以证实该投资专家在投资思维、方法,乃至心态方面的稳健性。
投资是对真实世界的理解。但是,投资分析如果连真实世界都看不完全,一叶知秋的理解力又从何而来?大数据让我们得以窥见事物的全貌,防止以点带面、以偏概全的认知误区,使投资更接近于“圣杯” [1] 。
抛弃因果,寻找相关
人类对事物之间的联系分因果与相关两个维度,但相关是一切的前提。相关可独立于因果而存在,因为除因果关系的相关之外,还存在简单相关和时序相关。拿沃尔玛搭售尿布与啤酒的案例来说,这种相关关系的存在不是因为婴儿需要啤酒,而是背后有“超级奶爸”这个群体。这种购物篮里的相关就是简单相关,我们没有深究它的必要,它也不能放之四海而皆准,但是有重要的应用价值。《怪诞行为学》一书中介绍了一位饭店顾问,专门琢磨菜单定价与顾客消费的关系。他发现了件有趣的事情,就是主菜的价格定得高,饭店的效益将更好,原因是价格贵的菜没人点,价格便宜的菜反而好卖。你只要利用这个秘密赚钱就好,不用聘请心理学博士,去分析顾客们翻开菜谱时的复杂心理。
与因果关系不同,相关关系在人类社会广泛存在。六度分隔理论认为,任何两个人都可经过6个中间人产生联系。这下你可以理解,为什么人与人之间的联系被叫作“关系”。互联网从1.0到2.0版(移动互联)的飞跃,为人类提供了无限相关的可能性。“互联”二字的真意,是超越空间与时间,将不同的人、不同的物和不同的事关联起来。
大数据是人、事、物之间的多重耦合,复杂程度超出人类以往的经验、直觉。在纷繁复杂之中找出两个事物的关系,必须先去挖掘变量间的相关性。而且,人类思维由因果转向相关,也有对成本和收益的权衡。一方面,找相关更有效率。因为挖掘变量之间的相关关系,我们拥有度量和算法上的优势,可以交由智能化的机器处理,比挖掘因果关系更省时、省力。另一方面,盯住相关关系的收益显著。如前面所举的例子,有因果的相关关系可以赚钱,没有因果的相关关系也照样赚钱。
证券世界的相关无处不在,甚至可以说,相关关系是证券投资理论的基石。芝加哥大学金融学教授约翰·科克伦所提出的基于消费的资产定价模型为所有资产建立了一个“相关”关系的大图景。他认为,投资者有平滑消费的动机,与未来消费呈正相关的资产(更形象地说,是“锦上添花”型资产),因投资者天然厌恶而定价较低;与未来消费相关度较低的资产,其定价会相对较高 [2] 。诺贝尔经济学奖得主马科·威茨于20世纪50年代提出的现代投资组合理论,就是利用证券之间高低不等的相关关系,实现投资收益与风险目标的优化。在实践方面,投资界对基金经理进行考核,将他们管理组合的业绩表现分解为Alpha和Beta,划分依据也是其投资业绩与市场的相关度。
尽管相关关系是投资分析的基础,但是长期以来,投资者对因果关系更为专注。比如,大多数证券分析师从事基本面分析,他们每天都在为行业和股票的涨跌找原因、定空间。基于价值和方向判断的投资思维和方法,也在投资领域中占有重要地位,无论是自上而下采取宏观策略的索罗斯,还是自下而上找企业的巴菲特都信奉此道。但是,华尔街还流传这样一句名言:一个好的操盘手是一个没有观点的操盘手。《信号与噪声》中也写道:“市场是最好的预测。”这两句话是告诫投资者,不应事先假定股市会朝哪个方向走,不要做方向性的预判,而是让投资跟随市场,如此才能避免因误判方向而带来的风险。
抛弃价值或者方向判断,相关关系对投资或许更有用。预测股票涨跌的分析师貌似对基本面的因果分析很在理,但估值还得看行业、市场与历史区间,这实际上也是相关分析。更令分析师尴尬的是,某些时候股票涨跌真的没有原因,可能是由于“羊群行为”、动量或者惯性效应等引起的,你总不能将它解释为“因为上涨(下跌)而上涨(下跌)”,虽然事实可能的确如此。
预测公司的算法交易
《连线》杂志主编凯文·凯利在其《失控》一书里,引用了戴维·拜瑞比关于可预测性的一个比喻:现实的市场躁动得如同一条湍急的河流,满是狂野的波浪与旋涡,但是只要熟悉一个水流旋涡,你就能知道河流在5~10秒的流向。预测公司 [3] 就擅长运用算法去抓住市场的小旋涡,从小趋势中赚钱。预测公司的创始人法默和帕卡德认为,他们只关注寻找获利的交易模式,至于该模式为何产生是经济学家们的问题。法默认为预测公司的业务已经证明,与人相比,机器是更好的预测员,而算法是比米尔顿·弗里德曼更好的经济学家,现在的交易员已经感受到了机器的威胁。狗不学算术,照样可以精准地接到飞盘,说明直觉、聪明是预测最好的武器。法默坦言,金融预测不是他的长期目标,他们只是想创造预测机器去预测更多的事情,包括气候、传染病或者其他目前还不能搞定的数据。
基于相关关系的投资思维在实践中已取得成功。文艺复兴科技公司堪称对冲基金界的翘楚之一,这家公司的核心竞争力是拥有多位科学家、数学家,即不要从事基本面分析的经济学家和财务研究员,这与传统意义上的资产管理公司的标准配置不同。该公司的创始人西蒙斯关注的就是相关性,而不是因果关系。换句话说,是与“亚马孙河上一只蝴蝶引发太平洋风暴”类似的相关性。其他常见的量化投资策略,诸如套利、事件和动量等,也是根据证券之间、证券与事件之间、证券跨期收益之间的相关关系构建投资组合。所以,不必为抛弃因果而沮丧,从相关关系出发的投资同样可以挣钱,甚至比其他方法更挣钱。
更加注重相关性,对投资风险的防控也有积极意义。马科·威茨的“均值–方差”模型阐述了投资组合的分散性,处理的是证券之间的相关关系。投资经理在构建证券组合的过程中,是否纳入一只股票,除定性认可它的投资价值之外,还要考察该股票与整个组合的相关性,看它是增加还是降低了组合的总体风险。美国对冲基金桥水公司有只久负盛名的“全天候基金”,意思是不论市场涨跌,它都能获得稳定收益。这是要求极高的技术活,资产配置与风控能力缺一不可。据桥水公司老板雷伊·达里奥介绍,该基金进行资产配置与风险控制的着眼点,就在于规避资产类别之间的相关性。
动态预测
时效性是大数据的生命,也是将其与传统统计分隔成两个世界的屏障。传统统计缺乏实时和高效的处理手段,从数据采集、整理、加工到分析,整个过程费时费力,等到分析结果出来,发现“萧瑟秋风今又是,换了人间”。国家统计局局长马建堂曾为基层的统计调查队撰文,题目是“她们纯朴的眼中为什么总是流淌着泪水”。其实,我们了解她们的难处,这种苦活、累活、憋屈活在大数据时代将告别历史舞台。
缺乏前瞻性是传统统计缺点的集中体现。列宁曾提出用统计管理经济。他曾说过,“每一种商品、每一磅粮食都应被统计到。”大家不用怀疑苏联统计工作的严谨程度,但计划经济并不可行。计划经济时代的数据采集频率过低,经济动态难以为决策层实时把握,经济计划不能因时而变,整个经济体制缺乏弹性,这些都是原因。
现在的官方统计也存在这个毛病。经济指标的采集和发布频率过低,比如GDP以季度频率公布,工业增加值、PMI(采购经理指数)、CPI等数据以月度频率公布。加上发布时滞,投资决策只能“看着后视镜向前开”。但在《战胜华尔街》一书中,彼得·林奇提到的第4条林奇投资法则,就是“你无法从后视镜中看到未来”。所以,盯着这些滞后的经济数据,你注定不能像彼得·林奇那样成功地投资。
时间对证券投资而言,就是一切。下单比别人晚一秒,你就会有所损失,因为其他投资者的高频交易速度已发展到微秒的地步。而且,新信息对市场的冲击,可能就发生在一瞬间,如果能抢跑几秒,你就能获得先人一步的优势。同样,政策制定者盯着这些“后视镜”般的宏观数据,可能会做出灾难性的决定。2011年10月,因为滞后的经济数据显示良好,即使美国和其他重要经济体步入衰退,欧元区经济下滑几成定局,特里谢领导的欧洲央行仍然选择观望。政策“慢半拍”把继任的德拉吉行长急坏了,他上台两个月两次降息,但欧元区经济已无力回天。
快速采集、快速分析、实时预测未来,这是大数据的应用之道。而投资本身就是一场与时间的赛跑,对信息进行搜集、分析和处理的速度,或许是决定投资成败的唯一因素。由此看来,大数据对于投资的影响,是它将带来又一场信息变革,促使金融市场对信息的处理速度不断提升。桥水的灵魂人物达里奥就是一位与时俱进的高手。他将经济视为一台机器,这台机器的运行规律是其从下到上构建的宏/微观经济模型,据说由上万个经济方程构成。桥水搜集经济数据的体量及对数据的细化程度,甚至高于美联储。现在,根据实时更新的微观数据,桥水可以监控多个国家的经济运行,以及多个资产市场的成交变化,为投资决策的制定、调整提供实时指导。
对信息获取、分析以及反应速度的极度追求,已促使国外某些对冲基金采用文本驱动的交易程序。它们利用计算机实时扫描、监测主要媒体的关键词,为在重要事件发生之际,获得抢跑数秒甚至数微秒的交易优势。据《华尔街见闻》报道,在2013年4月24日那天,叙利亚黑客入侵了美联社的Twitter账户,发布了白宫爆炸、总统受伤的虚假消息,一瞬间引发美股道琼斯工业指数下挫约130点,发现上当之后,市场又迅速收复了失地。这场“无厘头暴跌”从侧面说明,现在的证券市场对信息的反应何其灵敏。
草根数据有力量
大数据来自互联网、移动互联网,继承了互联网开放、分享、合作的基因。如果说以往的经济统计和数据发布是官方行为、权威的象征,那么大数据统计无任何权威的加持,它纯属企业或其他组织的民间行为。大数据时代的统计既不需要基层调查队,也不需要顾虑社会影响而调整数字,更不会给出31大于31的GDP算术题。尽管与官方数据比,大数据确实粗糙,但它的真实性足够弥补这一点。
传统统计除时滞以外,还存在抽样设计、参数调整与现实脱节的毛病,这都将损害官方数据的权威性。比如,社会大众较难接受CPI,因为与他们的主观感受不符。证券机构的经济学家对CPI同样存有疑虑,但还能将就着用。因为证券机构的共识是不看绝对看相对,可以透过CPI的变动看物价走势。
还有些人不堪忍受,不愿将就,他们转向了大数据。据媒体报道,麻省理工学院斯隆管理学院的两位教授启动了一个名为“百万价格工程”的研究项目,计划在网上搜集不同国家零售商品的价格,编制各国“在线价格指数”,以此解救饱受官方CPI“虐心”的各国群众。马云领导的阿里巴巴早前根据淘宝的交易数据,在2008年7月推出了中国首个网络购物消费指数:淘宝CPI,其后又将淘宝与天猫的海量交易数据进行合并,于2012年8月发布了阿里iSPI指数(网络零售价格指数)。国内其他互联网公司,如百度、新浪等,也接连推出在线数据统计服务。需要强调的是,互联网企业推出的在线统计在某种程度上不仅仅是官方统计的替代,更是全面超越,因为它能搜集和反映更多的社会信息。新浪微博数据中心提供的实时热词,完全根据微博的关键词统计,可反映社会大众的普遍关注。比如,2013年1月1日的热词是“史上最严交规”,1月18日的是“我是歌手”,3月9日的是“黄浦江死猪”,4月3日的是“海天盛筵”,5月2日的是“大黄鸭”,6月27日的是“小时代”,这些词完全实时地反映了网络大众的眼球转动。
大数据时代的统计:阿里iSPI指数
iSPI(internet Shopping Price Index),由阿里研究院于2012年8月正式推出。据阿里巴巴介绍,该指数的编制目的,是综合反映阿里巴巴旗下淘宝和天猫两大网购平台的网络零售交易商品和服务的一般价格水平。该指数包括两个系列:(1)iSPI总体物价指数系列,反映一定时期内网络零售商品和服务的总体价格变化,即网络渠道购买一篮子商品和服务的成本变动;(2)iSPI总体物量指数系列,反映去除物价变动因素后,一定时期内网络零售交易实物量的总体变化,即网络渠道实际消费量的变化。
iSPI是互联网消费价格环境的概括性指标,为理解网络消费这一新经济领域中的通货膨胀、实际增长及其与传统经济的关系提供重要参考。iSPI以网络交易的实时数据为基础,可发展成为更高频甚至是实时的指数,它能够更快速地提供信息,满足互联网时代经济预测和决策需求。
从信息来源看,iSPI为传统物价指标提供了重要补充,但不可完全替代。在iSPI的10大类商品服务的分类中,前8类定义与CPI基本对应,后2类则概括了网络零售超出CPI调查项目的其他商品和服务。iSPI总体物价指数(环比)与官方CPI环比指数呈现联动关系,并在关键转折点呈一定领先态势。
至于iSPI指数的缺点,一是只包括了线上消费,没有反映社会群体的线下消费;二是不能反映商品质量的变化;三是价格指数的季节性波动较大,比如在“双11光棍节”的购物打折季,价格指数可能出现“跳水”情形。
大数据统计抢占官方统计的“饭碗”,是民心与潮流所向。如何顺应时代发展潮流转型,这是官方统计迟早要考虑的问题。2013年11月,阿里巴巴、百度、中国联通、一号店、58同城等11家大数据领军企业齐聚北京,与国家统计局签署关于大数据的战略合作协议,拟开创官方统计的大数据时代。在签字仪式上,国家统计局局长马建堂有段讲话,可表明政府对大数据价值的认可。他讲道:“一个大规模生产、分享和利用大数据的时代正在来临……谁拥有了大数据,谁就占领了制高点,取得了主动权。”但是,这一说法也只是部分成立,因为大数据在增强政府调控主动权的同时,也可以剥夺政府的宏观调控权。根本原因有两条:一是应用大数据统计之后,信息透明度提升,私人的经济决策将更加有效,政府将无“症”可调;二是政府调控也可转向智能化。有专家认为,既然大数据技术可以实现汽车、飞机的无人驾驶,当然也能实现美联储货币政策委员会的“无人驾驶”,即以大数据监控经济运行,按照事前制定的规则进行动态调控。
官方统计向大数据转型,将使传统的统计工作更接地气,更好地反映社会现实,对普通群众来说是件好事,可对于金融投资没有改善。因为投资界对大数据的青睐,是建立在大数据高人一筹的预见力的基础上,而官方大数据在某种程度上消除了信息不对称,以及金融机构借助大数据努力建立的信息优势。但是,“金钱永不眠”,为谋求信息优势,金融投资机构将无止境地开发各种大数据资源。由此看来,大数据将永远保持草根本色。
变革投资实践
投资思维的转变,必然引发投资实践的变革。站在大数据时代的历史拐点,证券投资界需要思考大数据思维、技术与资产相结合,对投资实践可能产生的深远影响,据此进行投资方法、技术和流程的全方位变革。只有如此,这个传统行业才能实现自我更新,重获引领其他行业的理念与技术优势。
信息之变
证券分析师的工作是处理信息,评估各类信息对金融市场的可能影响,据此形成投资观点。虽然他们的观点千差万别,但是所掌握的信息资源几乎雷同,从宏观经济到微观企业经营,这些信息全部来自公开渠道。捣鼓这些信息不仅做不出新菜,靠它赚钱也越来越难。相比之下,大数据却是片“蓝海”,它从信息采集方式、信息分析理念等方面,对投资实践产生了革命性影响。
尽管大数据很具诱惑性,中国投资机构对它的认识与应用还不多。向来对新技术接受和应用较快的证券投资界,却落在了政府和其他行业之后。政府的秘诀就在于信息获取方式的改变。人民网在2008年组建的舆论监察室,可对线上媒体、网络社区、论坛以及微博等自媒体的意见领袖实现24小时监测,实现了从民意搜集到综合信息服务的转型。它面向市场推出的《网络舆情》,可被视为网络时代最有代表性的大数据产品之一。同时,由于社交媒体空前流行,已成为社会组织平台,对政府来说有监控的必要。2013年五六月,土耳其持续爆发反政府示威,当时土耳其总理就曾公开指责社交媒体对社会的危害,并要求Facebook协助提供部分用户的数据。反观之下,投资界似乎还生活在石器时代,既没看到大数据的利,也没看到它的害,信息获取方式依然是等着各种官方数据、企业财报的发布,投资分析重回顾而轻前瞻。总之,一切还是“看着后视镜向前开”。
投资决策信息转向大数据,首要的问题是大数据的搜集。作为公共资源的大数据较少,虽然在政府推动下,城市交通、教育、住房、公共设施、犯罪和无线网络热点位置等数据,可在大数据平台上共享,但这些与投资所需的仍相去甚远。为获得大数据资源,投资机构需要有创造性的解决方案,比如自主跟踪线上的大数据统计。就有这样的投资经理,为跟踪某家公司主打产品的销售情况,每天查询、记录电商成交与顾客评价。西蒙斯也曾提到,其麾下研究团队为搜集数据,会前往美联储影印其未入库的利率数据,同时也会手工搜集区域性的经济数据等。除此之外,某些投资机构也可与手握大数据的互联网企业合作。
但不管使用什么方式,对大数据资源的搜集不能触及法律红线。某些机构为获得非常规信息,有时候会铤而走险,彭博社算是典型。它比较偏执地搜集数据,从用户终端的键盘敲击,到重要客户的即时位置,从公司创始人每次访问家族基金的记录,到租用卫星拍摄石油库存的照片,直至发展成丑闻。
谷歌引领风险投资界新趋势
谷歌旗下的风险投资更关注投资交易的科学性,在资金开始运作之前必定对数据的搜集、核对和分析做足功课。谷歌风投是第一家重度依赖数据的重要风险投资机构,谷歌拥有全球首屈一指的数据资源和云计算基础设施,所以,“贸然凭直觉进行投资是愚蠢的做法”。谷歌风险投资利用来自学术文献、以往经验和初创企业及其创始人的数据不断改进算法,即便对从未创业的大学生都能建立量化记录。
其实,证券市场自身也坐拥大数据。每笔交易和报价都可视为投资者意见的表达,反映了投资者对股票价格的预期。挖掘市场交易数据这座富矿,从中找出盈利的投资策略或者规律,也是量化投资早就在做的事情。
算法是关键
在大数据时代之前,证券分析师认为数据资源稀缺,所以尝试各种办法,玩尽花样,试图从有限的数据中挖掘出更多信息。但在大数据时代,数据的生产速度像核裂变般迅猛,投资分析的短板不再是数据数量,而是对大数据的处理能力。
要增强数据处理能力,只靠招兵买马、扩充研究团队的老办法当然不行。大数据的海量、动态和非常规,不是证券分析师用Excel(微软公司运算表软件)就能对付的。在海量数据中过滤掉不重要的数据,并把数据处理成可快速分析的格式,需要云计算、机器智能等针对大数据的专有解决方案。更智能的计算机可以拯救被大数据淹没的金融“苦力”,让他们腾出手来,有更多时间去干更有价值的事——琢磨大数据的算法。形象地说,算法设计是对大数据所蕴含信息的提炼过程,也是整个大数据寻宝游戏的决定性环节。而且,大数据往往是信息的贫矿,单位体量数据的信息含量比传统样本低很多,但它以量补质,填补了样本数据的信息空白。这也决定了挖掘大数据的规律或者信息,是项极其烦琐和复杂的工作。譬如,在谷歌预测流感、电影票房等经典案例中,为提高模型预测的精准度,研究员可能需要处理成千上万甚至上亿个的预测方程。
挖掘大数据算法,靠金融财务的科班出身的研究员不够,还需要复合型人才。国外以数据科学家为主导完成对大数据的算法设计,这个职位的性质类似于20世纪八九十年代华尔街的量化投资分析师。对数据科学家的要求是既精于数据建模,又熟悉业务决策,其薪酬自然比资产管理公司内的信息技术工程师或者金融分析师高出不少。
大数据、云计算——投资新利器
美国Kensho Finance公司在云计算的大数据处理技术的基础上,开发出了Robotrage运算软件。该软件可以根据美国证券交易所和纽约证券交易所两个交易所的股票,结合收益、经济指标和政治事件等进行相关性计算。据该公司称,华尔街投资机构里,只有桥水和文艺复兴科技公司等少数10家顶级量化对冲基金,才有如此尖端的投资利器。而这些世界上最成功的对冲基金对其投资策略极为保密,普通人根本无法借鉴。例如文艺复兴科技公司倾向于雇用有经验的密码工程师和数学家,并与他们签署竞业禁止条款。为弥合对冲基金与个体投资者之间巨大的技术差距,Kensho Finance计划将这个“核武器”卖给付费客户。只要一点费用,散户就将拥有顶级对冲基金的技术优势。
要注意的是,算法与数据分析速度之间需要平衡。要做到算法的尽善尽美是十分耗时、耗力的,而对投资来说,快无止境,越快越容易出错。在证券投资的世界,快与慢只是个相对的概念,只需追求相对的安全边际。而且,为节约计算时间,大数据分析可着眼于增量数据,并适度降低对算法的精准性要求。总之,算法与速度之间的理想平衡,应以投资策略的有效性为前提。
跟上基本面
传统的数据与信息,不论是GDP、CPI、PMI等宏观经济指标,还是微观的企业经营数据,都只是现实世界留下的历史投影。投资分析需要把握实时动态,紧跟事物最新发展,靠“历史老照片”不行,必须依靠大数据的微拍、实拍。作为信息革命2.0版,大数据将革命性地提升信息搜集、处理和分析的速度,让投资者的认识与时俱进,始终站在事物发展的最前沿。
基本面在不停刷新,事物微小变化在低频率数据中难以显现,大数据会使你有“春江水暖鸭先知”的认知优势。举例来说,分析固定资产投资的变化,等官方数据或有长达一月的时滞,如果跟踪日本小松集团的小松挖掘机的工作小时数,却可以将观察与基本面同步到每一天。因为这些挖掘机大多安装了传感器,可实时采集并返回挖掘机工作时间等数据。而全球最大的工程机械制造商卡特彼勒也可利用更高频率的销售数据,去研判世界经济的复苏情况,还能通过比较亚太、拉丁美洲、欧洲等大区销售额的动态变化,判定各区域经济增长差异。再者,全球信用支付公司VISA有世界最大的交易和信息处理网络,它的数据部门搜集和分析了来自210个国家的15亿信用卡用户的650亿条交易记录,以此预测客户的消费趋势、当地商业的发展环境,然后把这些数据结果卖给其他公司。另外,现在观察某家企业的产品销售情况,可以直接跟踪淘宝、京东等电商的销售数据,无须等到其发布季度经营报告。如果不嫌麻烦,还可实时监控更新的原材料购进、制成品售出价格,对上市公司经营做出动态研判,同样能获得先财务报表一步的信息优势。
不只是经济基本面,连政策的基本面也可以用大数据捕捉到。就拿2014年春季股市上炒得沸沸扬扬的特斯拉概念来说,当投资者还不确定国家电网能否与特斯拉携手时,特斯拉中国区负责人已在微博上发出了项目经理和技术人员的招聘广告。如果这一条信息还不能证实特斯拉将与国家电网合作建设充电站的话,有心人还会注意到,某位特斯拉客户的微博同时也发布了这么一条消息:“特斯拉公司与国家电网的人都过来了,测量了下充电时的电流情况,还有充电时间。”将这些琐碎的信息关联起来,进而合成的图像与真实情形相去不远。
总之,大数据时代的投资分析再也不用等和靠。因为投资者等不起,而且等到的信息再也靠不住。想在瞬息万变的市场里赚钱,必须以大数据思维捕捉更新、更全面、更多元的信息资源,再以更快捷的方式进行基本面研究。
预测力是种计算能力
投资面向的是未来和未知,大数据的强项就是预测,在未知世界里寻找相对的确定性。大数据的预测能力从何而来?一是因为市场从来不会随机漫步,它们是投资者行为的结果,而投资作为人类行为,尤其是群众行为,从来就不是随机的;二是大数据将人类行踪尽收眼底,对个体信息实时跟踪与更新,对人类行为有最真实和深切的把握。
尽管投资者学过有效市场假设,了解预测市场的风险,但是关于证券的电视节目总喜欢请教投资专家对市场的看法。为什么?因为个人投资者想从专家们的多空分歧中寻得投资操作的启示或信心。《中国证券报》在每个季度会开展投资者调查,搜集散户们对下个季度的市场观点,并调研投资者对后市的乐观程度。如果你认为这种预测方式有效,可以考虑,但建议还是谨慎为妙。因为预测是门科学,有诸多限制条件,专家们或某个散户随口说涨跌,还真算不上是预测,可能跟瞎掰没两样。
法默认为,人类世界存在两种复杂性,一种是内生性的复杂性,即在人类的经验之外;另一种是噪声系统的复杂性,隐藏着可探索的秩序。前者是真正的未知世界,这种情形不能做预测,因为预测的可靠程度与算命是一样的,猜中纯属运气。后一种复杂性好似浓雾弥漫的街道,尽管人们视野模糊,但是还有迹可循,能够预测的也就是这类情形。
预测本质上是种计算能力。1997年,IBM研发的计算机深蓝击败了国际象棋大师加里·卡斯巴罗夫,依靠的就是计算机的大数据技术。因为象棋高手只能推演两三步,计算机却可以推演到5步之外,预见到更多信息。因此,计算机根据对未来的预测,找出人类棋手的软肋,诱导他进入圈套,就能战胜对方。商品价格预测公司Decide.com成立的宗旨是帮助客户省钱,增强消费者在做购物决策时的自信。它通过分析近400万产品、超过250亿条价格信息,告诉客户何时才是购买某商品的恰当时机。出于好奇,我访问了这家公司的网站,却意外发现该公司已经被购物网站eBay收购。现在的Decide.com已不对消费者开放,它转而帮助eBay网站上约2 500万卖家制定商业决策。我为消费者及投资者少了这个大数据的预测平台而可惜。试想一下,当商品价格可以被预测,它的价值又何止是帮客户在购物时节约一两百美元,更可以在投资领域派上大用场。
上面所说的《中国证券报》就散户们对后市看法的调研不可靠,并不是因为两根大阳线或大阴线就改变了散户们的观点,而是因为散户们预测的方法不科学,而且这种调研也存在方法上的缺陷。虽说股市是场“选美比赛”,普通大众有投票权,但是以往,群体智慧没法利用,因为电话调查等总是有偏颇,但是在互联网时代,我们有了新的民意搜集机制,除了直接的网上调查问卷之外,还有看新闻点赞、预测市场的交易网站等。如Foresight Exchange、Intrade等网站,以虚拟或真实货币为赌注,对某些事情的结果进行预判。由于涉及虚拟或真实财富,参与者的非理性噪声可降至最低,其交易结果自然更能反映群体智慧。
大数据的预测能力对于投资的价值,主要表现在两个维度:一是,它可以直接预测证券的涨跌,这一点稍后举述;二是,它可以预测证券相关变量的变化,间接揭示投资机会。譬如,谷歌用某电影预告片的搜索量、前几部同系列电影的票房表现,以及档期的季节性特征,可提前30日预测出该电影票房收入。这一预测对投资机构当然有价值,当基金经理看着《致青春》票房上涨,而猛追光线传媒等受益个股时,有些人却凭借谷歌票房预测模型,提前一月从容布局投资机会。
大数据扭转择时困境
有人说,投资是件再简单不过的事,低买高卖而已。但脱离了时间讲空间,对投资没有任何意义。什么时候买和卖,才是投资最重要的问题。大家都知道择时很重要,但是很少有人能做到。我们常听到投资者抱怨,说自己预见某只股票将要大涨,但买了就被套,亏得一无所有,它却开始大涨了。
需要记住,有预见力与把握投资时机,完全是两回事。美国次贷危机因房地产泡沫而起,预知这场房地产泡沫的破灭,成就了若干位市场先知。早在2000年,罗伯特·席勒在其著作《非理性繁荣》中,就注意到了美国的房地产泡沫,这或许是他荣获2013年度诺贝尔经济学奖的主要原因之一。英国经济政策研究中心经济学家迪安·贝克在2002年也提到了房地产泡沫。《经济学人》杂志2005年6月刊发了题为“美房地产泡沫为史上最大泡沫”的文章。2005年8月,诺贝尔经济学奖得主保罗·克鲁格曼撰文,讨论这轮房地产泡沫及其必然破灭的后果。尽管在大方向上几位说得很对,但根据这些预言进行投资,你可能早被市场清洗在黎明到来之前。例如,席勒早在2009年就表达了对上海、深圳等地的房地产泡沫的担忧,但是现在看来,那时还真是不可多得的投资时点。
这些专家的预见力过于超前,看到了普罗大众所不及的将来。但可悲的是,决定现在的往往是那些短视的人。想知道短视的多数派的想法,以前靠抽样调查,现在关注网络舆情就可以了。《信号与噪声》里谈到,美国民众对房地产泡沫的持续关注发生在2004年以后。2004年1月至2005年,谷歌里“房地产泡沫”的搜索量迅速增长了10倍。而且,2001年带有“房地产泡沫”这个词条的新闻只有8则,2005年时蹿升至3 447条。不仅如此,网络舆情观察还实现了精准打击。比如,对“房地产泡沫”这一词条关注度最高的地方,恰好是房价迅猛飙升的加利福尼亚州。这一情况与2013年冬天中国“雾霾”一词的网络出现频率异曲同工。“雾霾”一词在新浪微博上出现频率最高的时点是上午八九点,想必人们刚到公司就抱怨。更厉害的是,新浪微博还可跟踪呈现提及“雾霾”最多的区域,比如江苏、上海等地,实现准确定位。前文提到2013年5月下旬“防风险”新闻的暴增,与中国金融市场“钱荒”的叠加,说的也是同样的故事。
上述案例说明,投资需要把握时机。时机不到,投资即使看对也会做错。想要看对又做对,就需要关注普通大众的想法。《技术元素》说,目光聚集的地方,金钱必将追随。市场营销学讲“眼球经济”,同样指的是群体的普遍关注。大数据可贴近、跟踪普通群众的所思所想,找到他们关注的爆发时机,从而使投资做到有的放矢、御风而行。由此可见,大数据将一改小数据时代选不准时机的尴尬困境,极大地增强投资者的择时能力。
大数据时代的热点投资
热点投资的魅力在于兵无常形,没有常法可以遵循,每一次的热点都是独一无二的剧本。这么多年,公募基金很少在热点投资中获利,原因不仅是公募基金缺乏想象力,还欠缺投资手法。热点投资根本没有谋划布局的时间,“编剧”或者“导演”不止一个,通常是集体作品。这种投资讲究御风而行,逆风则停。
要想把握这种投资机会,利用大数据可能更占优。新浪微博的数据中心掌握了微博平台的大数据资源,可以实时提供各种排行榜单,统计如综合、时事、影视、名人、财经、体育等领域内最新出现的网络热词,还提供各类微博人物、机构的影响力排名。这些网络热词实时采集、时时更新,能够反映网民大众在当下的重点关切。而通过对热词背后信息的解读,某些机构可以挖掘出投资机会,并根据用户关切的热度消长,准确选择买入与卖出时机。
情绪也是投资策略
利用情绪赚钱的想法并不新鲜。情绪是非理性的,非理性的投资者市场行为,自然会给理性的投资者提供盈利机会。巴菲特在2004年写给投资者的信中曾提到,他的投资哲学概括地说,就是“在别人恐慌时贪婪,在别人贪婪时恐慌”。道理虽然说得通,可问题在于怎么去把握“贪婪”与“恐慌”?如今,这个问题因社交媒体的流行而迎刃而解。通过对社交媒体实时且非结构化的数据进行搜集和处理,我们可以捕捉到社交群体的情绪。下一个问题在于,情绪与证券价格波动有怎样的关联?
金融学对情绪与证券价格的关系早有研究。将时间拨回到社交媒体的大数据之前,研究者还没有想到直接度量公众情绪的办法,于是选择了五花八门的代理指标。赫舒拉发和寻威研究了1982~1997年每个交易日早晨的天气,比如晴、雨和雪等,分析国际范围内26个股票交易所的市场收益率与天气存在的可能联系。他们研究发现,早晨的晴朗天气与当天收益率显著正相关,而雨雪天气与股市收益率的相关性不强。这项研究表明,早上给投资者一点阳光,股市就灿烂。爱德蒙斯等人认为,国家足球队在国际赛事中的比赛失利,将使该国投资者心情沉重。于是,他们选取39个国家足球队在大小赛事的比赛结果,作为该国投资者第二天郁闷心情的代理指标,考察投资者心情郁闷时对股市收益率的影响。他们研究发现,一国足球队的比赛失利确实会导致股市下跌,而且在大型比赛(如欧洲杯、世界杯)中失利,该国股市将有更大跌幅。