尽管通过代理变量,研究人员发现情绪与股市收益有显著联系,但这些毕竟不是最直接的证据。随着Twitter、Facebook等社交媒体的兴起,以及非结构化分析工具的发展,学者开始用社交媒体的文本数据分析大众情绪。其中,最为知名的研究来自美国印第安纳大学的博伦及其合作者。他们利用两种不同的情绪跟踪工具,分析和整理Twitter上将近1 000万条信息。工具之一是匹兹堡大学开发的一个开源软件包Opinion Finder,工具之二是由这几位研究者开发的基于情绪状态量表的算法。他们将Twitter上所有关于心情的词汇归类为6种情绪类别,分别是冷静、警惕、确信、重要、和善、快乐。他们的实证研究发现:在这个基于情绪状态表的心情测量法中,只有“冷静”具有预测价值,靠这个情绪指标能够预测未来3~4天道琼斯指数的涨跌,准确率可高达87.6%。
与博伦等人的研究互补,慕尼黑工业大学的两位学者对Twitter情绪与证券价格的关系做了进一步的分析。他们将分析对象界定为含股票代码和美元符号的信息,比如“AAPL”代表苹果公司等。两位学者借用计算语言学中的另一种情绪分析法,对提到标普100指数成分股公司的25万条信息进行逐日拣选,看其是否给出“买入”、“持有”或“卖出”信号,并对这些信号与第二天证券收益的关系进行计量检验。他们研究发现,关于某只股票的信息数量、看涨程度,与这只股票下一个交易日的收益率、交易量有显著的正向联系。不仅如此,他们依据Twitter买入信号的强烈程度,构建了一个投资策略,即买入最看涨的3只股票、卖空看涨程度最低的3只股票,半年内可获得高达15%的绝对回报。
这些研究绝非纸上谈兵,还可以直接,运用于投资实践。在2011年5月16日,一家总部设在伦敦的对冲基金管理公司Derwent Capital Markets,推出了欧洲第一只以社交媒体情绪为策略的投资基金。该基金公司创始人兼基金经理保罗·霍汀受博伦等人研究的启发,对这种投资策略深信不疑,并与博伦签订了使用其算法程序的排他性合同。霍汀所坚持的投资理念是“市场受情绪驱动:当人们贪婪时,股市就会上涨;而当人们害怕时,股市就会下跌”。从霍汀管理的基金业绩来看,他的投资理念和策略似乎可行。
欧洲第一只基于社交媒体情绪的策略基金
保罗·霍汀管理的对冲基金Derwent成立于2011年5月,注册在开曼群岛,初始规模约为4 000万美元。该基金的投资标的包括流动性较好的股票及股票指数产品。他们的投资策略是通过实时跟踪Twitter用户的情绪,以此感知市场参与者的“贪婪与恐惧”,从而判断市场涨跌来获利。
在该基金公司的网页,你可以看到这样一句话:“用实时的社交媒体解码暗藏的交易机会”。该基金的基金经理,同时也是基金公司的创始人保罗·霍汀在基金宣传册里表示:“多年以来,投资者已经普遍接受了一种观点,即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪指导投资。”
我们可以从该公司的网站上查到该基金的业绩,2012年的投资收益率为3.5%(2012年7月以后的数据),2013年为23.77%,2014年1~2月为3.73%。在有数据可查的月度大多实现了正收益,虽然收益的波动率不小,但总体上还算是有竞争力的对冲基金产品(见图2-1)。
图2–1 Derwent媒体策略基金的历史表
看到投资机构对社交媒体的着迷,StockTwits网站整合了社交与投资的联系,为投资者打造有关股票新闻、投资建议的共享平台。同时,它也是投资者情绪和意见的搜集工具。比如,它提供“热点地图”的功能,可以实时搜集过去若干天讨论最热烈的股票或者行业,为投资者把握市场情绪提供方便。另一家公司Market Prophit在2013年发布了面向机构与个体投资者的金融大数据产品,通过语义算法分析Twitter里的金融对话,将其内容量化为“–1(极度看空)”与“1(极度看多)”之间的投资建议。在该公司官网上,还有对这套投资策略有效性的介绍,有兴趣的读者可以查阅。
量化投资是大数据的天然实验室
如果说价值投资是在垃圾中找珍宝,成长投资是在珍宝中找便宜,那么量化投资则是在数据中找规律,用统计学、数学的方法,从历史数据中回测、追踪、寻找能够带来超额收益的各种规律。在方法论上,如果价值投资和成长投资是用鱼叉捕鱼,那么量化投资是用渔网捕鱼;在交易执行上,如果价值投资和成长投资是点射的步枪,量化投资就是扫射的机关枪。
由于金融市场自身拥有大数据,传统量化投资更是以各种软件直接处理交易数据,反而可能比其他人更容易误解大数据。相比其他,市场现有的量化投资策略更需要转型,因为大数据已经重构了交易。之前的量化投资在技术上并不复杂,无论是因子选股、统计套利、事件驱动,还是高频交易等,均是通过迅速找出价格错位或者反应滞后来获利。随着市场效率提升,这类获利机会将越来越少。比如在沪深300期货推出的早期,期现套利、跨期套利机会层出不穷,但现在要想通过这种机会获利,收益可能连塞牙缝都难。
穷则思变。为了变穷途为坦途,传统量化对冲基金正在探索新的交易策略。比如,国外高频交易商在利润空间受挤压之后,对高频交易也做出了调整,开发出“策略时序交易”这一新武器。这种技术由程序算法来识别和分析交易数据,捕捉其他市场参与者留下的交易痕迹。如果某机构为降低价格冲击,将大额交易单拆分成1 000股等分成交,那么程序算法技术就可能识别这种交易模式,并根据这种模式做出相应的交易指令来获利。这种交易策略的本质是利用投资者之间的博弈,结果增加了其他投资者的交易成本,或者说占了其他投资者的便宜。
另外,某些对冲基金也开发了基于媒体或情绪的程序交易系统。前面已经介绍的Twitter情绪交易策略,以及对冲基金基于白宫爆炸新闻的交易策略,就是典型代表。实质上,这种投资策略可以归为事件类。桥水也比较在乎事件投资策略,该公司搜集了历史上各类大小事件,并对它们对股票价格的影响进行了量化分析。在事件触发的瞬间,桥水的计算机可以在第一时间找到受影响的证券品种,并据此进行多空交易。
量化投资传奇
詹姆斯·西蒙斯是美国的数学家、投资家和慈善家。作为最伟大的对冲基金经理之一,他是量化投资的传奇人物。
西蒙斯1958年毕业于麻省理工学院数学系,1962年在加利福尼亚大学伯克利分校获得博士学位。他曾任教于麻省理工学院、哈佛大学和纽约州立大学石溪分校。陈–西蒙斯规范理论就是以陈省身和他的名字命名的。1976年,西蒙斯摘得数学界的皇冠——全美维布伦奖,数学事业达到顶峰。之后,西蒙斯转入金融界,于1978年创立了私人投资基金Limroy,5年后创立文艺复兴科技公司,并在1988年推出了公司旗舰产品—— Medallion基金。
Medallion基金以计算机运算为主导,运用数学模型在全球各种市场上进行短线交易。1989~2009年,西蒙斯操盘的Medallion基金平均年回报率高达35%,较同期标普500指数年均回报率高出20多个百分点,比“金融大鳄”索罗斯和“股神”巴菲特的操盘表现还高出10多个百分点。即便是在次贷危机爆发的2007年,该基金的回报率仍高达85%。用数学模型捕捉市场机会,由计算机做出交易决策,是这位超级投资者的成功秘诀。
风险控制新进阶
前面讲投资的大数据应用,讲的是“矛”,接下来谈“盾”。大数据骨子里是防风险的,因为应用大数据对算法、预测精准度有极高的要求,时刻验证方法与市场的“知行合一”。
关于风险控制,《趋势戒律》里有句话相当经典:你无法改变风向,但可以调整自己的风帆。身边多数投资者的问题是不能改变风向,不时调整自己的风帆,可就是无法感知风向。套用徐志摩的诗句,是“我不知道风是在哪一个方向吹”。可见,风险控制的起点在于对事物的正确认识。大数据正是对事物的高度写实,一方面记录事物的细微变化,有敏锐的洞察优势;另一方面,可完整呈现事物规律,帮助投资者对风险状况做出防范与提前应对。凡此两点,便是大数据对于风险控制的价值。
在监控投资的市场风险方面,大数据将大有可为。在资产配置层面,大数据对相关关系的敏锐感,为投资者明察资产之间的联动,动态调整资产的配置头寸提供优势。运用相关思维,大数据还可监控股市的运行状态。比如,投资者害怕股市的崩盘或者“跳水”,这在大数据看来有据可查。研究股市复杂性行为的学者认为,预测和揭示股市“跳水”的指标是联动指数,这也是一种动态的相关指数。他们研究发现,如果股市处在正常状态,股票应该有涨有跌,个股之间的相关性较弱,但是在“跳水”或者其他不利情况发生时,股票之间的联动性增强,股票会突然呈现同涨同跌的特点。这一点中国股民应该深有体会,不仅因为A股市场经常出现同涨同跌的现象,还有2013年爆出的“816乌龙指”事件。如果投资机构对市场风险有大数据的监控指标,它们或许能发现,当天上午股指突然飙升,伴随上证180指数成分股的联动性增强,而其他个股慢了半拍,股指期货的交易也没有同步跟进。这些事实足以说明市场不正常,可坊间还在流传种种政策利好。
将眼光放得更长远些,大数据还可记录股市由过热到恐慌,甚至崩盘的全局景象。物理经济学及物理金融学借用物理学的方法论研究股市危机。这些学科认为,系统中彼此相关的单元共振,将会导致整体行为的剧烈变化,如水加热后沸腾、蒸发,积雪增压后发生雪崩。所以在正常的股市,应该是投资者独立决策,投资行为不是过度跟风,股市涨跌的关联也是随机的。但是到了过热阶段,股民们不再独立决策,买卖股票纷纷效仿他人,导致股票间的联动性增强。这种集体行为达到临界点,投资者的好日子就到头了。
股票联动性与股票崩盘
哈蒙等人在研究中构建U函数,用来指代集体行为的一致程度。当该函数值逐渐趋近于1时,表示集体行为渐趋临界点。为验证该函数对股市崩盘的预测性,各时间点的函数值以此前12个月的平均值替代。他们研究发现,2000~2003年,美国股票市场的行为一致程度逐渐上升,并且在2003年之后的平台期逐渐下行,于2009年达到临界点,显示股民在这一时间更加偏好对股票进行相同的操作,与2007~2009年美国股市的崩盘相呼应。同时,他们将数据回溯到1985年,发现每次股市崩盘前4年,股票之间的联动性都会上升。
大数据还可以管理流动性风险,这听起来有点不可思议。以与余额宝对接的天弘基金为例,外人羡慕它半年即突破千亿的规模增长,却看不到天弘基金所做的技术准备。为了应对24小时赎回,并获得有竞争力的投资收益,天弘基金需要对流动性做到提前安排。于是,支付宝每天会分6个时点,将淘宝、天猫用户通过余额宝赎回、提现、消费和转账数据报给天弘基金。对这些数据进行建模分析,天弘基金就能对第二天的申购赎回额进行大致预测。毫无疑问,这种风险管理能力的增强是需要成本的。旁人想不通,在余额宝规模飙升的同时,天弘基金2013年未经审计的盈利情况竟为亏损。钱都去哪儿了?当然是花在信息技术和数据处理中心建设上了。
对于投资从业人员的道德风险,大数据比道德说教、规章制度更管用。在现实中,监管机构或投资公司秉持“人心本恶”的信条,不让投资人员个人买卖股票,亲属投资股票也须备案。基金公司的投资研究人员经常抱怨,交易时间上缴手机,在工作计算机上不能聊QQ和微信。其实,这些行为都是因噎废食之举,少了与外界的及时沟通,说不定还会影响投资业绩。在大数据时代,这些不合理的规章与规范可以废除。有了明察秋毫的大数据,投资机构从业人员的道德风险也会降低。
需要指出,基于大数据的风险管理必然走向智能化,毕竟这不是普通人可以干的事。2011年,IBM的超级计算机Watson战胜了电视智力竞赛Jeopardy的冠军;2012年,中国的无人驾驶汽车在京津高速上的时速高达一百多公里,它不仅预测被超车的风险,其间还超车33次。这足以表明,一个基于大数据的智能时代已经来临,包括风险管理的许多工作都可由计算机完成。Watson在参加智力竞赛一年后,在华尔街找到了一份风险管理的新工作,帮助花旗银行管理证券组合风险,即通过监控交易指标、新闻和经济数据等,为证券组合构建、调整提供风险方面的建议。花旗允许Watson在家上班(即待在IBM),通过云平台提供交互式服务,与其他员工一样领取绩效工资。下一步,IBM还想将它改造为选股高手,届时它可以领到双份工资。
投资新标的
大数据改变投资思维、方法,同时也改变了投资标的自身。2013年,国内股市的大数据概念异常火热,在追逐似是而非的概念股前,我们有必要弄清一些基本问题,比如大数据如何定价?经营何种大数据业务的公司,会有更大成长前景?必须承认,大数据是传统定价理论与模型未曾预料到的“怪胎”,这也是新生事物对投资界出的难题。
大数据定价,答案在风中
大数据的定价是个问题。在提交给美国证券交易委员会的IPO申请文件中,Twitter披露过去其一年的营收为5.34亿美元,亏损额为1.43亿美元。据市场人士预计,Twitter在2015年之后才有扭亏为盈的可能。对于这个有2.32亿活跃用户、营收增长迅猛的新创公司,不知道你会怎么定价,但市场定价是这样的:IPO发行价每股26美元,按此价格,公司估值181亿美元,为2013年预期营收6亿美元的约30倍;首日开盘价45.1美元,按此价格,公司市值约为245.5亿美元,为2013年预期营收的约41倍,市净率为约35.4倍。
Twitter估值超出美国铝业公司等传统公司,这不足为奇。但是同为互联网、大数据公司,它的估值也高出了许多同业公司。截至2013年11月,谷歌公司的市盈率和市净率分别为29倍和4.3倍,Facebook的市盈率和市净率分别为111倍和8.8倍,LinkedIn的市盈率和市净率分别为763倍和10.4倍。由这些估值的对比,衍生出两个问题。第一个问题是,与传统行业的定价理论或模型比,互联网、大数据公司定价的范式是什么?是否“无招胜有招”?从Twitter、去哪儿网的上市热炒,到某些商界领袖撰文警告新一轮互联网泡沫行将破灭,界定和评估互联网泡沫,应按照怎样的维度或标准?第二个问题是,怎么理解这些互联网和大数据公司的定价差异?Twitter和Facebook的定价有差异,那么新浪微博、微信和腾讯QQ是否也应有差异?差异的本质是什么?
大数据怎么定价,这可能不是单个问题,而是一连串的问题。《社交红利》一书的副标题是“如何从腾讯平台获取流量、用户、收入”,作者徐志斌提出了一个社交平台的收益等式,即收益=信息×关系链×互动。从字面上简单理解,该等式的意思是让信息在关系链中流动。这或许是大数据的商业逻辑,乃至定价公式。至于大数据公司之间的定价差异,或许就在于上述公式三个变量的差异。因为互联网公司拥有的大数据,在特性方面千差万别。拿中国几家坐拥大数据资源的互联网企业来说,百度主要是用户搜索数据,以及利用网络爬虫技术搜集的公共网络数据;阿里巴巴是在线交易数据、小部分的社交数据;腾讯微信、QQ掌握的是用户个人和社交关系数据。大数据资源不同,决定了收益方式的差异,同时也影响公司估值。
锁定大数据企业
布局大数据产业线,这是一个现实的投资问题。2013年,多数人没见识过大数据,可市场上已满是它的传闻。在相关概念股一阵热炒之后,投资者才赫然发现,要获得更大的投资收益,对大数据产业需要布局长远。
按照一些专家的预测,有三类公司即将成为大数据时代的主角。第一类是拥有数据资源的平台公司。国内互联网特别是移动互联网的数据入口之争,虽然其格局逐渐清晰,但是仍存在较大的不确定性。但不管结果如何,坐拥大数据资源的公司将处于大数据产业的上游,它们可以“靠山吃山”,靠“大数据”吃“大数据”,无论是自己挖掘,还是授权给有技术、有思维的企业,数据平台公司都可获得稳定收益。
有望成为大数据主角的第二类公司,是有大数据挖掘技能的技术性公司。它们面向第三方的个性需求,以技术和算法为其提供增值服务。目前,大数据技术尚不成熟,这块领域虽然前景广阔,但是技术门槛偏高。大数据时代的数据挖掘,一是需要使用跨界数据;二是需要处理非结构化数据,如文字、语音和视频等;三是同质化产品时代不复存在,私人定制、千人千面成为新常态。满足这三个要求的同时,如果服务收费还实惠,这样的公司即使无法成为“主角”,也会是主角最耀眼的陪衬。近年来,数据处理公司的重要性日益体现,成为跨国公司争夺大数据产业的战略高地 [4] 。
第三类可能成为主角的公司,是有大数据思维的咨询服务公司。之前我们已经谈到,大数据时代最缺的不是投资机会,而是大数据思维。维克托认为,大数据思维是一种意识,这种意识使人保持某种敏感,想从相关联数据的处理中,找出千百万人急需解答的问题的答案。如果一家咨询公司具备大数据思维,就有可能成为大数据时代的尼尔森、麦肯锡,凭借对客户需求的把握和对数据资源、数据分析技术的熟悉,为各行业客户提供大数据的解决方案。
除了关注度高的主线与主角之外,有些业务可以成就配角,比如大数据时代的中间数据商。大数据挖掘需要用到跨界数据,但是各家数据平台均视数据为战略资源,如何走出“数据孤岛”,实现资源的聚合利用?这就需要牵线搭桥的“月老”、掮客,提供跨界数据的对接方案。利用与数据平台公司的协议和授权,对应第三方机构的数据需求,中间数据商可跨界整合大数据资源。
除了主配角,这部戏余下的角色就只有龙套了。大数据的采集、存储、分析,在软硬件方面支出巨大,为传感器、存储器等硬件设备商,以及计算机软件和云平台提供方创造了极大的业务空间。别以为跑龙套的不起眼,或许这是个具有高性价比的工作。结合计算机系统的去“IOE运动” [5] ,中国相关公司或许有更大成长机会。
反思大数据
有人认为,数据越多,问题越多,大数据也可能是大忽悠。《信号与噪声》中提到,尽管数据在快速增长,但是有用的信息却没有变化,增长的只是噪声。不看好大数据的人在想,客观信息或者真理是个恒量,数据却是个增量,执着于不断增长的数据,人类将会迷失自我。
另一个质疑,是大数据可能误导人类:神化程序与机器智能的后果,将是人类灵魂的自我放逐。有人认为忽略经验与直觉,一切唯数据是从,是一种大数据泡沫。譬如,对Netflix用大数据算出的美剧《纸牌屋》,有批评者认为这只是个噱头。电影工作者更是声称,大数据再厉害,也抹不去创意的价值。
这些观点无疑有其合理性,大数据当然不能统治人类,它只是一种服务于人类的思维、技术和工具。但是我们不能否认,在移动互联时代,大数据促进了信息挖掘、信息共享与信息透明,拓宽了人类对自然和自身的认知边界。只有更完整地认知事物,人类才能更有效地改造事物。也只有更好地认知人类这个客观存在,我们才能更好地把握民意与潮流,真正做到“为人民服务”。所以,大数据对人类的作用是协助而非奴役,把我们从无创意的工作中解放出来,更好地发挥创造力,这一点对金融投资业尤为重要。
未来不可预测
预测未来,这是个哲学命题。第一个疑问是,过去能否预测未来?就人类行为而言,这一点似乎是确信无疑。吃完饭后散步,晚上睡觉前网购,周末看场电影,还有个人审美偏好等,这些习惯与性格可能是固定的。通过对这些习惯与性格的分析,当然可以预测某人下一步行为。虽说“一个人不能两次跨入同一条河流”,但是前一次的跨入行为对下一次跨入仍有指导意义。
第二个疑问是,未来真不可测?预测的未来必然不等于未来,因为人们基于对未来的预测采取行动之后,实际上的未来又产生了相应变化。经济学里的蛛网模型讲的就是在有限理性的条件下,由于信息与决策的时滞,人类陷入决策的怪圈。
搜猪网通过信息技术搜集众多养猪户的养殖信息和疫情信息,汇总这些信息以后,再将分析结果返回给每个养猪户,给他们提供制定生产经营决策的支持。搜猪网作为养猪的大数据平台,为大户养猪提供了前所未有的信息资源,但这又改变了猪肉量价的蛛网轨迹。某些在搜猪网成立之前尚能预知猪价的养猪大户,曾在搜猪网上留言:“自从有了这些数据,我对肉价走势的预测就没对过。”
这个悖论对投资同样成立。当证券分析师集体乐观或者悲观时,市场总会走向反面。在2012年前三季度股市低迷之际,卖方策略分析师多数看空第四季度的市场,反而看多2013年第一季度。在这个时候,安信证券前策略分析师程定华有个论断,是对预测悖论最好的诠释:“当所有分析师都看好明年一季度,看空今年四季度时,要么行情提前,要么行情压根没有。”
就投资而言,大数据将永远是先行者的游戏。当大数据埋藏的信息为多数人发掘,它对未来的预测能力又将回到小数据时代的水平。大数据之于投资的意义,是快人一筹的洞察力和预见力,找的是其他投资群体的认知盲区。唯有如此,你预测的未来才与众不同,不会被相同预见者破坏,最终比别人更接近于未来。
未来不可预测,过往亦不可纠正
电影《预见未来》的主角约翰逊是一位“先知”,他能够看到两分钟后即将发生的事情。美国联邦调查局找上门来,需要他帮忙阻止恐怖组织的核弹袭击。为了国家利益、人类福祉,他坦然领命。只是卷入之后,他才发现这就是无解的悲剧;不管他怎么努力,灾难还是会发生。抛开混沌的结局不谈,电影里面有句台词相当深刻,发人深省:
“关于未来有一个重要的事实,是每一次当你看着未来,它就会发生改变。因为你看着它,然后其他事情也跟着一起改变。”
与《预见未来》不同,电影《蝴蝶效应》的男主角伊万不太满意现在的生活,他想改变。但他想改变的不是未来,而是现在与过去。他用时间穿梭机回到从前,把之前的事情理顺了再回来,看看现在是不是比之前的“现在”更好些。但悲剧开始以另一种方式出现了。他一遍一遍地回到过去,修改当时的历史,以为什么事都理顺了,等他一回到“现在”,却发现事情越来越糟。因为一件不经意的小事或者意外,都将摧毁他精心布置的“未来”。这就是美国气象学家罗伦兹在1963年分析的蝴蝶效应:“一个蝴蝶在巴西偶尔扇动几下翅膀,可以导致两周后得克萨斯州的一场龙卷风。”
这两部电影对于投资的意义在于,投资就是认知未来,但是事实上,没有人可以预见真实的未来。用大数据窥见未来之后,未来已经不是你所观察到的。投资也是件悲剧的事情,即人人都想而且必须去参透未来,但是谁都参不透。
[1] 圣杯是耶稣与其门徒在最后的晚餐上使用过的一个葡萄酒杯,盛放过耶稣的血液,拥有此杯可获得永生。投资的圣杯是指破解金融交易的密码,取得稳定赚钱的方法。
[2] 与未来消费呈负相关的资产,定价甚至更高,比如保险,人们在购买时甚至可以不考虑“收益”。
[3] 预测公司由多恩·法默、诺曼·帕卡德和詹姆斯·麦圭尔三人于1991年在美国新墨西哥州首府圣达菲市创立,该公司运用多种预测技术建立金融市场的黑箱交易系统。2005年,预测公司被完全收购,成为瑞银集团的全资子公司之一。
[4] 2010年下半年,IBM收购了从事数据库分析的Netezza公司以及提供网络分析软件的公司Coremetrics。2011年,惠普公司斥资104亿美元,买下了擅长语义分析的软件公司Automony。
[5] IOE指的是IBM、Oracle(数据库软件提供商)、EMC(存储设备提供商)。去IOE运动主要是指阿里巴巴等公司筹划使用成本更低廉的软件取代上述三家公司,以消除IOE垄断并降低成本。——编者注