在互联网金融中,大数据被广泛应用于信息处理(体现为各种算法,自动、高速、网络化运算),提高了风险定价和风险管理效率,显著降低了信息不对称。
大数据至今未有统一定义。但一般认为大数据具有四个基本特征数据体量庞大(volume)、价值密度低(value, 也有人理解成应用价值巨大)、来源广泛和特征多样(variety)、增长速度快(velocity, 也有人理解成需要高速分析能力)。大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展(见第一部分)。大数据有三个主要类型记录数据、基于图形的数据
以及有序数据。云计算和搜索引擎的发展,使得对大数据的高效分析成为可能,核心问题是如何在种类繁多、数量庞大的数据中快速获取有价值信息,主要有两类任务(Tan, et al., 2006 ;Rajaraman
and Ullman,2012 ;Provost and Fawcett,2013)。第一类是预测
任务,目标是根据某些属性的值,预测另外一些特定属性的值。第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等,具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等。大数据分析有很强的实用主义色彩。预测在大数据分析中占有很大比重,对预测效果的后评估也是大数据分析的重要内容。大数据与超高速计算机结合,使得相关性分析的重要性将超过因果分析,行为分析的重要性将不低于财务报表分析。
在信贷领域,可以根据大数据来决定动态违约概率。谢平和邹传伟(2012)指出,对某个信用主体,很多利益相关者都可以在互联网上给予评价,这样根据自主信息和主观判断,任何时点都可以知道违约概率,并且是最有效的。总的效果是,地方信息和私人信息公开化,只可意会的信息显性化,分散信息集中化,类似充分统计量的指标或指数能反映汇聚来的信息,使信息在人与人之间实现均等化。我们把这种状况简称为大众点评原理,其可以替代银行内部专业的、线性的信贷评估方法。
证券市场可能同时具有行为金融学(Shefrin and Statman,1994)和有效市场假说(Fama et al., 1969)描述的特征。一方面,在社交网络的促进下,投资者之间的交流、互动和相互影响会非常有效,个体和群体行为会接近行为金融学的描述(比如Coviello etal. 2014 发现,人类情绪可以通过社交网络产生传染效果),进而对单个证券或整个证券市场产生可观测的影响。另一方面,在大数据分析的促进下(内幕信息不属于大数据),市场信息充分、透明,市
场定价效率非常高(比如证券定价中的一些复杂计算转化为应用程序,简单化),证券市场会接近有效市场假说的描述。
在保险领域,大数据能提高保险精算的准确性,使保费充分考虑个体差异性,并且动态调整,类似动态违约概率。比如,在非寿险中,保险公司可以为客户提供根据行驶里程及时间定价的保险(pay as you drive),根据驾驶行为定价的保险(pay how you drive),以及可以协助被保险人完善驾驶习惯(manage how you drive);寿险精算在生命表的基础上,将来会充分考虑个人的基因、家族遗传、饮食运动习惯和职业等,时效性也将进一步提高(王和,2014)。随着精算效率的提高,互联网金融中的保险,将接近完美的风险转移模型自愿、自由、公平地进行风险转移Arrow,1970。第一,保险产品丰富化,对人身和财产方面的每一种风险,均可能出现相应的保险产品。第二,保险费率由公平原
则厘定。第三,风险转移给社会中有相应风险偏好的人,由他们自愿承担。