阿里数据到底有多美?
作者 : 未知

  彭蕾和自己女儿同学的妈妈打赌,因为对方不相信孩子的专业课本――《天目山植物学实习手册》能在淘宝上买到。结果,同学妈妈搜到了此书的25个卖家链接后,瞬间折服。
  接下来,这位妈妈只要一登录淘宝或阿里旺旺,天目山、莫干山等各种“山”,植物学、动物学等各种“学”,甚至从大学英语到旅游手册,无数相关商品扑面而来,所有的依据,就是其仅有的一次搜索。
  她感慨自己瞬间就“被大数据”了。而参与打赌的彭蕾,正是阿里小微金融服务集团CEO。
  在历时近一个月的调研活动中,《财经国家周刊》记者所见阿里金融剑之所向,是成为环境舒适安全、人流络绎不绝的全维度大“超市”――无论银行、证券、保险,抑或拥有数据和技术的互联网公司,将统统会在该“超市”上架。
  而整个阿里集团,也将转向定位于大数据服务商和技术提供商,不卖数据卖分析,不卖硬件卖服务。“马云想要的,是下一个IBM。”阿里一位高管说。
  不过,在央行一位官员看来,阿里能提供给客户的大数据产品,瑕疵不少而且安全难保,“一切并非所见的那么美好”。
  “毛细血管”的野心
  阿里原安全部技术总监蒋韬说,阿里的大数据技术至少全球前三,甚至已超过另两位――亚马逊和谷歌。8000多人的技术团队,从2003年底第一笔支付宝交易以来的10年内,他们已铆足劲头,等待爆发。
  阿里大数据之战的战略核心,就在于此。
  阿里小微金融服务集团副总裁俞胜法给出一组调研数据,称传统银行的客服、柜台和客户经理人数占比达80%左右,数据工作人员不足10%,而阿里微贷事业部采用数据化决策,60%从事数据相关工作,余下则主做数据底层架构搭建。整个阿里的金融团队,90%的人每天与数据打交道。
  目前,阿里拥有全国最大的Hadoop分布式计算集群,日增数据50TB(数据存储单位,1TB=1024G),有40PB(1PB=1024TB)海量数据存储,分布于全国80多个节点的CDN网络,支撑流量超过800Gbps,即同时支撑对数十亿商品的实时搜索和记录。
  关键的是,所有访客行为都被如实记录。部分数据采用1:120的高压缩极限存储技术,通过由3000多台服务器组成的“云梯”超大规模数据系统,以及阿里自研的ODPS数据系统,持续挖掘和分析。
  “有人说我们要卖数据,也有银行来洽谈,但其实数据是不卖的。”俞胜法很直接,说阿里倾尽全力打造的大数据库,难以定价。
  他表示,阿里每一步的初衷都很简单,成立支付宝,意在解决网购双方信誉和担保问题;余额宝,是为减少网购涉及的银行备付金及其利息;涉足小贷,则是为了让无厂房、无固定资产、无财务报表的淘宝卖家们,能有融资和生存之路。而眼下的大数据金融,是意在满足市场对高效金融服务的需求,并带动淘宝卖家实现电算化。
  那么,捂着这些数据黄金,马云究竟想做什么?
  “�R云要自己动手取代IBM。”前述阿里高管告诉《财经国家周刊》记者。
  具体的商业模式,是阿里将拿出5000台服务器的系统处理能力作为基础,将大数据库作为核心竞争力,免去银行建机房、造系统的成本,只出具少量服务费就能享用阿里式服务。
  “银行将继续做金融系统主动脉,阿里一边做毛细血管,一边做数据和技术服务商。”前述高管勾勒出一幅蓝图――待纳入基金、证券、保险等机构后,拥有巨量金融信息的阿里平台就将诞生。
  局限性质疑
  对此,有人提出异议。
  央行一位司局级官员指出,阿里前述商业模式明显有三点局限性――
  首先,阿里90%以上的数据来自含淘宝、天猫在内的“大淘宝”,支付宝实名制用户2013年底接近3亿人,但与“大淘宝”高度重叠。阿里只能驾驭自有平台的数据,之外则无优势。
  “我们确实在数据采集上存有局限。”前述阿里高管也坦言,他本人就少有网购行为,“数据库中可能找不到我的信息”。
  加之京东、1号店等电商崛起,同一客户在不同电商平台的表现是否一致,不同平台的分析结果谁更准确等问题,还有待商榷。并且,阿里的客户群相对单一和同质化,一旦风险袭来则很难把控。相比之下,银行却拥有众多细分市场和细分风险模型,小微业务即便做砸了,也不至全盘皆输。
  其次,阿里宣称其具备确认支付宝用户信息的能力,但其实,开设支付宝账户必须链接至少一张银行卡,身份确认的工作和成本,早已由银行付出,阿里只是借力而已。
  不仅如此,阿里也不应具有对客户数据的交易和处置权,至少应该在征得被搜集人许可后才能进行买卖。相比之下,银行线上线下的业务办理,均会书面通知客户信息将被部分抓取,行为明显规范得多。
  其三,阿里目前呈现的数据产品,不包含细节信息和分析过程,仅是所谓评分系统给出的信用评分,不但真实性、可信度打上了问号,其评分标准亦可能各执其词。
  例如,全球银行普遍使用的美国FICO个人信用评分系统,是在依据高达100万的大样本数据进行验证与核对的基础上,才开始使用的。阿里的大数据模型,却尚未经过数据检验和修正。
  “金融数据必须足够准确。阿里的产品缺乏标准,如何负起不良率的风险连带责任?”一位有着阿里背景的高盛人士质疑,“一个负责任的银行,绝不会轻易购买。”
  是故,一些数据源匮乏的中小银行,就算高价买来阿里数据也难以二次使用。P2P和小贷公司等机构,则往往囊中羞涩,掏腰包也会“货比三家”。
  “例如,央行征信系统能给出个人或企业贷款90天内的逾期概率,阿里能给出吗?”前述央行官员说。
  合规之忌
  有监管方面专家指出,阿里的大数据金融,从源头到终端都画了一个“圈”,“玩”到极致也跳不出来,没“玩”好则将导致风险在“圈”内爆炸。   按俞胜法的说法,大数据系统设计之初就囊括了风控措施,对店铺信息的长期跟踪,亦伴随着准入、定价、反欺诈等风控评分;一旦发现经营异象,阿里会有专人负责沟通核实、提早介入;一旦违约,还有一整套外包的催收机制。
  《财经国家周刊》记者获悉,截至2014年7月底,阿里小贷已具有几百亿元贷款规模,户均贷款余额和户均授信分别仅约4万元和18万元,但贷款余额不良率在1.5%左右。这在业内是个较高的数字。
  “是金融背景还是互联网背景的人在玩金融,一眼便知。”前述高盛人士称,后者往往另辟蹊径、大步向前,缺乏对金融应有的敬畏。
  而更客观和严峻的问题是,银监会规定小贷机构放贷规模不得超过自有资本50%,贷款规模受到严格限制。但资本金仅20亿元左右的阿里小贷,缘何能将贷款资金杠杆放大至几百亿元?
  知情人士私下透露,阿里小贷早就“突破”20亿元资本金的限制:各种合作方,能助其将资产包在交易所上市,比如2013年深交所东证资管将阿里的资管计划挂牌出售,以资本市场交易来实现“出表”,即贷款行为不再受到自身资产负债表制约,贷款余额得到大幅增长。
  简单说来,与绝大多数小贷公司孤立无援相比,阿里强大的“人脉网”,能让其放贷行为避开资本金规模和杠杆率监管的制约。
  “证券化能轻松将贷款余额做到资本金的数倍,这是做小贷的默认‘行规’,阿里玩得最猛。”高盛人士说,阿里无所畏惧地横行于自己不擅长的领域,并且以全链条闭环封闭了可能的风险。
  这一点,金融危机时的美国银行业改革已给出警示。2010年初,奥巴马宣布采纳“沃克尔法则”,要求银行业剥离衍生品、抵押贷款等杠杆率过高的交易,并提高了资产2500亿美元以上银行的风险和资本标准,规定对抵押贷款进行证券化的金融机构必须自身持有一部分风险头寸并接受消费机构检查。
  “此举可谓美国1930年大萧条以来最致命的金融改革,目标直指交易透明度,限制大型机构以自有资本参与市场投机。”高盛人士指出。
  有分析人士认为,阿里的核心问题,在于包括前述隐性扩大杠杆和实体经济下行等一系列风险,均内置于一套金融闭环内,从数据收集、信用评估、模型建设、贷款发放、风险跟踪直到还贷收贷,整个链条统统由阿里一家完成,风险无法跳出循环,此乃金融业大忌。
  “无论什么新花样,其本质是金融,就要尊重基本规律。”前述央行官员警示,阿里的金融闭环正在不断放大风险。
  银监会创新部主任助理李志磊告诉《财经国家周刊》记者,不论出身不论形式,也不论线上线下,都要进行监管,“只要是金融机构,就要接受与传统金融机构等同的监管方式,没有特殊。”
  隐私裸奔?
  隐私和安全是大数据时代的重要问题,阿里同�尤撇还�去。在监管尚未完全到位之时,如何把握大数据金融对于个人信息的抓取程度?如何划定不触及大众隐私和安全的法律底线?
  李志磊对此表示,消费者是否允许挖掘和跟踪数据,还需要出台相关法律规定。与大数据公司相比,一些银行机构同样也能做到信息实时跟踪,只是考虑到法律授权比较慎重而已。
  央行征信中心副主任王晓蕾指出,欧美国家的个人数据保护立法,基本包含四个原则,即目的性、适当性、本人同意及知情原则。大数据并不意味着无限制搜集,信息主体对自身信息的采集和使用也应有更多知情权和控制权。
  《欧洲数据保护法》明确要求,搜集方在隐私声明中要将信息及用途加以说明,允许用户对个人信息进行修改,甚至要求将条款细化成一张列表,供用户自行勾选。但在中国,尽管一些机构认识到了“本人授权”能够规避可能的法律风险,但这种“授权”往往是强制性和形式上的。
  “金融业还无法完全驾驭大数据。”前述专家说,随着金融市场乃至整个社会管理的信息基础设施日益一体化和外向型,隐私和数据安全面临越来越大的风险。
  最近一份对欧洲150万手机用户数据的研究表明,只需要4项参照因素就能确认其中95%用户的身份。显然,中国大数据信息的搜集范围严重“超标”。
  相关法律法规和行业自律等措施,究竟由哪个机构来牵头负责,由怎样的专业人士来制定游戏规则,是眼下摆在国家决策层面前的一道最紧迫的难题。
  这一困境,已在实践中逐渐显现。
  此前,有消息说阿里、腾讯等大型电商平台数据未来有望纳入征信系统中。但一位接近央行征信中心的人士对《财经国家周刊》记者明确回应,“目前尚不可行。因为电商的一些数据来源与目前法律相悖。”
  《征信业管理条例》第三章第十三条明确规定,采集个人信息应当经信息主体本人同意,未经本人同意不得采集。但是,依照法律、行政法规规定公开的信息除外。
  “电商抓取客户的行为信息,搜集客户在电商平台上的活动,经过客户允许了吗?”该知情人士问。
  此外,还有一个“产业”,即在电商平台上刷信用――“这种刷出来的信用占电商平台的多少比例?是否会直接影响到其信用度的评定,这些都没有定论”。
  阿里于2014年9月19日在美国上市。有分析说,作为在美上市公司,阿里有义务对美国监管部门和公众履行非公开或公开披露义务,而阿里几乎掌握所有商家、厂家及购买人的经济信息及重要金融端口,包括客户姓名、住址、身份证号码等等。这些信息能否披露?
  有分析人士认为,阿里的数据业务模式可能代表着一个全新的发展方向,但必须清醒意识到,阿里是站在一堆法律并未明确定性的大数据的“刀尖”上跳舞。

文秘写作 期刊发表