ZestFinance:用大数据做征信的又一有力案例,给出不一样的思路

机器学习 2374 Views

数盟倡导“数据创造价值”,致力于打造最卓越的数据科学交流平台,为企业、个人提供最卓越的服务】

(部分文章来自于第三方平台,未能找到原作者,敬请谅解~sorry~)

12.20数盟DSM(上海),听金耀辉 教授上海交通大学光纤通信国家重点实验室)讲讲——移动网络大数据分析~

报名链接,点击阅读原文~

作为“70后”,ZestFinance的CEO 道格拉斯·梅里尔(Douglas Merill)在硅谷已是“元老”级人物。他曾是Google公司的首席信息官,还曾在百代唱片集团任数字部总裁。2010年,他和来自金融圈的肖恩·布德(Shawn Budde)联合创立了ZestFinance(相关报道见本刊2014年第34期“传统信用评分挑战者”)。

欧美传统银行通常采用对所有人都适用的线性回归模型,其中包含性别、出生地等20个左右变量,对每个人都简单化处理,以打分卡的形式评分。ZestFinance采用的变量则多达70000个,采用的算法也不是线性回归模型,而是来自Google的大数据模型。

梅里尔接受财新记者专访时表示,当有一个20个变量的基础模型时,如果这些数据都真实有效,那这个模型就很好用。但问题在于,变量往往有缺失,或不准确。此时,模型给出的分数就不准确了。“美国之所以有25%的人没有征信记录,正是因为这些人数据不全。”

目前,共有400万美国人直接通过ZestFinance申请信用评分,另外在银行等金融机构通过ZestFinance模型获得信用背书的人数则远远大于该数字。ZestFinance还有另一个重要组成部分,即ZestCash贷款平台。ZestCash类似一家小贷公司,直接给那些没有银行账户或者信用记录不好的人提供小额贷款。目前,ZestCash直接发放贷款的客户数量约为10万人。

10个模型和70000个变量

ZestFinance所擅长的,正是在真真假假、或有或无的数据海洋里“做游戏”。梅里尔相信,只要池子里的变量多到一定程度,模型给出的分数就会趋于稳定。“举个简单的例子,如果你仅买一只股票,你的收入就全都取决于这只股票的涨跌;但如果你分散投资1000只股票,从统计学角度,即使其中一只股票暴跌,也不会对你的整体资产走势产生影响。”

同理,当变量足够多时,即使其中个别变量错误或缺失,也不会对最终结果产生实质影响。“所以,只要数学逻辑正确,采用的变量越多,模型就越准确。”梅里尔表示。

加拿大传播学家麦克卢汉在《理解媒介》一书中提出了著名理论“媒介即是信息”,在梅里尔眼中也有一条类似的理论,“数据缺失即是信息”。

在传统模型中,数据缺失意味着盲区,意味着要用模拟数据去“填补”,否则就无法建模。但在ZestFinance的模型中,数据缺失本身就可以得出很多有用的结论。

“数据缺失可能是真的缺失,也可能是故意缺失。”梅里尔生动地举例解释道,例如,假如在“月消费、坏账、所用通信网络”几个选项中,如果全部数据缺失则是真的缺失;如果前两项有数据,但通信网络一栏为空白,说明是申请人故意隐匿信息,从而有欺诈的嫌疑。“正常情况下,电信运营商应该可以查到一个人所用的通信网络,如果查不到就有问题。”

从模型数量而言,传统征信评分通常采用一个模型,而ZestFinance采用十个模型,从不同角度进行计算。

“这十个模型从不同角度衡量申请人的分数,其中两个是进行身份验证防欺诈的,一个是预测提前还款概率的,其余都是评判还款意愿和能力的。最后我们还会用一个决策模型将十个模型的结果整合在一起,得到最终的结果。”梅里尔表示。

在梅里尔看来,模型越多,准确率越高。梅里尔介绍他曾做过的实验:有两个模型,对利润的提升分别是16.9%和9.4%,可能第二个模型往往会被弃用。但如果把这两个模型放在一起使用,居然利润提升了38.3%。“如果市场竞争压力不大,从节约成本的角度,用第一个模型足矣。但如果市场竞争激烈,两个模型共用可以大大提高利润。”

这十个让梅里尔引以为豪的模型也在不断进行改进,每个模型平均半年就会诞生一个新版本,替代旧的版本。新版本通常会加入更多的变量和数据源。每个新版本模型都以开发者的名字命名,从而纪念付出劳动与智慧的工程师。

寻找数据背后的关联

如今,大数据正成为热门词汇。关于大数据的定义,梅里尔也给出了自己的定义。“不是数据多了就叫大数据,我认为大数据是指如何将碎片化的信息通过高科技整合应用。”

梅里尔不断强调,ZestFinance最主要的工作就是寻找数据背后的关联。

在ZestFinance模型里,很重要的概念就是“信号”(Signal)。也就是由不同的变量互相碰撞产生的逻辑信息。

ZestFinance模型中大部分信号都是通过机器学习找到的。例如,一个人在网上填表喜欢用大写还是小写就是一个信号。ZestFinance模型发现,填表喜欢全部用大写字母的人违约率更高。

此外,ZestFinance通过机器学习发现,在月收入经过验证的情况下(ZestFinance有一些渠道可以大概获知一个人的收入状况),收入越高,违约率越低。然而,在月收入没有经过验证的情况下,自己填写月收入7500美元的人违约率是最低的,填写7500美元以上则数字越大违约率就更高。

另一个例子,对于传统金融机构而言,月收入可能是他们预测一个人还款的最重要因素。但梅里尔认为,其实收入高低并不说明问题,收入减去支出的净收入加上地理因素,才能对还款产生预测能力。

“有时候不同信号之间的互动可以产生非常有趣的结果,困难之处在于如何利用数学找到信号之间的关联。”梅里尔表示。

“不论收集数据还是提取信号,都是机器自动学习的过程,在三五秒内作出决定,没有人工参与。”梅里尔说。

尽管硅谷代表着创新,却同时象征着严谨。ZestFinance亦如此。在基础数据的搜集中,ZestFinance并没有将时尚的社交网络视为数据宝藏,反而退避三舍,从未将社交网络数据纳入模型。

“很多人将社交数据视为神器,但我不这么看。我们主要还是采用结构化和类结构化的数据,例如交易信息、法律记录、租赁信息等,来源主要是从数据代理商处购买。”梅里尔坦言,ZestFinance的先进之处并非数据来源,“我们有的数据银行都有”,区别在于,银行的人有数据却不会用,就好比坐拥大量矿藏却不会冶炼。相反,ZestFinance最大的优势就是“数据冶炼”,同样的数据到了梅里尔手中,就可以碰撞产生无数有价值的信号。

从无账户人群到全民

“我最初的灵感来自我的小姨子。”梅里尔向财新记者追忆道,当时他的小姨子要贷款换一副汽车轮胎,然而银行因她没有足够信用记录而拒绝。“后来是我给她借了钱。如果我不借钱给她,她就只能去申请高利贷了。”

“ZestFinance的使命就是给这些无银行账户或信用记录不好的借款人创造透明公正的信用评分。”梅里尔表示。

目前,ZestFinance最主要的服务对象依然是无账户人群和信用记录不好的人群。

随着ZestFinance名声日渐显赫,不断有人问梅里尔,“ZestFinance是否将成为FICO的挑战者?”FICO被誉为美国三大征信公司的“幕后大佬”,三大征信公司和主要金融机构采用的信用计算模型都来自FICO。

对于此类问题,梅里尔的回答总是体现着他专注而谦逊的性格。“ZestFinance和FICO,就好比街边的热狗摊和麦当劳。”

的确,当前ZestFinance与FICO相比,不能同日而语。FICO占领着美国99%的信用评分市场和绝大部分发达国家的信用评分市场,而ZestFinance目前尚未走出美国,且主要服务于无账户和信用记录不好的人群。

ZestFinance的模型天然就适用弱势群体,因为这类人往往信用数据不足,在传统的FICO模型中,他们会由于数据缺失而被拒之门外。但ZestFinance的模型依靠“数据缺失即是信息”的理论,依然可给这类人群公正的信用评价。

然而,ZestFinance的确在蚕食着FICO的疆土。根据惠誉评级公司的研究结果,FICO分数的影响力正在下降。现在美国各个银行都有自己的模型,他们会用自己的模型去跑征信原始数据,FICO评分只是其中一个参考变量。例如美联银行(Wachovia)对FICO评分的参考比重已经下降为零。与此同时,ZestFinance在被越来越多的银行采用,但梅里尔表示不便透露银行名称。

据投行Keefe,Bruyette & Woods的数据,截至2014年6月底,美国六家最大的商业银行:富国银行(Wells Fargo)、美国银行(Bank of America)、摩根大通 (JPMorgan Chase)、花旗(Citigroup)、美国合众银行(US Bancorp)、匹兹堡金融服务集团(PNC Financial Services)合计0.6%坏账率,较金融危机时期的3.3%大幅下降。

业内人士质疑,“传统金融机构的坏账率已经很低,可改进空间很小。”

对此,梅里尔表示,大数据模型可以有两方面用途:可以在同样通过率的情况下降低坏账率,或在同样坏账率的情况下提高通过率。对于传统机构而言,他们现在的坏账率已经严格控在很低的程度,但通过使用ZestFinance,可以使他们的通过率大大提高,这样对金融机构而言意味着更多的收益。

梅里尔的大数据模型并非采取传统的线性回归方法,而是采取比较复杂的新方法。所谓新方法,也正是ZestFinance的核心竞争力,也是梅里尔从Google掌握的主要技术精髓。

梅里尔认为,他从Google学到的最主要的并非技术,而是企业文化。“很多人朝着同一个目标去思考,但思考的角度又各不相同,这就是Google精神。”

在梅里尔看来,团队是创业成功的核心。他对大数据人才也有着自己的理解和定义。

“大数据人才可以来自很多学科,例如数学、心理学、物理学等。但学科背景不是关键,对数据的好奇和渴求在我看来才是最重要的。大数据人才都应该满怀热忱,希望用数据分析去解决问题和谜团。”梅里尔说。

未必需要“独立第三方”

梅里尔此次来华是为了参加清华大学五道口金融学院的学术会议,尽管在中国尚无业务,梅里尔表示“常来中国”。每次来华,梅里尔都会和监管层、学者、金融机构的人士见面,对中国的征信行业十分了解。在采访中,梅里尔也分享了他对中国征信行业发展的看法。

按照2013年3月国务院下发《征信业管理条例》和2013年12月央行出台的《征信机构管理办法》,中国将允许开设市场化个人征信机构。

财新记者独家获悉,全国将有不到十家企业第一批获得该牌照,候选企业包括阿里巴巴旗下的芝麻信用、平安集团旗下的前海征信、另外还有腾讯、中诚信、中智信、拉卡拉、深圳鹏元等。

一旦个人征信牌照下发,获得牌照的企业将成为央行征信中心的有力补充,市场也将百花齐放。目前候选企业都结合主营业务制定了征信业务的“特色化道路”,例如阿里侧重线上数据挖掘,平安侧重保险行业,中诚信侧重地方诚信体系建设等。

令人堪忧的一点是,和美国的三大征信局不同,中国的这批候选企业大多是“数据制造者”。据央行征信局人士表示,征信机构应当遵循“两个第三方”,即数据来源于第三方,使用于第三方。这成了很多候选企业难以逾越的门槛,也成为监管层迟迟不肯下发牌照的隐忧之一。

对此,梅里尔也发表了自己的观点。他认为,“第三方”不应该成为限制征信业市场化的桎梏,应该允许非第三方机构基于自己手中的数据对一个人做信用打分。

“征信数据原本就是一个个孤岛,美国征信业1980年至2000年期间的发展,就是从数据的孤岛逐渐汇聚整合为数据池。这是一个很自然的演变过程。中国监管层只是站在了一个很有前瞻性的高度,提早对数据的客观性做出了要求。”梅里尔指出。

梅里尔指出,西方世界早期的征信就是很主观的,靠人际关系完成。1950年以前,美国评判个人信用的标准完全取决于一个人和征信官员的关系亲疏,极为主观。直到1950年以后,数学评分才逐渐替代了主观判断。

“由于中国市场的快速发展,中国逾越了那段主观判断的历史时期,直接从数学评分开始。”梅里尔表示。

目前,P2P网络借贷在中国大行其道。据不完全统计,迄今为止中国约有1200家大大小小的P2P网贷公司。然而,随着行业的蓬勃发展,越来越多的问题浮出水面。数据显示,截至2014年7月,全国总共有156家网贷平台倒闭或“跑路”,占到网贷平台总量(1200家)的13%。

梅里尔对P2P也发表了自己的看法,“在美国有个说法:每个傻子都能借钱,困难的是把钱要回来。这不只是P2P,在任何金融机构都适用。”梅里尔说,很多人有很多资本,或者有很好的渠道,但不懂风控。在中国,让信贷能服务于更广泛的人群,P2P的作用不容抹杀。然而,在这个游戏中,每家P2P公司是骡子是马,要靠市场来检验。

文章出处:软件定义世界

12.20数盟DSM(上海),听金耀辉 教授上海交通大学光纤通信国家重点实验室)讲讲——移动网络大数据分析~

报名链接,点击阅读原文~

—————————————————

数盟网站:www.dataunion.org

数盟微博:@数盟社区

数盟微信:DataScientistUnion

数盟【大数据群】272089418

数盟【数据可视化群】 179287077

数盟【数据分析群】 174306879 ,110875722

—————————————————

点击阅读原文,报名数盟(上海)DSM~

如未说明则本站原创,转载请注明出处:NULL » ZestFinance:用大数据做征信的又一有力案例,给出不一样的思路