原文链接:Data Science For Banking & Insurance

如果不能正常访问,请点击备份获取。

在银行和保险行业应用数据科学

互联网巨头和金融技术创业时代的求生和发展

介绍

在数个世纪的进程中,银行和保险行业开发出的程序、产品和基础设施,塑造了整个人类的经济史。

但是现在,他们正面临着消亡的威胁,而挑战者们出现在世界舞台上只是几十年的事,甚至其中几个就出现在短短几年前。尽管如此,却正是这些后来者正在重新制定金融服务的行业规则。这些挑战者包括像 Google、亚马逊、Facebook、苹果、百度和阿里巴巴这样的互联网时代巨头;也包括像 Credit Karma、Lending Club、Square、Lemonade、TransferWise 和 GoFundMe 这样灵活的创业公司;甚至,通过物联网,还可能包括看起来完全不可能成为竞争对手的消费品和工业产品制造商。

银行和保险公司可以通过加快数字化进程这条途径进行反击,并采用新手所在行业的工具日益完善——即数据科学、大数据和算法。与此同时,他们还应该最大限度地利用其独特的资产,包括诸如拥有在数学和统计方面颇受欢迎的专家、许多数据科学探索中严重缺乏的深度专题知识、一个庞大的源源不断的客户数据资源池,以及由分支机构和营业厅组成实体网络,这在追求有意义、多渠道和多感知的客户体验时可提供人员上的优势。

然而,能否成功取决于传统银行和保险公司对这些新挑战者的回应速度,回应体现在对其具有竞争力的资产进行巧妙利用以及组织合适的人员、数据、工具和流程从而完成任务。

第一部分:威胁

90 年代的挑战:进化或毁灭

在 1995 年一场具有预见性的演讲中,当时即将出任美国银行 CEO 的 Hugh L. McColl Jr.,激励银行监管机构的成员要适应新生的互联网时代,否则将会走向灭亡:

“正如每个学生都知道的那样,恐龙在冰河时代没有幸存下来……不是因为恐龙无法进化。只是它们没有时间进化。与恐龙不同,银行家可以预见未来的变化。在这件事上,我们有所选择。这是恐龙所不曾有的。”

——Hugh L. McColl Jr

包括银行和保险公司在内的金融服务行业,大部分都注意到了这条警告,并在接下来的 20 年里开始适应从传统系统和纸张流程到新数字时代的转变。

这是一个艰难的过程,但也逐渐开始获得回报,包括运行效率、新的便捷性以及对客户的价值。然而,2007-2008 年的全球金融危机减慢了这一数字化转型,因为金融机构需要重新分配资源以恢复损失并适应更严格的监管环境。

新的挑战:GAFA、FINTECH、以及物联网

  1. GAFA 巨头进入金融服务行业

    如今,在 2016 年,银行和保险行业基本上已从经济危机中恢复过来,它们发现自己正在面临互联网时代诞生的新的挑战。首先,也是最重要的,数字时代的巨头,如西方市场的谷歌、苹果、Facebook 和亚马逊(即 GAFA),以及东方市场来自中国的超级公司百度、阿里巴巴、腾讯和小米(即 BATX),开始直接进入银行和保险市场。

    特别是,GAFA 及其海外的同行已经开始逐步试水,提供服务包括在线和移动支付、汇款、个人借贷、账户和储蓄管理、点对点贷款(众筹)、保险和货币交易。

    然而截止到目前,对 GAFA 而言结果却喜忧参半,因为 BATX 玩家在市场渗透方面占据了领先地位。美国的大型科技企业已经表示出坚定的承诺,会增加其在金融服务领域的业务。这可以在 Financial Innovation Now 这样的倡议中看出,一个包括亚马逊、苹果、谷歌、Intuit 和 PayPal 的技术领袖联盟,正致力于“使消费者和企业管理钱款和进行交易的方式更加现代化“,并倡导能够更好地支持”金融服务领域的新市场创新者“的监管政策。

    它们也在这块新兴市场投资金融技术(fintech)创业公司。这些创业公司,像其支持者 GAFA 巨头一样,会选择交易量大的金融服务切入,并为在线和移动世界量身打造这些服务。

  2. FINTECH 的崛起

    随着投资资本在 2015 年达到 223 亿美元(较 2014 年增长75%),fintech 正在加大力度大范围地开展银行服务,包括虚拟银行、 个人和小额商业贷款、 财务咨询和融资中介、信用评级、货币交易和汇款、股权众筹、支付处理等。

    虽然这些 fintech 公司开始是(现在仍然是)传统银行的颠覆性挑战者,但银行已开始通过合作、收购和投资的方式进行反击(2010 年银行机构占 Fintech 总投资资本的 38%,并在 2015 年增长到 44%)。

    对于保险市场而言,又是另外一番景象。Google 和 Amazon 对保险的直接介入非常有限,另外目前市场出现的对 Fintech(或“insurtech”)的投资相对较低,尽管这种局面正在改变并且创新性保险公司的数量在不断增加。

    例如,目前有很多端到端型业务保险公司,比如 Friendsurance、Lemonade、InsPeer 和 InShared。其中,Friendsurance 是最早创立也是发展得最好的一家,它建立在社交媒体大数据基础设施之上,用户能够建立一个既真实又虚拟的朋友圈来分摊小额索赔和免赔额的成本,而大额索赔业务则由传统保险公司覆盖。另一个发展中的初创企业 Teambrella,通过使用比特币竞价来达成端到端服务,从而使保险“公平透明”。它的运行机制为:“团队”中的每个成员将资金存入特殊的个人比特币钱包中,只在提交申请的成员和 3/8 的半随机选择成员共同签署后,才能完成相互报销。

    其他创新性的保险服务包括特定项目或事件的保险,以及按需保险。例如,Trōv 提供了一款称之为“智能保险”的业务,允许人们在任何时间对任何事物进行投保,而且保险期限任意——这完全由移动应用程序实现。具体来说,应用程序会收集有关客户财产的数据,并为单个项目所覆盖范围提供经机器学习加强的风险定价,该保险可以设置任意保险期(低至秒)和保险费(低至便士),最终由聊天机器人处理索赔。据 Trōv 的 CEO 及创始人 Scott Walchek 所说,其结果是一种极致的客户体验:

    “如今的保险受冗余的流程和表格所拖累,通常需要与人直接交谈。 通过将整个流程转移到我们正在研制的手机上,使得其变得和在亚马逊下单时的一次单击一样简单。不仅如此,报销和退换货索赔可以像短信收发一样简单,在几分钟内即可完成,而不需要数天或数周。“

    ​ —— Scott Walchek, Trōv 的 CEO 及创始人

    尽管存在这种保险技术革新浪潮,但可以说,保险行业面临的更为直接的挑战正在物联网中逐渐形成,而且其也正在侵占银行业务。

  3. 信息互联网:在你和你的客户之间

    在物联网(IoT)中存在着数十亿个传感器,计算机处理器和通讯设备正在被嵌入或附着到每一种可想到的常见“物体” ——人体(通过可穿戴产品)、手机、网球鞋、水管、葡萄藤、牛、烤面包机、路灯等等,它们会在移动网络和互联网上共享数据。到 2020 年将会有高达 300 亿已连接的智能设备为人类提供服务(不包括最普遍的“智能”设备:智能手机),这无疑是一场革命。

    尽管收集到的数据类型及其用途是广泛和高度多样化的,不过其功能角色主要还是远距离监控、分析及控制(比如自动驾驶汽车和家庭病人护理)。

    目前,像制造、医疗、零售和安全等行业在物联网市场处于领先地位,而金融服务也已经准备好迎接由物联网革命带来的转型。例如,制造消费品和工业产品的公司正在试图为其智能且联网的产品搭载服务,这可以帮助他们进行实时监控和控制。

    这些服务包括预测建议,如远程诊断、维修以及主动维护,而在非常规领域利润也有增长,像保险(产品本身或其监控的环境,如作物或生产线)以及目前级别相对低一点的,根据设备使用情况的数据提供贷款、租赁或采购。例如,远程信息处理技术使得劳斯莱斯、通用电气和普惠公司等制造商能够绕过传统的融资、租赁流程和提供商,按飞行小时(并绑定主动维护服务)将飞机发动机租给航空公司。

    意识到物联网的市场机会,GAFA 也开始在这个领域积极投资。Google 的资本主要流入四个垂直领域,包括智能家居、可穿戴设备(如智能手表)、汽车(联网的汽车)和机器人。而在其中一个垂直领域,Google 就出资超过 30 亿美元收购了一家公司——智能温控器制造商 Nest Labs 。新兴一代的汽车、房屋和人寿保险产品,基于对行为数据的实时监控、收集和分析,而智能家居、可穿戴设备和智能汽车市场则都是其基础环节。

    目前还不能确定 Google 会通过这些领域直接进入保险市场,还是简单的通过丰富的新数据流获利,包括在保险公司和消费者之间扮演中介的角色,正如其现在与 Nest 的保险合作伙伴之间的关系。

    目前,苹果也开始以中介模式来运作,例如与 Evrythng 合作进入房屋保险行业,后者是智能家居产品的 IoT 平台制造商。此类办法对亚马逊似乎也是可行的,其“Dash”按钮从一触即下达命令的设备演变成用于管理智能家居功能的控制器。

    然而,保险公司并不是只与 GAFA 及其合作伙伴或所收购公司合作。他们也直接与 Water Hero 和 Gem 等初创设备制造商进行合作。这两家公司生产的设备能够持续监测家用水管和水流。

    当检测到异常时,它们会即时警报,而 Water Hero 还支持自动关闭水流。大约三分之一的家庭索赔与漏水有关,这种技术的吸引力对保险公司是显而易见的。

    不过问题仍然存在,谁将拥有客户关系? 为接近客户,这场竞赛正在进行,同时也对银行业形成挑战。迄今为止,用到物联网的银行业务,大部分都要涉及使用智能手机技术进行认证和定位,以及内部或运营的用途如监控库存和营业厅或分支机构,也是如此。然而,目前还是在由 Fintech 公司引导大部分银行开发以智能手机为中心的 IoT 技术,以支持创新的面向客户的移动银行和支付交易体验,这些正在去中介化但尚未取代银行。

    如果银行和保险公司想要保护自身免受物联网带来的去中介化或对核心服务的直接侵入,他们需要更好地利用物联网技术来推动创新,并且需要适应在物联网和非物联网领域给予新竞争对手优势的工具:大数据和算法。

GAFA/FINTECH 的优势:大数据和算法

作为互联网时代诞生的纯数字玩家,GAFA 和 Fintech 公司的经济资本都是基于大数据应用通过智能算法获取巨大优势。

对于 GAFA,他们收集了大量数据,并将算法应用于这些数据,以针对个体级别生成实时内容、服务、建议和广告,这个近乎神奇的“单人市场”促进形成了当今强势且苛刻的客户。一个很好的例子就是,亚马逊使用大数据挖掘和预测分析来提供个性化的购买建议。

Fintech 公司也做了同样的工作,使用大量不符合 GAFA 的数据,但包括从 GAFA 和非 GAFA 大数据生产者(如政府机构和气象服务)获取的数据集。而且,像 GAFA 一样,Fintech 公司通过创新性地使用大数据技术、数字/移动优先策略、基于算法的数据挖掘和预测分析,实现了引人注目的个性化体验。

  1. 使用非传统数据实现非凡结果

    例如,处于融资环节的 Fintech 初创公司(以及 BATX 公司)正在使用算法和非传统数据来源(例如社交媒体活动和手机使用情况),来更加快速准确地评估身份、欺诈风险和信用价值,以及自动化承保和贷款发放流程。

    除了能够更加便捷、更加经济、更加准确地为客户提供服务,这种多样化的大数据加上高级算法的方式也在帮助这些公司扩大市场。他们通过为年轻或尚未被开发的人群提供服务来实现这一目的,这些人几乎没有信用记录,而其人数总量全球估值在 25 亿以上。

  2. 通过尚未被开发的人群提高市场份额

    正如对 fintech 通过大数据和算法(“大数据和线上评分:Fintech 及其他领域”)进行创新的描述,寻求贷款的人可以安装 InVenture 的移动应用程序,然后跟踪他们如何使用手机,而该使用情况会提供一个有效的新型风险评估方法。

    例如,根据 InVenture 收集和分析的历史数据,发送太多短信或经常性的电池电量低可能是申请人信用有风险的一个迹象,而晚上打电话较多或使用赌博网站的人却往往(令人惊讶地)更值得信赖。

  3. 通过机器学习获得突破性的效率

    在第一步将基于纸张的申请流程数字化之后,机器学习组件也被开发出来用以自动化承保的工作流程。这些组件包括一个模糊逻辑规则引擎用于对承保人准则进行编码、一种演进算法用于随着准则和数据的发展优化引擎的性能,以及一种自然语言解析器用于限制承保人审查所需的自由文本量。该系统在 19% 的应用程序上实现了完全自动化承保,并提供了预处理,可以帮助承包人从人力审查中抽身出来将重点放在应用程序最能够获益的地方。它还支持开发基于 Web 的客户自助服务应用程序。

    Genworth 成功地在其早期投入到基于算法的承保中,部分原因是系统设计人员在一系列中间步骤中实施了解决方案,以便精算师和承保人可以用新的方法构建必要的“舒适度”。这是一个很好的榜样。这对任何基于算法的自动化系统都是有帮助的,可为专业人员提供他们需要的时间和工具,从而了解并获得对其工作原理以及决策方式的信心。不管如何,至少显而易见的是,尽快拥抱对算法和大数据源的应用势在必行。

  4. 除了改变,别无选择

    如果传统的银行和保险公司不能够快速采取行动,那么他们将会面临失去扩大市场的机会的风险,这是毋庸置疑的。更糟糕的是,这些风险,往小了说,会使其沦为“金融服务新市场开拓者”的交易基础设施,往大了说,将令他们遍体鳞伤而经受死亡的威胁,因为其盈利的业务线会逐渐被蚕食。

    这些公司需要立即做出改变,Fintech 风险资本家 Mircea Mihaescu 在他的 BankNXT 中的一篇文章 “算法的新时代”中对此有力地进行了说明。在这篇文章中,他认为,尽管银行看待和使用数据的方式有所改变并且这一改变正在慢慢显现,在 fintech 创新的核心环节他们依然需要在拥抱“新的算法实现的技术”时采取更快的行动。他指出,算法驱动的方法对传统挑战的优势似乎是显而易见的,但是很少有人使用它们:

    “使用算法做贷款业务,优势显而易见,而且没有银行在做,只有初创公司。对交易数据进行深入学习,优势显而易见,目前很少有银行在做这些,但是很多初创公司都在做。从 IT 日志中提取模型以检测内部欺诈,优势显而易见,而如今只有初创公司在做。将客户实体与实体支付数据相关联,优势显而易见,而如今只有初创公司在做。对交易数据进行实时支出分析,优势显而易见,而如今只有初创公司做得不错。使用区块链技术来完成“不需要可信任的第三方”的交易,优势显而易见的,而如今只有初创公司在做。”

    无论 Mihaescu 所言是否 100% 准确,毫无疑问的是传统银行和保险公司在开发大数据和算法方面已落后于 GAFA 和 Fintech 同行,但并不算太晚,如果能够缩小算法差距,他们将会开发出完全独特的资产,并配备强大的竞争战略。

第二部分:解决方案

利用独特资产和数据科学进行竞争

  1. 银行和保险机构的独特资产

    传统的银行和保险公司在算法新时代中竞争,既有优势又有劣势。缺点包括根深蒂固的遗留技术和业务流程,实体分支和营业厅的过度开销,以及目前的不平等监管负担。

    此外,对 GAFA 而言,金融服务公司永远不可能与技术巨头的数十亿用户或客户群基础和随之产生的资源相抗衡,也不能达到其在人们的数字生活中无所不在程度(据估计,人们花费一半以上线上时间在使用 GAFA 提供的服务,而今天的智能手机,无论是 iOS 还是 Android,更是无法达到)。然而,传统银行和保险公司也具有独特的竞争优势,即:

    1. 来自(大部分尚未开发的)客户数据中的价值信息。

    2. 作为补充实体网点 ,以及人性化的数字通道,实现独特的多渠道体验。

    3. 消费者对于维护个人资料的信任程度更高。

    4. 拥有包含大量专家的人才库,这些专家具备广泛领域的专业知识和高级数量技能。

    优势 #1:客户数据中尚未开发的储备

    大量储存的日常交易的客户数据是此优势的隐藏价值,有了数据挖掘和预测分析的帮助,在更好地理解、预测和交付客户需要的内容这方面,它可以提供独特的益处,同时帮助更好地解决风险、欺诈和市场不确定性。

    优势#2:广泛的分支机构/营业厅网络

    第二个优势,实体分支机构或营业厅网络似乎只是间接成本,但随着金融服务日益数字化,它可以在开发有意义的客户关系中发挥至关重要的作用。正如线上巨头所认识到的,仅数字化的关系有其局限性:具有粘结性的客户体验需要建立在同时具备实体的和数字化的接触点上。

    如果传统银行和保险公司对其网络实现最充分的利用以建立客户关系,那么传统的银行和保险公司就会体现出优势。例如,美国银行和 M&T 银行这些公司的区域经理正在目击一场真正的演变,因为他们的实体分支正在转变为客户的咨询中心,其中 M&T 的一个区域经理注意到那些正在进行中的服务活动,其组成从 80% 交易和 20% 专家意见过渡到了 20% 的交易和 80% 的专家意见。

    数字巨头正在寻找实体连接

    像亚马逊和 Google 这样的数字巨头正在加入苹果的行列,开始发展零售店,以培养与他们的产品、用户和品牌的物理联系:

    • 苹果正在扩大其在中国、印度和拉丁美洲的时尚商店基础,同时通过下一代设计来翻新美国的商店。

    • 亚马逊计划将其在美国购物中心的快闪商店的基础积极地扩大到 100 家,据报道预计会在未来 10 年内,在美国开设多达 2000 家亚马逊新品牌杂货店,而这要建立在进行中的 20 个试点成功的基础上。

    • Google 正在试水实体商店,其在纽约开了一家新的快闪商店。

    • 具有丰富线上银行经验的 ING 正在以咖啡馆的模式补充其仅数字化的 ING Direct 服务,咖啡馆像办公室一样提供服务,配有舒适的沙发、价格适中的咖啡、免费无线网络、免费会议室和其他设施(但不提供传统分支机构的服务,否则将会触犯社区再投资法)。

    优势 #3: 更坚固的客户信任度

    传统金融服务公司现有的实体网点还可以用来巩固重要的第三大优势:信任。虽然最终的危机确实动摇了消费者的信心,但个人对传统金融机构依然十分信任。根据 IBM 调查,70% 的受访者表示,相对于非银行竞争者,他们更信任传统银行。而当他们在另一项调查中被问及就保护他们的个人信息和隐私一事更信任哪个机构时,消费者的选择中传统金融机构比新的在线提供商排名更加靠前。

    优势 #4:具备数量技能的人才和行业专家

    传统金融服务公司在人才方面具有更大的优势,他们拥有长期受聘的专家,这些专家具备高级数学和统计技能,为其提供了一个由相当数量的熟悉行业的专家组成的员工队伍,这些人能够接受培训,从而面对 GAFA 和 fintech 的主战场优势与其进行竞争:对大数据和算法的灵活应用,在数字化中创造出极致的客户体验,以及在越来越多的实体范围。换句话说,银行和保险公司在掌握数据科学方面处于有利地位。

  2. 适宜地利用 GAFA/FINTECH 的数据科学优势

    数据科学是什么?数据科学是一门需要协作的学科,它使算法时代成为可能。具体来说,它是人员、数据、工具和流程的结合,GAFA 和 Fintech 用其将统计和数学技能、信息技术(特别是大数据技术)和行业主题专家转化为可行的见解和业务创新。

    金融服务中的数据科学

    具体来说,数据科学使这些公司能够利用数据挖掘和预测建模来提供个性化提议、降低风险、创造颠覆性的新产品、扩大市场、最大限度地减少运营费用、自动化传统的手动流程等等。这些对传统银行和保险公司也将是非常有益的业务巩固,而其中一些公司已经在使用数据科学来着手进行实现。让我们来看一下这方面的具体例子,然后我们将详细介绍企业如何在数据科学中获得最大的竞争能力。

数据科学的应用:在传统的银行和保险公司的应用案例

在汽车保险市场实现个性化的保险单和保险费

挑战

为了实现对充足储备的需求能够与具有竞争力的价格相平衡,保险费通常使用诸如驾驶员或车辆历史这类历史性数据以及与年龄和性别等因素相关的统计概率来确定风险。

这是一个非常有效的策略,但它其实是风险的一份静态记录,无法在事先报告的事件基础上将个人司机的行为作为因素来考量,在准确并持续评估个人风险并提供真正个性化的产品方面限制了保险公司的能力。

解决方案

IoT 技术(或远程信息处理)现在能够通过这些行为提供可见性

通过车载设备传输的大量实时的、保险相关数据,如关于位置、速度、加速度、制动等数据,也许在不久的将来还会包括 DUI 或交通法规遵守情况。Allianz 正是一家利用了该新型可见性优势的传统保险公司。Allianz 提供的汽车保险单允许通过绑定了装有 GPS 的电子狗的移动应用进行数据跟踪,用户只需要简单地将电子狗插入汽车的 USB 端口。公司使用数据开发创新的个性化定价模式,如根据驾驶情况付费(PHYD,pay-how-you-drive )和灵活的选项,如按英里付费计划。

结果

Allianz 使用这些新数据流开发出新的 PHYD 策略,使其能够以较低的保费回报优质司机(28 岁及以下的车主占据高达 40%),并更好地了解客户,减少欺诈,鼓励积极的驾驶行为(减少事故和索赔)。此外,新数据使 Allianz 能够扩展服务,如道路救援、被窃车辆跟踪和找回,以及紧急或事故救援,这些都是基于事故的实时检测和响应服务实现的自动启动。由于这些创新,Allianz 2015 年总收入达到了 1252 亿欧元新高,比 2014 年上涨 2.4%,2015 年营业利润增长 3.2%,达到了 107 亿欧元。

在银行业务中积极地防止客户违约

挑战

像很多行业的很多公司一样,美国银行一直在努力寻找有效的方式来预防身后的风险,也就是说确定那些可能投向竞争对手的客户,并进行干预从而挽留他们。该公司求助于其数据科学团队,以探索阻止这种情况发生的新策略。

解决方案

数据科学家使用交易历史,针对有抵押贷款的客户和有转移风险的持卡人开发新的行为模型。然后,科学家们与同事一起,开发基于这些模型的推荐系统,可以在客户下一次与银行联系时挽留有风险的客户,无论是通过线上、营业厅还是呼叫中心。

结果

虽然该转型的关键绩效指标不具有普适性,但美国银行依然对项目结果和其他数据科学计划感到非常满意,包括在增强其风险管理能力方面对算法和大数据的应用,报告表明前者使他们减少了贷款默认计算时间约 95%。 因此,美国银行通过统一的分析小组并以矩阵汇报关系对应多个业务功能和单元的方式,来扩展和加强其数据科学能力。

幕间休息:来自我们的朋友

基于量子的解决方案如何改变银行和保险业

​ —— 作者 John Kelly,QxBranch 首席分析师

数据科学与金融:一个有挑战性的关系

数据科学正在彻底改变银行和金融机构。机器学习作为分析数据的主要方法,它的出现在能力以及实施尖端解决方案所需的技能基础和管理结构方面体现出了相对快速的提升。金融公司正在寻求外部帮助来识别和利用新的机会。

大部分数据的敏感性、监管要求、大量的高分辨率信息以及系统的关键性,使得该领域成为最具挑战性的领域之一。在 QxBranch,我们的团队自豪地提供了先进的解决方案,能够无缝地应对这种复杂性。

大数据如何帮助银行更好地了解客户

正如你所预期的那样,金融行业在风险管理、交易和经济分析方面受益于高级分析。高级分析还为欺诈、恶意或其他非法交易的监控行为提供了极大的价值。与其他行业一样,应用于客户的高级数据分析可以通过产品(信用卡、家庭购买、投资等)展示详细的洞察力,包括定义和分析银行客户、阐明行为、了解他们的行程。这有助于银行根据客户的需求定制产品,提供更好的服务和优化客户寿命值和保留期。

用机器学习了解风险

QxBranch 看到将高级数据分析应用于保险产品的巨大潜力,这是保险公司的主要活动领域。高级模型特别适用于动态演变的风险区域,即随着时间的推移模型不一定按照相同的原则做出行为,比如网络保险。 我们使用一个简单的端到端分析框架 Dataiku 来开发一些最复杂的解决方案。

量子解决方案:下一个脚步

QxBranch 是开发量子计算软件的领导者。量子计算机会在未来几十年对经济的各个领域进行革新,其中许多初期的应用程序都将基于机器学习。QxBranch 与金融行业(和其他垂直行业)的领先公司合作,描述技术如何影响其业务和竞争格局。Dataiku 将无缝集成到量子软件中。量子计算需要在预处理过的、清洁的数据上运行。对于这样的计算,我们采用 Dataiku 来摄取、清理和准备手头的数据。之后,我们输入一个调用量子函数的自定义 python 模块。计算过程在量子计算机上运行,而概率结果会被重新注入 Dataiku 进行分析和可视化。

注:QxBranch 是一家在全球运营的高级数据分析公司,在系统工程方面运用专业知识,为投资银行、对冲基金和保险公司针对聚焦数据的问题开发复杂、强大的解决方案。

在银行业务中发现新的客户细分

挑战

一个大型零售银行集团认为,其用来定位销售和进行市场营销活动的对现有客户的细分仍有改善的余地,但分析师似乎已经使用银行的 CRM 系统尽最大可能完善了客户细分。

解决方案

该公司决定尝试类似于美国银行部署的策略来帮助解决其身后的风险:挖掘大型交易数据档案,以开发新的客户行为模式。具体来说,保险公司将交易数据和 CRM 数据结合在一起,并利用挖掘算法来显现之前未检测到的行为与配置文件的相关性。

结果

鉴于这些相关性的结果,新的细分市场现在正在被营销和销售用于指导报价和促销活动,转化率提高了三倍。令人高兴的是,该公司现在已经向他们的数据科学家指派了任务,分析网络日志和其他在线行为指标,从而优化数字和全方位的客户体验。

自动化保险行业中生活事件的市场营销

挑战

一家较大的保险公司认为确认重大事件(如婴儿出生、结婚或离婚、购车、出售房屋等)何时发生具有很大的挑战性,如果能够确认,就能及时根据这些事件为客户和潜在客户提供合适的产品。

解决方案

该公司的数据科学团队结合了 CRM 数据、合同数据、博客和社交媒体数据,并对综合数据进行了分析,以开发出能够预测这些事件何时发生或将要发生的预测模型,并将消息传送给销售和营销部门。

结果

该项目根据生活事件提高了对客户的检测和定位能力,从而实现了可以实时自动触发的以事件为主题的新活动的开发。该公司正在扩大其数据科学项目,包括根据个人客户行为检测欺诈性索赔和开发新的个性化产品和服务。

检测欺诈保险索赔的新效率和准确性

挑战

一家补充保险的大型提供商希望找到更有效的方式,来检测潜在的针对眼科护理的欺诈性索赔,据他们估计这类索赔使他们每年花费 15 万欧元。他们只有足够的资源对被认定是潜在欺诈索赔的 10% 进行跟踪,所以他们想找到一种方法来确保最高可能的概率,即建议做调查的索赔确实是那些看起来最具欺诈性质的。

解决方案

保险公司的数据科学团队将处方、患者和护理人员的内部数据结合在一起,并针对此综合数据测试了大量欺诈检测算法。在找到一个证明可靠的模型后,他们基于该模型建立了一个实时 API,以便根据索赔具有的可能的合法性指导索赔管理系统内的索赔自动决策。

结果

该公司报告说,识别潜在欺诈行为的新系统已被证明在欺诈检测方面比传统方式有效三倍,并且通过实时数据流持续对模型进行改进,他们预期会有更好的表现。

幕间休息:来自我们的朋友

银行和保险数据项目中待解决的 3 个挑战

​ —— 作者 Julien Cabot,BlueDME 公司 CEO

自 2011 年以来,我有机会参加了 Data Lab 在银行和保险行业的一些项目。这些年的经验告诉我,为了取得成功,必需先解决三个重大挑战,而对一个 Data Lab 项目的简单准备可以先放一边。

  1. 访问和资格认证是成功的关键因素,因为没有数据,所有的办法都起不到作用,无论这种方法多么巧妙。此外,项目中 60% 到 70% 的努力与数据的资格和准备相关,而必要的任务却没有增加什么价值。鉴于数据科学家的小时成本,有效性和生产力在收集、研究和准备数据的过程中是至关重要的。任何有助于加速这一阶段的工具和方法,很快都会被证明是值得的。

  2. 将数据科学工作的结果加入到操作流程中的能力,无论对于预先计算的指标还是对于实时可用的预测模型,都是至关重要的。实际上,分析研究导致数据和“数学对象”以预测模型的方式发生新的转变,操作信息系统仍然能够对其进行集成。然而,往往要看研究产出的真实价值。

  3. 衡量数据科学项目的投资回报率很重要。由于项目的探索性质,对每个项目的单位投资回报的确切估算是特别复杂的。采用广泛项目的方法,可以使产生重要投资回报率的项目能够为仅获得相对有限结果的实验提供资金,就像私募股权投资策略一样。

IDEA 1:为专业团队准备一个数据搜索引擎

专门针对精算师专业团队准备一个数据搜索引擎,对于负责统计研究的人员以及与 Data Lake 和 Data Lab 合作的风险团队会从中受益。它有助于实现内部和外部数据目录、以能够适应不同任务的方式对这些数据的探索、以及在银行保险领域对最有用数据的共享。Blue DME 的数据交换平台的基本概念是一种协作方法的发展,由 Data Lab 丰富了功能,目的是在两个专业领域之间应用 Data Lake 数据。

IDEA 2:通过 WEB 服务从新生代的预测模型中进行展示

得益于 Dataiku DSS v3 等数据科学领域的现代解决方案,通过 Web 服务进行展示的效率和效果正在提升。这些展示来自预测模型的新产物,如随机森林、渐变增强,等等。手动配置逻辑回归的日子即将结束。对二进制预测模型的直接展示提升了这些先进模型的性能,同时最重要的一点是使其得到了简化。

IDEA 3:成功的内部和外部货币化的逻辑

ROI 的计算由预测模型提供的结果生成,其受限于内部优化,而预测模型则与之前的环境相关。基于数据开发新服务的想法正在变得越来越重要,从而使新的高利润收入成为可能。

注:在银行和保险行业,Data Lab 项目通常是一个更大的进程的第一步,它将组织转变为“数据驱动型业务”模式,远远超过客户意识或风险。

正如所看到的

尽管 Mircea Mihaescu 是对的,在对大数据和算法的利用上,传统银行和保险公司落后于对手 GAFA 和 Fintech,不过有很多领导者已经开始采取相应的措施来消除算法差距,他们常常通过利用他们最有价值的资产之一来实现,即他们深度的客户数据历史档案。

他们也在充分利用其专业基础以及行业专家,前者需要良好的数学和统计知识,而后者能够相对容易地使用大数据工具和技术进行高级分析,他们是像 Prudential 的副总裁兼精算师 Christine Hofbeck 这样的人,Christine Hofbeck 将她的精算技巧引入预测分析。正如她所说,只需要一点点努力,而机遇却是广阔的:“价格优化。寿命值和保留模型。价格弹性。风险选择优化。预测承保。注册优化。目标营销。了解投保人行为的驱动因素。购买倾向。失效和流失分析。绑定的可能性。了解基于客户行为的市场变化。市场细分。中介细分。寻找人群中隐藏的需求,开发盈利产品...我可以继续列举,机会是无止境的。“

踏上正确的道路,充分把握这些机会,只需将人、数据、工具和流程放到一起形成的正确组合。

第三部分:采取行动

合适的人

数据科学家的长期性短缺

理想的数据科学家应该拥有先进的数学或统计知识、坚实的计算机编程技能、大数据处理及存储工具和技术的知识,以及他们工作领域的专业知识。

拥有这种多样化技能、知识和经验的专业人士数量不多,远低于市场需求。 正如麦肯锡公司所预测的那样,到 2018 年,只美国就会有 490,000 名数据科学家需求,而候选人却少于 200,000 人。虽然许多大学已经通过新的数据科学计划来加强填补这一空白,但长期性的短缺还是会持续一段时间。

机构内部策略:用内部人才满足需求

这种短缺导致一些公司采取帮助现有人才的策略,如 Christine Hofbeck,以此来发展数据科学能力。例如,思科系统与两所大学合作,在数据科学领域建立远程学习教育和认证计划,目前已有超过 200 名员工接受过数据科学家培训和认证。

除了简单地帮助满足对数据科学人才的需求外,这种内部方法还提供了额外的好处,即为即将参加工作的数据科学家配备了必要的企业知识和学科专业知识。幸运的是,正如思科的例子所示,现在有很多资源可以帮助企业通过内部策略获得成功。包括:

  • 通过大学提供的大量线上的、业余时间的和按需的数据科学培训课程。

  • 由专业服务公司和软件提供商提供现场培训。

  • 数据科学启动训练营。

  • 专业协会的发展项目,如事故精算学会最近在数据科学和预测分析方面为精算师增加了认证。

发展内部人才

识别候选人

如前所述,大多数银行和保险公司已经具备拥有数学和统计学专业知识的分析师和科学家,包括许多硕士或博士人员。这些专业人士包括精算师、索赔分析师、风险分析师、保险商、经济学家、股票分析师、市场分析师和许多其他可以轻松利用数学和统计知识、定量技能来理解和操作新类型机器学习算法的分析师,这些人能够相对轻松地使用 Python 或 R 语言扩展其现有的编程技能(VBA、 SQL、SAS/JMP 等),这可以帮助他们执行这些算法。

建立在核心数学和统计技能上

例如,对于信用评分中的广义线性建模(GLM)、使用机器学习算法来增强 GLM 结果、甚至使用 R 和支持向量机器或神经网络算法作为替代方法而言,用 Excel 和 VBA 的差别不大,尽管人员之间的差别相对较大,如运行封装算法却不真正理解其内涵的人与可以在一个算法中解密数学和统计运算并根据需要对其进行优化或调整的人,他们深厚的行业经验背景也有较大差别。

开发大数据需要的 IT 技能

除了这些核心定量技能外,大多数银行和保险分析师都对信息系统有所了解,并经常从各种来源获取和准备数据,尽管他们可能不熟悉大数据管理技术。但需要再次强调的是,他们可以学习,而且幸运的是,大数据技术已经成熟到具有通用信息系统技能的人都能够将其掌握。具体来说,与第一代大数据技术相比,目前大多数大型数据系统都具有能够使连接、转换、查询和可视化数据更加简单接口和工具。

尽管获取这些新的或扩展的技能也许相对容易,参与者应该对终身学习有一个自然的倾向,因为如果数据科学有一个常量,那么它会是不断变化的,正如它的发展速度所证明的那样,持续演进的大数据管理技术、编程语言和算法策略都融入到了数据科学。

对于迎接这一挑战并致力于这一学科的专业人士而言,回报有很多,包括专业地区分自己的能力、吸引高额薪酬、推动职业发展。还可以减轻其与手工过程和计算相关的大量工作,释放他们去培养更多的好奇心、创造力和判断力。

合适的数据

从“数据排放”获取价值

尽管银行和保险公司在其拥有的历史客户数据方面,较行业新进入者具有潜在的优势,他们仍需要适当的工具来从数据中收集可行的见解,并能够利用外部数据对其进行丰富。正如 Fintech 公司所表明的那样,来自社交媒体和多媒体、智能手机、电脑、IoT 等消费和工业设备的数字化的“数据排放”,可供银行和保险公司使用,并且在某些情况下已经被用作行为洞察的丰富来源。

超越常规来源

例如,如果你正在开发用于家庭保险索赔的欺诈分析工具,则可能需要集成索赔管理系统的内部数据、文档管理系统和带有外部数据(如天气、信用和财务信息)的第三方声明,以验证索赔人的身份和可靠性以及在特定时间发生特定事件的可能性(同时,也是在为使用智能家居系统的远程信息数据和区块链认证交易数据来解决大部分当前的索赔歧义做准备)。

获得开放数据的优势

尽管一些有用的外部数据的现有来源其获取代价昂贵,但是以前大量不可用的外部数据现在可用作公开的公共部门数据使用。

例如,美英两国政府和欧盟最近推出了“开放数据”门户网站,以使大量的政府统计数据能够被利用,包括健康、教育、工人安全和能源数据。从广泛的来源对第三方数据进行更好地访问、内部独一无二的历史数据、适当的人才,使得保险公司和银行家能够稳健地获得和 GAFA 一样的优势,这些优势体现在基于事件的背景提出新的问题(这些问题有关客户以及更深入地了解他们的需求、要求和习惯)并利用这些洞察力为特定的客户群体甚至单独的“单人市场”更好地打造体验和产品。

然而,确保所使用的数据及其使用方式是合法和道德的,并且其质量足以产生可靠的分析结果是非常重要的。对于诸如此类的问题,必须有正确的技术和流程。

合适的技术和流程

现在,你有了合适的数据源和合适的人员,而接下来重要的是让你的数据科学团队配备合适的工具和流程从而获取成功。为实现此目的并最大限度地提高数据科学投资的回报,有以下四个重要步骤:

  1. 加速和确保基本工作流程。

  2. 采用平台方法,并进行明智地选择。

  3. 建立良好的分管理措施。

  4. 站在数据科学产品和 KPI 的角度思考。

加速和确保基本工作流程

要取得成功,数据科学家的三个基本工作流程需要是精简的、自动化的和灵活的。数据科学家应该能够轻松地从任何数据源连接和准备数据,从而使用喜欢的语言并应用最适合其需求的算法类型执行建模和预测,以及轻松生成可供不同的内部和外部系统所用的可行的结果。

数据准备和丰富

数据收集和准备阶段是劳动力最密集的阶段,平均消耗一名数据科学家 60-80% 的时间。因此,选择一个工具可以实现自动化或者至少加快与数据准备相关联的提取、转换和加载(ETL)工作流是至关重要的。

工具应具备以下功能:

  1. 非远程的、基于向导的连接器,可用于各种数据源。

  2. 可视化处理器,用于代码自由的数据审查和清洁。

  3. 能够像 Excel 一样轻松地过滤和搜索数据。

  4. 能够轻松执行大规模转换,包括用于常规转换的内置处理器和用于定制处理的宏。

  5. 随着数据的发展,轻松适应变化的能力。

最后一项功能是至关重要的,因为高级分析世界中的数据永远不会是静态的,而不能解决这种变化的技术和方法将一直无济于事。

建模与预测在数据准备阶段,开放性、自动化和灵活性对于支持建模和预测阶段的工作流程至关重要。因此,一个有效的工具需要提供以下功能:

  1. 逐步的可视化的指导,以加快模型建设。

  2. 对普通机器学习库的本地支持,具有专门的 API 访问权限。

  3. 可以直接使用 Python 和 R 等通用语言编写代码。

  4. 评估性能、比较结果和优化模型的视觉反馈。

  5. 白盒透明度及报告,以帮助分析师了解各种互动以及选择带来的影响。

执行和部署由于数据科学的最终目标是产生可操作的可用结果,所以最后一个工作流程阶段应该:

  1. 自动化产品生产流程,包括数据可视化和可使用的基于标准的 API。

  2. 可以让数据科学家将整个工作流程(包括数据和模型)打包成单个可部署和可复制的包。

  3. 在捕获的工作流程中支持版本控制和回滚。

采用平台方法,并进行明智地选择

要想能够回滚到以前的版本,或者容易地生成可部署和可重复的包,而在从数据收集到建模再到生产的所有项目阶段却不使用一个单一的数据科学平台,这几乎是不可能实现的。

最大化效率

采用单一平台而不是使用专门的工具,除了回滚和部署外,还有许多其他好处。一个重要的好处是消除时间浪费,包括在各种数据源、系统和工具之间切换所花费的时间,以及科学家在项目之间切换时(这很常见)赶上之前工作的速度所损失的时间。

支持协作

平台策略还使团队能够协同工作,例如数据工程师收集和准备数据、分析师运行模型、或者初级数据科学家一边工作一边向更有经验的同事学习。这是必不可少的,因为数据科学团队通常是多样化的,每个成员都有独特的优势和劣势。

知识获取

平台战略还提供了一种“生命周期”方法,使得能够构建一个可行的与知识产权资产有关的基础知识库,类似于产品生命周期管理(PLM,Product Lifecycle Management)平台在制造过程中发展的方式,以避免从设计理念到制造到最终商品处置的过程由于捕获、存储、重新使用知识而重复造轮子。

开放是关键

然而,除非平台是开发的,否则这个方法将最终证明在快速发展的数据科学世界中会受到限制。开放性及不确定的供应商和技术意味着,尽管基础的数据源、编程语言、大数据存储和管理技术以及算法不可避免地会发生变化,为数据科学家提供的用于收集、分析和可视化数据的框架将保持不变。

建立良好的分析管理

平台方法的另一个优点是,它更容易实现强大的“分析管理”。在 PLM 中,好的管理对于确保结果的有效性和创建“安全数据空间”至关重要,其中隐私、保密性和安全性得到严格保护。数据科学的管理对于生产高品质、可复制的分析项目很重要,而这也是许多行业所面临的困难。

然而,银行和保险公司在制定组织结构、管理框架和规则方面拥有长期和严密的经验,可以为他们在扩大和维持其数据科学计划带来的初始竞争优势方面带来好处。然而,无论采取怎样的具体技术框架或管理策略,银行和保险公司都应该致力于建立自己的内部数据分析能力、资产和知识产权,而不依靠第三方提供商,尽管最初的工具、流程、人员转型数据可以由合作伙伴进行协调和启用。这些合作伙伴可以协助奠定数据访问、协作和知识资产化的基础,并协助部署所需的工具和基础设施,以确保可持续的数据科学能力。

站在数据科学产品和 KPI 的角度思考

最后,企业需要努力设计项目,寻求解决明确的业务问题,即使有些资源被用于纯粹的数据挖掘。这可以帮助避免数据科学计划中的主要缺陷之一:在太多的实验项目中陷入困境,探索性的建模永远不会引入到可用的数据科学“产品”的生产中。

最后,预测和处方仅在可使用(例如,通过 API 集成到外部应用程序,如客户自助服务 Web 应用程序、移动应用程序或内部执行决策系统)或至少能够以可视化形式呈现从而指导利益相关者的决策时,才是有用的。

因为需要确保算法驱动创新的变革力量能够被最大化地利用,所以进一步确定和跟踪 KPI,从而评估业务用量和数据科学项目的价值以及产品,是确保数据科学项目有效落地以及调整方向的最终的宝贵手段。

总结

在配备合适的人员、流程和工具后,传统银行和保险公司不仅可以避免成为挑战者 GAFA 和 Fintech 的后台基础设施的命运,还可以占用这些后来者的优势,将其并入自身,从而成为 21 世纪新市场的创新者。

银行和保险公司有他们所需要的人员。它们具有独特的数据资产和独特的物理存在。他们在组织、管理和信任方面都有优势。接下来就是要清楚地认识我们所处的大数据和分析时代,通过掌握数据科学,抓住机遇,在新的时代蓬勃发展。

  • 如果业界资深人士这样做,他们既可以蓬勃发展,也可以塑造银行和保险的未来,未来可能会如何?

  • 我们在一个舒适的银行咖啡馆里品尝一杯拿铁,同时享受着装备有人工智能的人类和机器人代理为我们提出有先见之明的建议,这样的事会发生吗?

  • 生物识别认证是否会成为规范,手指触摸或用眼睛一瞥会使钱包、点击和卡片过时吗?

  • 我们会在一个安全的全球区块链网络上交换虚拟货币、付款和保险单吗?

  • 同行、代理商、客户、经纪人、银行家、保险商等之间的关系是否会在一个互相连接的世界中消失?

很难说,但这会是一个银行和保险行业有利于帮助描绘的未来。

译:Dataiku 白皮书之《在银行和保险行业应用数据科学》的更多相关文章

  1. CockroachDB学习笔记——[译]CockroachDB中的SQL:映射表中数据到键值存储

    CockroachDB学习笔记--[译]CockroachDB中的SQL:映射表中数据到键值存储 原文标题:SQL in CockroachDB: Mapping Table Data to Key- ...

  2. 国内A股16家上市银行的財务数据与股价的因子分析报告(1)(工具:R)

    分析人:BUPT_LX 研究目的 用某些算法对2014年12月份的16家国内A股上市的商业银行当中11项財务数据(资产总计.负债合计.股本.营业收入.流通股A.少数股东权益.净利润.经营活动的现金流量 ...

  3. 创新能力加速产业发展,SphereEx 荣获“中关村银行杯”『大数据与云计算』领域 TOP1

    8 月 9 日下午,2022 中关村国际前沿科技创新大赛"中关村银行杯"大数据与云计算领域决赛在北京市门头沟区中关村(京西)人工智能科技园·智能文创园落下了帷幕.SphereEx ...

  4. 【译】 AWK教程指南 8处理多行数据

    awk 每次从数据文件中只读取一行数据进行处理.awk是依照其内置变量 RS(Record Separator) 的定义将文件中的数据分隔成一行一行的Record.RS 的默认值是 "\n& ...

  5. [译] 使用Using Data Quality Services (DQS) 清理用户数据

    SQL Server 2012 Data Quality Services (DQS)  允许你使用自己的知识库来清洗数据. 在本文中我会展示一个简单示例. 使用DQS清理步骤如下: A. 建立DQS ...

  6. [译]Stairway to Integration Services Level 5 - 增量删除数据

    在 dbo.Contact中添加一行记录 Use AdventureWorks go Insert Into dbo.Contact (FirstName, MiddleName, LastName, ...

  7. [译]Stairway to Integration Services Level 4 - 增量更新数据

    在本文中, 我们说下增量更新数据:即将数据源中更新了的数据替换掉目标表中对应的数据. 更新代码 操作之前我们先把目标表e (dbo.Contact). 的数据改掉 Use AdventureWorks ...

  8. [译]Stairway to Integration Services Level 3 - 增量导入数据

    让我们打开之前的项目:My_First_SSIS_Project_After_Step_2.zip 之前项目中我们已经向dbo.contact 导入了19972行,如果再次执行包会重复导入,让我们来解 ...

  9. 【译】第9节---EF Code First中数据注解

    原文:http://www.entityframeworktutorial.net/code-first/dataannotation-in-code-first.aspx EF Code-First ...

随机推荐

  1. os.listdir()、os.walk()和os.mkdir()的用法

    内容主要参照博客https://blog.csdn.net/xxn_723911/article/details/78795033 http://www.runoob.com/python/os-wa ...

  2. 信号(1): signal

    1. 头文件#include <signal.h> 2. 功能设置某一信号的对应动作 3. 函数原型void (*signal(int signum,void(* handler)(int ...

  3. 系统磁盘优化——"/var/spool/postfix/maildrop"

    文件清理 最近某服务器磁盘空间告警,在排查过程中发现"/var/spool/postfix/maildrop"目录下堆积了很多小文件,起初想直接删除,但是使用rm删除是提示“参数列 ...

  4. jmeter循环控制器加jdbc req结果配合组合参数遍历

    jdbc请求:jdbc sampler  保存结果中三个变量名 循环控制器:xhkzq     的循环次数填写:${其中一个变量名_#} 循环控制器里面:http sampler ,前置处理器,取消c ...

  5. [物理学与PDEs]第2章第2节 粘性流体力学方程组 2.2 应力张量

    1.  在有粘性的情形, 外界流体对 $\Omega$ 的作用力, 不仅有表面上的压力 (正压力), 也有表面上的内摩擦力 (切应力). 2.  于 $M$ 处以 ${\bf n}$ 为法向的单位面积 ...

  6. [译]Ocelot - Tracing

    原文 Ocelot是使用的Butterfly这个项目来实现这个的. 在ocelot要使用tracing, 首先得安装相应的包: Install-Package Ocelot.Tracing.Butte ...

  7. 有趣的若干个AI项目

    一.遗传算法跑贪吃蛇 1.下载processing,下载地址是:https://processing.org/download ,直接解压打开即可. 2.下载SnakeAI源码,下载地址是:https ...

  8. vue之生命周期函数例子

    执行代码看生命周期函数的执行顺序 <!-- 根组件 --> <!-- vue的模板内,所有内容要被一个根节点包含起来 App.vue --> <template> ...

  9. Problem B: Battle Royale(简单几何)

     题目链接: B - Battle Royale  Gym - 102021B 题目大意:给你两个坐标,表示起点和终点,然后给你两个圆,第一个圆包含两个圆,然后问你起点到终点的最短距离(不经过第二个圆 ...

  10. Pycharm新建模板默认添加作者时间等信息

    在pycharm使用过程中,对于每次新建文件的shebang行和关于代码编写者的一些个人信息快捷填写,使用模板的方式比较方便. 方法如下: 1.打开pycharm,选择File-Settings 2. ...