3.1.2 金融行业大数据现状
随着大数据技术的快速发展,大数据在金融业的应用场景正在逐步拓展,在风险控制、运营管理、销售支持和商业模式创新等细分领域都得到了广泛的应用。
1.金融行业数据源概览
金融行业内部积累的大数据资源、行业外部获取的大数据资源均可为金融行业所用。按照具体的业务场景,可将金融行业内的大数据源划分为银行业数据、证券期货业数据、保险业数据和互联网金融平台数据等方面。
(1)银行业数据
银行业数据主要包括以下五个方面,即客户信息数据、由客户交易获取的结构化数据,银行业务处理过程中采集的用于集中作业、集中授权、集中监控的影像、视频等非结构化数据,银行网站点击中隐含的大量客户需求或产品改进信息,各类媒体、社交网络中涉及的银行信息等。
(2)证券期货业数据
证券期货业的经营对数据的实时性、准确性和安全性的要求较高。证券期货数据包括实时行情、历史金融数据、统计数据、新闻资讯等,数据涵盖股票、期货、基金、债券、股指期货、商品期货等与宏观经济、行业经济息息相关的多个方面。证券期货数据的数据量大、变化快,期货数据每秒更新两次,每日产生上万笔数据。宏观经济数据包括国内宏观经济数据、地区经济数据、行业经济数据、国外宏观经济数据四大类,涉及超过13万个经济指标、670万条经济数据。新闻资讯不仅包括新闻信息和机构研究报告,还包括论坛、微博发布的网络舆情信息,这些数据需要采用网络爬虫、语音分析等非结构化数据处理方法进行数据挖掘。
(3)保险业数据
保险业数据包括保单、理赔单、电话营销录音、保险业相关行业业务数据、与具体险种相关的行业外数据(气象、经济指标、区域统计指标等)、医疗保险记录和病历、汽车险及投保者的驾驶违章记录数据等。保险业的非结构化数据多为影像数据。这些数据为保险公司的各类决策提供支持,支撑保险营销、定价等业务的开展。
(4)互联网金融平台数据
互联网金融平台数据包括支付数据、网络融资数据等方面。支付数据即用户的转账汇款、机票订购、火车票代购、保险续费、生活缴费等支付服务数据,网络融资服务数据主要是贷款方的财务报表、运营状况、个人财产等资信相关数据、投资方的个人基本信息和行为信息及偏好信息。互联网金融公司除了在自身服务平台上搜集数据外,还可以在互联网上获取如用户的网页浏览数据、其他平台交易数据、网络言论等数据资源,对客户的行为进行交叉验证。
2.国内金融行业大数据应用现状
由于行业的特点,金融行业在“大数据”概念提出之前,一直是数据治理、数据分析领域的积极实践者,并在数据仓库、数据分析平台、数据挖掘等领域进行了卓有成效的实践。近年来,金融行业积极吸纳、学习“大数据”理念和相关技术,结合自身业务将既有的数据分析工作推向了新的高度。目前,大数据治理和分析能力已经成为各类金融机构的核心竞争力和发展的重要推动力。
以下是国内金融行业大数据的一些典型应用场景。
(1)银行业的大数据应用
国内商业银行对数据的集中、规整、分析、挖掘可以追溯到2000年前后。近年来,银行IT系统建设积极采用大数据所带来的开放、聚合、互联、智能的理念和相关技术体系,取得了一系列应用成果。
①大数据平台建设:
实现目标:基于既有的数据仓库或内部数据分析挖掘平台,及时跟进、评估开源社区和大数据行业的技术发展进展,搭建融合数据仓库和开源技术的大数据处理平台,使得商业银行有能力基于行业内外的数据源开展各类大数据应用。
具体内容:在现有统一的数据库架构下,逐步审慎评估、纳入Hadoop、YARN、Spark、Tez、HBase、Kafka、OceanBase、NoSQL、内存计算、流计算和图计算等技术,使用个人计算机架构服务器搭建更具经济性的计算集群,以期在数据吞吐量、处理速度、数据源多样性、IT运维成本等方面获得较高提升,有效支持商业银行在线上、线下各类业务的效率提升和融合。
②大数据产品创新:
实现目标:基于商业银行多年积累的海量内部数据,纳入合规合法的外部数据,开发出门槛更低、更加便捷高效的创新产品,提升产品的竞争力。
具体内容:在多年积累的产品体系基础上,进一步提高内部数据的打通、整合、挖掘水平,纳入覆盖面更广、颗粒度更细的内部数据,借助特征工程、机器学习等大数据分析技术,结合征信、税务、互联网公开数据等外部数据源,在个人/对公信贷、供应链金融等业务场景中进行产品创新尝试,开发出线上申请、快速审批的互联网信贷产品。
③大数据风控尝试:
实现目标:利用大数据的先进技术,打通内部、外部数据,提升内控合规、反欺诈、信用风险管理等方面的技术水平。
具体内容:采用大数据总线技术,提升数据获取的颗粒度和数据更新速度,借助网络爬虫、图数据库、机器学习等大数据技术,提升数据分析的精度和场景匹配度,全面掌握客户风险情况,提升非现场审计的业务占比,在提高风控质量的同时,有效提升业务效率,减少时间、资金和人力资源的支出。
④大数据营销服务探索:
实现目标:利用行内积累的客户数据,结合大数据分析技术,准确理解客户需求,发掘潜在客户,提升对客户的感知能力和个性化营销、服务水平。
具体内容:引入非结构化数据处理技术,结合大数据总线技术、机器学习建模、个性化营销技术,利用内部各渠道积累的数据,强化客户行为数据的收集利用,提升数据获取的颗粒度和数据更新速度,通过线上或线下客户经理等通道,准确感知客户的实时需求,并实现全渠道的伴随式服务和营销。
(2)保险业的大数据应用
①费率计算模型优化:
实现目标:利用过往业务中积累的真实理赔数据,结合内部和外部大数据,通过构建更加精细的模型,实现保费的精准差异化定价,提升盈利能力。
具体内容:利用大数据平台,将内部的客户属性信息、外部获取的客户行为习惯信息与真实的客户理赔数据进行关联,进而使用因子分析、特征工程、逻辑回归、决策树、随机森林等算法,经过多轮数据建模与场景化调优,构建出基于大数据的保费定价模型,对不同理赔概率的客户提供差异化的报价。
②客户结构优化:
实现目标:利用历史积累数据,从既有的客户群中,探索出高价值客户群,为进一步优化客户结构提供决策参考。
具体内容:借助关联分析、回归建模、机器学习建模等方法,结合业务规则,对赔付率正常、件均保费高、库存高的客户群体进行精确定位设计专项营销,提升高价值客户群的业务转化率。
③好名单优选:
实现目标:利用数据挖掘方法进行客户营销转化率分析,区分目标客户的营销转化率,提升营销成功率。
具体内容:使用回归分析、决策树建模等多变量分析技术,利用既有数据和外部数据资源,对客户进行精准画像,进而以转化率为优化目标,建立营销转化率预估模型,发现转化率高的客户,优先实施营销。
④基于客户行为的营销资源优化:
实现目标:基于历史数据和客户行为数据,实现营销资源的合理配置和有效使用,从而提升营销效果。
具体内容:对营销资源管理系统及历史数据进行分析,结合外部数据,分析客户行为偏好,找出投保最优配置,同时对投保系统进行优化,逐步形成投保全生命周期管理的完整流程。
(3)证券业的大数据应用
证券业是典型的数据生产行业和数据驱动型行业,无论是经纪业务中更好地获客、为客户提供投资咨询和辅助决策,还是资产管理中的量化投资模型的建立,都已经离不开大数据的支撑。
①大数据经纪业务:
经纪业务作为典型的通道中介,券商服务标准趋同,陷入价格竞争的红海,而大数据的引入为券商提供差异化服务提供支撑,助力券商将经纪业务由通道类业务转变成包含增值服务的金融服务,深刻改变着行业竞争格局。
客户营销:建立潜在客户识别模型和新增客户质量评估模型,制定针对性的营销方案,大大提高拉新效率;对于存量客户,通过建立客户渠道偏好模型、客户购买倾向预测模型、客户投资能力评价模型、产品关联分析模型、客户满意度评价模型和客户忠诚度评价模型等,制定针对性地促进客户活跃度的应对方案,开展相应的营销活动,提髙客户活跃度和贡献度。
客户转化率提升:通过对客户交易习惯和行为分析,提升客户交易的频率、客户的资产规模,从而提升业务收益。具体而言,就是根据客户的行为偏好,推荐不同的服务:对于交易频率低且年收益率较低的客户,推荐理财产品:对于交易频率高、收益水平高的客户,推送融资服务;对于交易频率低、资金量大的客户,主动提供投资咨询服务。
证券咨询服务:利用大数据技术提升投资咨询服务水准,增强客户黏性,例如,基于每日实时抓取的新闻资讯和股票、政经相关数据,通过大数据分析,帮助用户快速获取全网关注的投资热点。
②大数据资产管理业务:
实现目标:通过构建大数据模型,理顺主力资金与散户资金、主力行为与市场走势、散户情绪与市场走势等的关系,从而增加投资胜率:利用大数据技术,建立针对各个市场、面向不同用户的交易策略,让投资者能够科学稳定地在全球市场投资。
具体内容:利用大数据建立算法交易与量化投资平台,为证券公司资产管理部、证券投资部提供包括高频行情、智能策略交易与交易报盘绿色通道等在内的更加丰富、高效的策略化投资手段;借助大数据技术挖掘历史数据、高频数据和实时分析当前流式数据,通过交易策略的多维运算发现获利机会,根据设定策略全自动委托下单,从而快速完成交易服务,保证执行效率,降低冲击成本,同时实现高端客户的个性化营销,提升客户价值。
(4)基金业的大数据应用
大数据一个重要的应用是用来进行辅助投资、制定投资策略。具体来看,大数据可以用来进行选股和择时。选股方面,就是利用大数据甄选出基本面向好或投资方关注度较高的股票并形成投资组合,前者如根据电商网站统计数据购买近期销售向好、价格提升的产品品类的股票,后者如根据财经网站股票板块不同股票浏览数据筛选出近期关注度较高的股票。择时方面,可以利用大数据捕捉投资者的市场情绪,例如根据财经网站股票板块的点击量、关键词如“股票”的搜索量、博客中股票市场文章的发表和点击量等构建情绪指数,在市场情绪上涨时提升组合仓位、在市场情绪回落时降低组合仓位。
(5)互联网金融的大数据应用
互联网金融企业多数为纯线上服务,与客户没有直接接触,它收集客户数据的来源主要分为如下几类:第一类是自身积累的数据,这主要包括客户在金融服务类网站的行为记录,如电商的交易日志、支付的流水记录,以及一切登录浏览等行为;第二类是通过各类线上线下的合作伙伴处获取的数据,如行业黑名单、法院审判结果、第三方信用评估等;第三类是通过爬虫从互联网上采集的公开数据,包括新闻、各种空间自媒体、微博;第四类是客户授权从其他系统获得的数据,如客户的信用报告、联系人、工资单、银行流水、电商记录、信用卡流水、通话记录等。这些信息单独存在的价值都不大,但当它们汇聚成海量信息,成为大数据,经过数据采集、清洗、分析,建模、机器学习等一系列步骤,就可以建立集中式大数据平台提供服务。目前大数据在互联网金融行业的应用较为突出的领域有授信、风控反欺诈、营销、动态定价等。
①用户画像。无论是借钱还是投资,企业都需要深入了解客户,包括收入水平、偿还能力、消费偏好、资产配置等,甚至还包括他的心理状况、社会关系、所处行业的趋势等。这些对于客户投资借贷行为的预测都有着至关重要的意义。通过大数据分析,互联网金融企业可以把客户的属性标签从几十个扩展到几百甚至几千个,从而360°无死角地描述一个客户。
②快速授信。互联网金融通过大数据等技术手段降低了征信成本和营销成本,使更广泛的人群也拥有了贷款/投资的机会,现在行业小额贷款的审批速度已经普遍达到了十秒甚至秒级。
③风控/反欺诈。互联网在降低金融服务成本的同时,也给金融欺诈打开了方便之门。各种以“钻补贴推广空子”获利的“羊毛党”日益猖獗。身份伪造、恶意逾期等行为使互联网金融行业损失数以十亿元计,每个企业都为如何堵住漏洞发现欺诈绞尽脑汁。
通过对用户网络行为、设备动态、平台行为、交易行为,及整体行为的分析,可以形成一个用户的行为数据图片。例如,通过大数据业务分析和技术分析手段特别是特征工程能力对这些海量数据进行处理;通过对大数据关联叠加后利用特征工程可以找出各种“羊毛党”的行为规则。在识别“羊毛党”后,平台需对“羊毛用户”进一步细化分析,综合评判各细分人群对平台的影响,并依照平台的目标制定差异化运营措施,并从技术和业务角度制定相应的运营措施。
欺诈行为包括伪造信息提高授信,利用流程漏洞套利,甚至盗窃、伪造身份骗贷。由于互联网的非接触性和便捷性,使得这种欺诈实施起来更隐蔽,完成起来更迅速。在进行大数据反欺诈时,通常需要多个风控模型协同工作,这里包括基于用户个人申请信息的模型、基于用户社交关系的模型和基于用户历史交易的模型等。同时,还可以使用机器学习模型来自动挖掘非线性的特征组合,提高识别的准确率。大数据反欺诈的一个明显优势是,当模型众多、计算量达到一定程度时,结论和数据之间的关系已经无法靠人类经验来解读,这种情况下任何针对单一风控模型的造假就变得极为困难甚至毫无可能。例如,对一些有组织的骗贷行为,比如使用多个手机号登记、用多个空壳公司为其提供在职证明、填写不同的亲属关系等,利用人工手段进行甄别费时费力。通过大数据分析就很容易发现这些数据之间的关联,从而进行预警。
④大数据营销。对于互联网金融服务机构来说,它的一个永远的痛点是:如何在第一时间洞察客户的金融需求,使用有效手段触达客户,推荐最适合的产品,引导客户在本机构完成贷款或进行投资。
大数据在营销方面的一个解决方案包括分析信贷产品、洞察目标客群、做客群画像;通过意愿预测模型,预测客户意愿;对客户进行分层,不同价值等级采取不同的营销手段;结合客群共同特征进行营销模板的设计;实时性的数据反馈,进行模型的优化迭代;对客户的动态分析,帮助风控建模及交叉营销。由于结合了大数据的精准营销模式,整体响应率、符合率都比传统模式有较明显的提升,模型逐步的优化迭代,各环节营销效果也是呈上升趋势。
⑤动态定价。动态定价是指抛开传统的围绕产品的固定定价模式,将价格与服务的场景、对象绑定在一起,更精准地用价格杠杆应对风险,达到提高收益的目的,这个应用的典型例子是运费险:通过大数据分析,让保险公司能够针对具体的人和商品来进行定价。具体来说,就是通过对退货风险的大数据分析,发现退货概率和消费者属性和消费场景的内在关联关系,例如,女性更容易退货,鞋类退货率高。再通过数据建模和深度学习,制定出总收益最高的保险费策略。于是,对低退货风险的人和商品,运费险只要几毛钱,而在高退货风险的情况下,运费险甚至可能比商品价格还贵。最终保险公司提高了收益。另一个目前开始流行的动态定价的应用是动态利率。对于同一类信贷产品,针对不同用户,甚至针对不同场景下的同一个用户,都可以实现利率实时计算,而不是基于某种预先设置的静态策略。
(6)大数据的流通
随着大数据时代的来临,金融、商贸、医疗、教育、人工智能等产业对数据流通共享的需求日益增长。IDC报告显示,工业和信息化部电信研究院《中国大数据发展调査报告(2017年)》显示,我国59.2%的受访企业已成立数据分析相关部门,35.1%的企业已经应用了大数据。其中64.9%的受访企业选择本地部署大数据平台,另外33.1%的企业倾向于通过采购云服务方式应用数据
国外大数据流通市场始于2008年前后,得益于较为完善的法律制度、信用体系和数据开放环境,企业间数据交易较为活跃。根据《2016大数据全景图》(马特·图尔克,美国第一标记(First Mark)风险投资公司),国外大规模以上数据经纪服务企业有70多家,包括推特(Twitter)、领英(Linkedln)、甲骨文(Oracle)、微软、富士通(FUJITSU)等企业都已涉足。
国内大数据流通市场起步于2010年,尚处于初始阶段。在交易所建设方面,2015年4月14日,全国首个大数据交易所——贵阳大数据交易所正式挂牌运营并完成首批大数据交易。由上海经济和信息化委员会指导的上海大数据交易中心也于2016年4月1日挂牌成立。此外,诸如北京数海科技、数据堂、北京腾云天下科技有限公司(TalkingData)、中关村大数据产业联盟等企业和产业联盟在数据交易流通领域开始布局。
对于敏感度较高的金融行业大数据,其流通价值是可以预见的。业界普遍认为,必须要依托政府和市场的双重力量。由数据供方、数据平台、数据需方和监管机构四方参与的数据交易机构作为兼具“技术、信息安全和法律保障”的数据价值转化渠道,可以有效规范数据交易行为,实现商业价值、个人隐私和公共利益的平衡。