微信号:ai-front

介绍:面向AI爱好者、开发者和科学家,提供最新最全AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、最新AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。

海量数据与海量金钱:大数据在金融领域的作用

2017-11-06 19:00 Jennifer
作者 | Jennifer Q. Trelewicz
译者 | BrotherZhao
编辑 | Vincent
AI 前线导语:

本文要点:

在考虑大数据的 3V 特性——Volume、Velocity、Variety 时,很难有哪个行业的要求与金融领域指导方针如此完美贴合。

新的规范和汇报标准的持续流动为金融行业提供了新的数据源和更加复杂的维度,比如 XVA。

一些大型金融机构曾在采用大数据方面步履缓慢,但是普华永道的市场研究澄清了这些机构中的组织文化方面的阻碍因素,其中很多方面在其他行业也都存在。

市场交易模式的自适应模型可以为买卖特定类似资产的投资策略提供输入。

尽管没人能够 100% 预测未来市场,历史数据和当前市场参数的深度分析依旧提供了市场趋势和市场行为的熟练模型。

更多干货内容请关注微信公众号“AI 前线”(ID:ai-front)

在说起高科技驱动的行业时,人们——至少有不少人——首先想到的肯定不是银行业。然而,当我们考虑大数据的 3V 特性——Volume、Velocity 和 Variety——时,很难有其他行业能够比金融行业更加贴近这些特性。例如,仅 2016 年 4 月一个月,外汇(ForEX)市场每天平均交易额为 1.5 万亿美元。外汇市场提供了世界各国货币之间的实时汇率,促进了全球贸易和结算。

在本文中,作者会讨论大数据方法与金融行业的相关性,描绘出金融行业采用大数据面临的挑战和科技发展的未来机会。尽管很多应用领域都与消费金融相关,由于金融行业的交易体量和资金体量的缘故,本文集中在企业银行方面(金融市场、企业信贷、交易等)。

金融行业大数据

我们先检验一下大数据的 3V 特性与金融的关联:

  • Volume:TB 甚至 PB 的数据才被认为达到大数据级别。金融行业产生了大量的报价、市场数据和历史交易数据。单是纽交所一天就会写入超过 1 TB 的数据。

  • Velocity:数据存储或者处理速度达到每秒 100000 次以上才认为符合大数据标准。 对于金融市场而言,如此高速的产生数据不算什么难事。而且,系统处理交易数据的速度越快,他们交易的速度就越快。

  • Variety:这要求大数据算法能够处理不同的数据格式和数据源。在企业银行中,机构要同时处理参考数据(比如法人实体)、交易和市场数据、客户要求(通过电子或者声音的形式提出)以及其他很多数据源。

从大数据的视角来看,金融行业更有意思的地方在于,新的规范和汇报标准形成的持续流动为金融系统提供了新的数据源和更加复杂的维度。

这使得金融行业成为数据科学家施展拳脚的地方。

除去周末的短暂时间窗口,前文提到的外汇市场全天 24 小时交易,从澳大利亚悉尼的早晨到美国纽约的夜晚。另外,算法交易已经在金融市场以各种形式存在了很长时间。纽交所在 20 世纪 70 年代初期引入了其指定的订单周转 (DOT) 系统,用于将订单周转到交易操作台,此前这些都是手动执行的。现在,算法交易系统将很大的订单拆分为较小的订单,并基于时间、价格和体量自动执行交易,市场参数得以优化。

在连续的基础上,大量数据的处理被用于金融机构的报告。

  • 银行和金融市场规范越来越频繁地要求计算复杂的度量指标,如 XVA(基于交易对手信用风险、融资成本、保证金等对衍生工具的估值调整)。这些指标被用于设定银行的最低资金保留额度,而后者直接影响银行利润率。

  • 分析时序交易数据,对市场和用户行为建模。例如,绘制交易量随时间的变化图有助于预测信用违约的可能性,为银行节省贷款资源。

一些大型金融机构在采用大数据方面步履缓慢,但是普华永道的市场研究澄清了这些机构中的组织文化方面的阻碍因素,其中很多方面在其他行业也都是相关的。首先,一些金融行业管理者认为,大数据只能解决技术问题而不能解决业务问题。然而,数据是由业务产生的、数据结果用在业务上,很明显技术是支持业务的。一些人不理解如何从数据流中获得价值,而另一些觉得大数据方法可以提升技术效率但是对于盈亏底线用处不大。然而,大数据方法可以提供的深度分析能够直接支持业务增长并提升效率。金融行业从来不是数据科学家的心之所往,所以一些金融机构在为自身寻找和吸引技能型人才方面困难重重。最终,即使是金融机构具备变革意愿,但他们并不清楚要让企业转型利用大数据方法应该如何开始、从何处开始。

然而,根据最近 IDC 的研究,银行业位于行业投资大数据研究排行榜前列,如图 1 所示。并且,金融科技公司,或者 FinTech 公司,正在为银行在资产和财富管理方面的大量需求开发解决方案和产品;图 2 给出了基于普华永道报告 [6] 的各领域 FinTech 公司的比例。追随这一趋势,围绕着金融数据提高业务效率的其他应用,研究和算法也有很大进展。我们接下来重点介绍其中几个。

图 1. 2016 年大数据分析市场(1310 亿美元)(Original data from IDC5)

图 2. 不同领域 FinTech 公司的大致比例 (Original data from PwC6)

市场交易模式

市场交易模式的自适应模型可以为买卖特定类似资产的投资策略提供输入。本节展示一个例子。

除息日(也称为 X-Day)是存托凭证(DR)的卖方有权获得最后一次派息的第一个交易日。在除息日之前,DR 的买方将获得分红。美国 DRs(即 ADRs)是由非美国公司在美国市场交易的金融工具。因此,股息存在双重征税负担:美国的税收和发行 ADR 的国家的扣缴税款。其结果是,投资者有动力在除息日之前卖出 ADRs,并在除息日之后买入。当然,税收政策对 ADR 市场的稳定性有很大的影响。

在最近的研究中,Bi-Huei Tsai 对 ADR 市场进行了测验以了解市场交易量 [7]。此类算法对此类市场进行的分析可以基于最近市场交易量提供最优交易时间。作者分析了在派息日期间(派息日前后 10 天)的 ADR 交易量(每日交易量减去每日“正常”交易量)的超额比率,结果与派息税率正相关,为税收政策对 ADR 市场的影响提供了模型。交易者和政府税收当局都可以利用这一模型制定策略。

实时信用评级

这个应用并非金融行业独有,但与服务消费者和中小企业的银行有关,那就是实时处理数据以进行信用评级。例如,Klarna、Lenddo 和 Credit Karma 这样的 FinTech 公司都提供有关在线信用评级和认证的服务。在最近的工作中,王莹、李思明和林张希(音译)研究了电商的实时信用评级。

任何申请一大笔钱的人都会很熟悉处理流程。传统上,银行从申请表和其他渠道收集申请者的信息。专家分析这些信息并提出此客户的信用建议,其中包含了利率和偿还条款。申请者和银行可能会有协商,可能为了整体而在不同贷款参数做妥协。签订贷款合同之后,客户可以利用这笔钱并在未来偿还贷款。

不仅是数据收集和条款协商浪费时间,而且有两个因素使得一切更加复杂。首先,很多用于信用评级的数据中心是按月更新的,所以银行可能无法从这些来源得知客户最近的财政问题。而且,非金融因素有可能增加违约风险。作者研究了几个与大型电商平台有关的因素:登录平台频率、附加合同信息(包含手机号码)的提供、上月交易量、整体成功交易数量、成为平台客户的时长、客户的业务领域等。基于这些参数,作者对历史数据进行线性回归分析,得到了违约概率和不同参数的关系。结果是可以帮助电商平台基于用户在线行为进行信用评级的模型。传统的中心化信用评级数据库中甚至都没有这些参数。

银行业更加高科技

前述两个例子绝没有对金融领域的大数据算法应用做出限制。尽管没人能够 100% 预测未来市场,历史数据和当前市场参数的深度分析依旧提供了全面、自适应的市场趋势和市场行为模型。反过来,这些模型促进了交易人员、金融机构和其他玩家做出全面和快速的决策。

IT 精英的机会在于,为快速增长的行业开发新的技术和解决方案。从 2014 年到 2015 年,FinTech 融资增加了不止一倍,预示着这一行业的机会和行业对于产品及解决方案的需求。图 2 的大致分类为产品、流程和客户体验方面的创新留下了巨大的空间。想到高科技驱动的行业时,首先想起的是金融行业,这样的日子可能不远了。

关于作者

Jennifer Q. Trelewicz 是德意志银行技术中心的技术风险官和负责风险技术的 CTO。她感兴趣的研究领域包括大数据、高性能数值算法和创新管理。Trelewicz 曾在业界领先的科技公司如 IBM、微软和谷歌工作,在不同国家拥有多项授权专利,在不同的国际杂志和参考刊物上发表过文章,也在主动志愿支持 IEEE。她拥有亚利桑那州立大学的信号处理博士学位,还是国际荣誉协会 Tau Beta Pi 和 Phi Kappa Phi 的终身会员。可以通过邮箱 jentre@ieee.org 联系她。

阅读英文原文

https://www.infoq.com/articles/big-data-in-finance




 
AI前线 更多文章 如何整合复杂技术打造数据分析平台? 奇点机智CTO林德康:学术届与工业界两栖的实用主义者 所有人都在评论新发布的智能音箱时,我们挖出了百度背后的这家瑞典小公司 Geffory Hinton的“胶囊”里到底装的什么“药”? AI一周热闻盘点:亚马逊宣布支持ONNX;科技部公布首批国家人工智能开放创新平台名单
猜您喜欢 简单纯粹的二维码扫描工具-斑马线扫描 第三十五讲 浅出class 全民直播时代,直播离红海还有多远? 华为 开源软件列表 简述JVM基础(五):虚拟机类加载机制