【世界聚看点】FinBench:金融场景下的图系统选型
导读 FinBench,全称 Financial Benchmark,是蚂蚁集团基于业务实践总结出来并在 LDBC 组织下多厂商共同建设的金融图场景系统基准评测,本次分享题目为《FinBench:金融场景下的图系统选型》,该文章内容基于 TuGraph 社区 MeetUp 演讲实录整理。
全文目录如下:
1. FinBench Background
(资料图)
2. FinBench Scenarios
3. FinBench Design
4. FinBench Chokepoints
5. Progress and Plans
分享嘉宾|戚仕鹏 蚂蚁集团 FinBench 开源项目负责人/LDBC Steering Committee Member
编辑整理|付欣岚 中国农业银行
出品社区|DataFun
01
FinBench Background
首先来介绍一下 FinBench 的背景。
1. Why Benchmark?
不同的数据库具有不同的特性表现,例如查询语言有 Cypher,Gremlin 等,图模型有语义的 RDF 和属性图,计算场景上分为 TP、AP、HTAP,数据库的场景和功能都是多种多样的。用户选择使用哪一个数据库与怎样构建整体的业务解决方案,这两个问题相生相成,业务方和用户很难严谨地对比这些数据库。
Benchmark 提供了一个真实的场景,有一些特殊的数据 pattern,或者计算测试 case 的 pattern,帮助去测试系统,来验证这些系统的功能的正确性、性能、稳定性等。比如 TPC-C 是在关系型数据库(RDBMS)领域中比较经典的一个 Benchmark,它描绘了一个供应链/零售场景去对系统进行测试。
2. Benchmarks by TPC for RDBMS
发展比较早的 TPC 是关系型数据库领域的 Benchmark 组织,其下的 Benchmark 有 TPC-C、TPC-H 和 TPCx-AI 等。比如 TPCx-AI 是专门面向端到端的以 AI/ 数据分析为核心的一个 Benchmark。TPC 通过定义各种各样的 Benchmark,同时对外提供 audit 服务,能够从功能、性能、开销、性价比等多方面对各个数据库进行对比。
3. Linked Data Benchmarks by LDBC
新兴的图领域,有一个类似 TPC 的组织叫做 LDBC,全称为关联数据委员会。在之前,LDBC 已经定义了比较多的 Benchmark,比如 SPB 是用于 RDF 数据库的 Benchmark。还有 Graphalytics 包含了一些标准的图算法,主要是面向 AP 系统作图计算分析系统的 Benchmark。大家了解最多的可能是 SNB,它用社交网络的场景来对基于属性图的 GDBMS 进行测试的 Benchmark。在与蚂蚁集团内部的金融场景进行总结对比之后,我们认为金融场景和 SNB 的社交场景有一定的差别,所以在去年向 LDBC 提出提案,现在与多家厂商一块共同建设这个 Financial Benchmark,能够模拟金融场景对 GDBMS 进行测试。
4. Data Processing Pipeline
在数据处理流程中,往往会有一个偏 TP 的、在线的系统,有实时的数据写入,处理偏 TP 的查询/数据写入。对于相对复杂的图分析,通过某种方式把数据从 TP 系统 ETL 到另外的 AP 系统中,跑一些分析迭代类的算法。还有一些情况下的较复杂的查询,相比于全图分析计算复杂度没有那么高,但由于某些原因不能在 TP 系统中进行查询,那么就会构建第二个 AP 系统去处理 。此系统处理的查询往往比 TP 复杂,但又没有到全图迭代级别的计算,这就是 SNB 中 BI 和 Interactive workload 的区别。在 FinBench 中,我们也分别总结出了两个 FinBench workload,一个 Transaction workload 是今年着力建设的 workload,另一个 analytics workload 是计划未来建设的工作。
--
02
FinBench Scenarios
1. Risk Control Scenario: Transfer Cycle
这部分从几个比较典型的场景切入来介绍 FinBench 的设计理念。
第一个场景是风控场景。 为了做交易风控,我们往往会构建一个图,其中点是账户,比如有个人账户或者公司账户等等,账户往往会有账户信息、状态信息等等。边是账户到账户之间的转账关系,转账关系上会有常见的业务属性,比如这笔转账是什么时候发生的,转账金额是多少。有这么一个建模的图之后,业务人员就可以在这个图上进行风控策略的设计,比如可以通过转账行为或者关联账户的情况判断一笔交易是否存在一定的风险。这是在风控场景下的图建模。
上图中右侧是一个转账环的例子,这个转账环就是一个业务层面的风控策略对应在图上的特征。
这里在业务流程上,业务人员会遇到一个问题:有一个转账边要写入的时候,业务人员首先检测是否存在一个转账环,当转账环构成(这笔交易可能会涉及到一些危险场景)时,希望终止这笔交易,同时把相关的账户状态标记为一个异常的状态,给业务的下一个流程进行反馈。直接处理这类查询的结果是,即使检测到风控策略命中了,转账也已经写入到 db 里面了,我们不希望这样的事情发生 。如果不把转账关系直接写入到 db 里面,就需要把风控策略对应的图上的特征做翻译,比如先假设当前的交易不存在来检测这笔交易发生之后是否形成一个转账环,业务人员需要在这里对风控策略做“翻译”后再去检测这个图上特征,以满足风控需求。
2. Read-Write Query: Transaction-Wrapped Strategy
针对上述场景,我们提出了 Read-Write Query,从业务层面来解释就是用 Transaction(事务)包裹的风控策略。这类 Query 把风控策略、转账边的写入都放在一个 Transaction 中。具体例子比如,在 Transaction 内先检测涉及到的相关账户是否状态异常,如果状态异常,那这笔交易肯定是有问题的,就把这个 Transaction 直接退出,对应的交易就被驳回了。如果涉及到的账户状态都没有问题,则进行下一步,在这个 Transaction 中把转账边写入,再去分析是否命中业务 pattern,如果命中 pattern,那么交易有问题,就把这笔 Transaction 退出,随着 Transaction 的退出,这笔交易自然也不会写到 db。同时会开启一个新的 Transaction,把相关账户的状态标记为有问题。如果转账关系写入后发现业务 pattern 并没有命中,那么就提交 Transaction,交易边可以顺利的写入到 db。这就是为了方便业务人员写风控策略而做的 Read-Write Query 设计。
3. Risk Control Scenario: Fund tracing from Loan
上图展示的是一个模拟资金追踪溯源的场景。图上特征是贷款发放后,把一定时间范围内的资金去向相关的交易边过滤出来,比如示例中红色边就是相应时间窗口之外的交易边,在分析过程中就要过滤掉。示例中,将黑色的交易边过滤出来之后,根据各级账户各条边上的交易金额,与上一级账户的资金流输入金额进行比例计算。
这类图上的计算有两个重要的特征,第一个点在遍历时的过滤上,我们称之为 recursive filtering。它是在筛选一条路径的时做一个递归的判断,假设存在一条路径,这个路径上的时间顺序是 e1
--
03
FinBench Design
接下来,介绍 FinBench 的主体设计。
1. A Glance of FinBench
在 data 特性上,数据模型仍是关联数据建模(点由边去进行连接),点边都具有一些属性。边上有一个特性叫做 Edge Multiplicity,指的是在相同的起点和终点之间可能会存在多条重复边,数据分布上有大点。在测试集上的特性有图上遍历、Read-Write Query,基于时间的数据管理等。在负载上,模拟真实世界的负载来对系统进行测试,同时提供不同规模的负载。
在 Benchmark Suite 建设上,主要有四个组件分别是 DataGen,Driver,Reference Implementation 以及 ACID Suite 。DataGen 的主要功能是生成测试数据,包括存量数据和增量数据,存量数据 由测试系统进行批量载入,增量数据会交给 Driver,由 Driver 分析后以 Query 的形式发到测试系统,由测试系统接收这些数据进行写入。ACID 测试是相对比较独立的对测试系统进行测试。
2. Data Schema Design
图模型建模上目前主要是有五类点,虚线边代表的是 Edge Multiplicity。
3. Data Distribution Design
数据分布上,我们对一些真实的线上系统存储的数据做了一个侧写,从侧写的结果来看,有如下共性结论,average degree 即平均的度数大概是分布在 1 到 3 之间,平均是2。大点的度数基本上是在百万级别,也就是有百万条边。整体图上度数的分布符合 PowerLaw 幂律回归的特征。同时我们也对有时间戳的边的时间分布做了分析,可以看到这些边在时间上的分布是符合现实生活中的预期的,基本上分布在早中晚高峰。
4. Transaction Workload
Transaction Workload 有四种 query:Complex Read Query,Simple Read Query,Write Query,和 Read-Write Query。 Complex Read Query 相比 Simple Read Query 的计算会稍微复杂一点,它是从典型的风控或者商业分析的场景中总结出来的。Simple Read Query 往往是一些比较简单的查询。Write Query 是数据的写入,包括插入、更新、删除。Read-Write Query 总结出来了三个 query,是 FinBench 的一个亮点。
① Transaction Workload:Read-Write Query
Read-Write Query 的设计如上图所示,前面已经通过业务上的例子详细介绍过了,这里就不再展开介绍。Read-Write Query 由不同的 Read Query 和 Write Query 组成,将这些 Complex Query 包裹在一个 transaction 中,来满足风控业务人员的需求。
② Transaction Workload:Temporal Window
第二个 FinBench transaction workload 的特性是 Temporal Window。在做数据分析或者过滤时,我们往往会关注更靠近当前时间的数据,这就是一个时序窗口。在图上的表现是,在做查询的时候对边上的时间做起始时间到结束时间的过滤约束。在具体的业务实践中,大家往往会选择做优化,比如存储分级把冷数据热数据做分开存储,或者做 TTL 把一些过期的数据做淘汰。
③ Transaction Workload:Special Patterns
这是 FinBench 总结出的一些比较特殊的 pattern,比如左上角是一个转账环,右上角是一级二级账户的呈树状结构转账关系。下面是一个担保链,比如对企业做担保关系的穿透。
④ Transaction Workload:Recursive Path Filtering
这是在贷后追踪场景中,有 Recursive Path Filtering 的特征,在上文也做了具体的介绍,不再赘述
5. Load Pattern in Real System
这里是对负载设计的总结。我们对一些业务系统做了持续长达一个月以上的监测,发现负载的波动遵循着以天为周期的变化。同时我们也对点边的负载做了分离的分析,可以看到点边的负载以及读写的负载也是存在差异的。
6. Load Pattern (Driver Design)
Driver 设计上,Driver 向测试系统发出查询请求,将有不同的 query 按照一个策略混合在一起发给测试系统,FinBench 中有 n+2 个 stream,一个 stream 用来单独地发 Complex Read Query,一个 stream 用来发 Read-Write Query,n 个 stream 用来发写的 Query,来保证读写的比例是平衡的。在负载规模的控制上,Driver 基于 TCR 参数保证系统能够在不同的负载下得到测试。
7. ACID Test Suite
ACID 测试在工业界或者学术界都是一个比较标准成熟的设计。 原子性和隔离级别的测试都是基于 Fail Case 进行测试的。Durability 测试上,ACID Suite 分别对系统做 graceful(有缓冲时间/宕机)和 ungraceful(无缓冲时间/宕机)的情况来分别对系统进行测试。Consistency 上的测试和 Durability 结合在一起进行测试。
--
04
FinBench Chokepoints
1. Chokepoints in FinBench
Chokepoint 是 LDBC 在创立之后就一直在宣传的一个概念,指的是在 Benchmark 设计过程中,对问题场景总结出来的一些技术上的挑战,这也是数据库的开发人员需要去考虑进行优化的方向。这里列出了 FinBench 的一些 chokepoint。
2. Examples of Chokepoints in FinBench
接下来展开介绍其中两个 chokepoint。
比如贷后追踪的 Recursive Path Filtering 的过滤特征是这样的。现有的查询语言事实标准 Cypher 在表达这个过滤的 pattern 时没有很好的表达能力。我们希望的是,查询语言在这个场景下能够有好的表达能力。这里有一个例子,是某个实验室正在做的尝试去改善的 Cypher 的一个扩展,尝试从一些关键字上去解决表达的问题。
在存储上,我们在边上都是有时间戳属性的。为了保证在对时间进行过滤的时候数据访问有比较良好的局部性,我们可以做一些优化,比如在存边的时候把时间戳作为边上的一个 ID,对这个边进行排序存储,那么在数据访问的局部性就会比较好。
Read-Write Query,其表现是一个 Complex Query 并上一个比较短的 Write Query,在表现上来说,它大部分的时间可能是在读,小部分时间是在写,针对 Read-Write Query 的情况,可以做一些优化。比如把前一个 Read-Write Query 的读和下一个 Read-Write Query 的读并行起来,并行后可能会出现最终在写入数据的时候有一些竞争或者冲突的情况,这里也是有各种优化手段的。
--
05
Progress and Plans
1. FinBench Progress
最后介绍一下 FinBench 当前的进度和未来的规划。FinBench 在 2022 年 2 月份开始做了一个提案,在 6 月份正式 Kick Off。经过半年的时间,基本上确定了 FinBench 的主体框架,并且组建了一个开发小组,对 FinBench 的 Suite 做开发测试套件的开发。
2. FinBench Plans
在今年1月底发布了 Alpha Version。 在 Alpha Version 发布之后,我们会邀请 Task Force 内部的一些厂商做内测(Alpha/Beta Test)。在 Test 完成之后,我们确认整个 FinBench 的逻辑包括实现都是没有问题之后,大概会在年中发布一个正式版本。
这是当前 Task Force 的厂商名单,包括开发小组,联合了一些国内外知名厂商,包括蚂蚁集团、创邻科技、StarGraph、Ultipa、Intel、TigerGraph、Vesoft等。 整体上 FinBench 是以一个开源项目的形式来运作的,欢迎大家关注和提出建议。
项目链接:
https://github.com/ldbc/ldbc_finbench_docs
https://ldbcouncil.org/benchmarks/finbench/
今天的分享就到这里,谢谢大家。
标签:
相关阅读
-
05-03
-
05-03
-
05-03
-
05-03
推荐阅读
-
【世界聚看点】FinBench:金融场景下的图系统选型
导读FinBench,全称FinancialBenchmark,是蚂蚁集团基于业务实践总结出来并在LDBC组织下多厂商共同建设的金更多
2023-05-03 22:38:03
-
中国五一档电影总票房破15亿元-今日聚焦
(记者高凯)据灯塔专业版实时数据,截至5月3日19时42分,中国五一档(4月29日至5月3日)电影总票房突破15亿元(更多
2023-05-03 21:51:11
-
世界热门:虚函数实现多态性_在c 中虚函数和多
1、多态是指使用相同的函数名来访问函数不同的实现方法,即“一种接口,多种方法”,用相同的形式访问一组更多
2023-05-03 21:01:43
-
英语教师网络研修总结_英语教师网
1、网上的课件,有的可以免费下载;有的是不能免费下载的。2、如果不是免费的,自己可以尝试着去积分,或者更多
2023-05-03 19:58:32
-
专访:使用人民币结算中国进口商品有助于阿根廷应
新华社布宜诺斯艾利斯5月2日电专访:使用人民币结算中国进口商品有助于阿根廷应对当前经济挑战——访阿根廷更多
2023-05-03 19:12:02
-
游客手机掉进西湖,被收1500元打捞费?西湖景区回
5月2日,有游客发布视频称,自己的手机掉到西湖里,被一位衣服上写着“应急救援”的男子要价1500元捞起,他更多
2023-05-03 18:20:43
-
放松身心亲近自然 自驾露营成旅游新风尚
今年“五一”假期,我国旅游业的快速恢复催生自驾露营休闲游、短途游、夜游等新型旅游产品提质升级。快速更多
2023-05-03 17:17:58
-
广交会观察:中华文化催生外贸新增长点
中新社广州5月3日电题:广交会观察:中华文化催生外贸新增长点中新社记者蔡敏婕被誉为丝绸界“软黄金”的香更多
2023-05-03 16:36:15
时尚热图
热门标签
精彩放送
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
05-03
-
今日必看
-
精彩话题
-
最新见闻
- 今晚地铁延时措施再升级 北京地铁16号线延长运营3小时41分钟
- 环球快资讯丨wed服务器_wed
- 棉花院长蓝广芊:十年科研路一朝功成-热消息
- 贵州七县打造黔东北文旅“朋友圈” 共谋文旅好“黔”景|世界热头条
- 全球快播:全国铁路迎来返程客流高峰 五一假期最后一天预计发送旅客1935万人次
- 每日热门:国科微:公司产品在安防、机器视觉的应用实际上就是强AI的应用
- 【世界新视野】致敬坚守 拼搏奋斗(今日谈)
- 环球今日讯!蓝帆医疗:丁腈手套四月份开工率和订单量比三月份均有上升
- 星巴克2023财年第二季度中国市场净收入增长3%
- 采摘竹笋、下河摸鱼……“五一”假期乡村游备受青睐
- 四川宜宾发生4.6级左右地震 一小时前刚发生4.0级地震
- “五一”假期看文旅市场活力 世界信息
- 天天热推荐:五一假期国内消费市场情况如何?一组数据带你感受
- 图文编辑器_图文编辑
- “五一”期间多地基础设施工程建设持续推进
- 东吴证券给予吉贝尔买入评级 小而美的创新药企 销售改革激发活力
- 环球今日讯!中银证券给予滨江集团买入评级
- 月季花的栽培方法_需要注意什么
- 世界微动态丨飞猪:国内游预订量较春节翻倍增长 中长线游占比超9成
- 爆火的淄博和它的“过客”经济
- 环球精选!四川宜宾市兴文县发生4.0级地震
- 本立科技收关注函:要求说明拟10转5派1.5元方案是否与公司业绩增幅相匹配,是否炒作股价-天天短讯
- 当前速递!微软和Alphabet等公司CEO将前往白宫讨论AI事宜
- 一夜损失200亿!“华尔街狼王”被全球知名做空机构盯上,《华尔街》以他为原型,曾做空多家世界500强 天天短讯
- 全球快报:爱立信研发卫星与手机直连技术 预计2025年实现商用
- 今日宝骏310w质量口碑怎么样_宝骏310w怎么样质量好不好
- 广西畅通货币信贷政策传导渠道 引流金融“活水”润泽实体经济
- 代糖行业没“凉”,但赤藓糖醇“崩了”
- 【天天新要闻】价格暴降!2800元降到280元,马上还要降?
- 五一档全国电影票房已突破13亿元
- 环球今日讯!机构:“五一”淄博酒店预订量较2019年同期增长超10倍
- 姐弟三人进京游玩迷了路 北京公交乘务管理员帮忙找到家人
- 最新资讯:玉渊潭公园:因天气原因,公园游船今天14时停止售票
- 国联证券给予今世缘买入评级,22年圆满收官,23年开门红保驾全年目标 焦点日报
- 飞利信年报遭问询:要求说明西北地区收入同比大增、与前期业绩预告披露情况不符的原因
- 环球热点评!新增153家门店 星巴克发布今年二季度财报显示消费全面复苏
- 一夜蒸发200亿!这家做空机构盯上“华尔街狼王”!曾做空印度首富“一战成名”
- 新野纺织:5月5日开市起被实施退市风险警示
- 辛普森杀妻案 全球今日报
- “X+商业”业态多重衍生长三角布局提速 招商商管2023年将在全国推超30个新项目 天天速看
- 更上一层楼_对于更上一层楼简单介绍 今亮点
- 环球信息:中天金融:公司股票交易被实施退市风险警示,5月4日停牌一天
- 早起云南吃过桥米线,傍晚老挝万象吃火锅!坐上动车去老挝,一日品两国美食 环球观速讯
- 华西证券给予太平鸟买入评级 当前热门
- 金融支持科技企业更精准
- 四川自贡市贡井区发生3.7级地震 震源深度10千米
- 5.3香港恒生指数日内短线操作建议
- 全球速看:“神奇天路”提质升级再创奇迹
- 环球热推荐:寻访|真假“济南王墓”:一个少数民族政权下的汉人贵族
- 当前关注:热火落选秀今日共得到74分 1966年以来季后赛最多
- 当地通报:退票!停业整顿!|世界最资讯
- 新时达收关注函:要求说明额外支付对应股权未分配利润和资金占用费是否属于财务资助或其他利益输送|每日速讯
- 上市公司业绩保持韧性增长 热文
- 微动态丨家电市场迎政策利好
- 帝尔激光收关注函:要求说明拟10转6派4.7元分红方案的确定依据及合理性 最新
- 世界微动态丨大兴经开区组团南下“敲门”招商 润和软件北方总部成功落地
- 云南深夜连发两次地震!大理震感明显,已造成3人轻伤,最新情况→
- 门票没约上?沈阳故宫:下次半价! 每日快播
- 东莞跻身“全国热门旅游目的地”
- 四川自贡市贡井区发生3.7级地震,震源深度10千米 当前热文
- AI的终点就是MR!苹果MR新品进入最后冲刺阶段,受益上市公司一览
- ST大洲:申请撤销公司股票其他风险警示_速讯
- 港股低开低走 恒生指数盘中跌近2% 视讯
- 【新视野】金一文化:股票被实施退市风险警示、其他风险警示,5月4日停牌一天
- 2日广铁加开列车迎返程客流高峰,主要从湖南、粤东开往广深
- 环球观察:提醒!强降雨已提前“返岗”,请注意防范!
- 共青团中央:截至2022年底全国共有共青团员7358.3万名
- 5月10日首车起,北京6条公交入驻清河枢纽站
- 早知道|梅西将被巴黎“三停”两周 全球热点
- 环球观热点:港股石油股走低,亚美能源跌超3%
- “五一”期间香港喜迎内地游客,年轻人旅游模式更加多元_世界快消息
- 全球热讯:38万人次!“五一”假期前三日上海黄浦江游览核心水域客运量创新高
- 今日最新!多多钱包如何关闭免密支付 怎样关闭拼多多钱包免密支付
- “一名中国公民受伤”,使馆再次提醒!_天天观点
- 铁路上海站今迎五一返程客流最高峰,预计到达65.1万人次 天天信息
- 各地迎来假期返程高峰
- 百家化学制剂企业去年平均研发投入近3亿
- 时讯:5月3日全国铁路迎来返程客流高峰,预计发送旅客1935万人次
- 北京市民族饭店餐饮部面点厨师长赵会连:一点匠心出美味 十分象形外宾夸_环球看热讯
- 五一假期前四天 跨省游客占比23.6% 省内游客占比超76%
- 北京城市副中心2025年慢行里程将超1500公里
- 当前关注:【五四特别致敬·我还是从前那个少年】三位“80后”的别样青春
- 天天百事通!五一假期最后一天北京晴天继续控场 紫外线偏强午后南风较大
- 五一假期前四天 跨省游客占比23.6% 省内游客占比超76%
- 世界速看:中国气象局启动暴雨四级应急响应
- 暴雨蓝色预警继续!河南湖北安徽等地局部有大暴雨
- 焦点热文:第四届北京国际花园节持续至11月15日
- 青海省西宁市城西区西川南路消防救援站站长助理玛尼坚:磨砺技能 守护平安(劳动者之歌)
- 每日报道:市场忧虑情绪重燃美股收跌,美3月职位空缺数创近两年最低
- 云南突发5.2级地震!知名品牌召回422万件学生用品 立即停用!什么情况?
- 美前官员:货币政策缺陷造成银行风险累积
- 当前要闻:广东服务业线上消费规模全国第一 日均消费较2019年同期增长109%
- ARM确认递交美国上市申请,软银苦等终迎曙光
- 智者千虑,必有一失——巴菲特的10大失手时刻 世界微动态
- 各地迎来“五一”假期返程高峰
- 北京共青团汇聚青春力量服务首都发展大局 青少年当先锋、做闯将的行动更加有力
- 雄安新区跨境电子商务综合服务中心成立 助力本地产品“扬帆出海” 世界百事通
- 河南壮大县域富民产业 天天观点
- 上海今有阵雨或雷雨 最高27度 今起4天均有雨
- 全球快播:一季度长江干线港口货物吞吐量增长6.2%