2019年04月22日-25日,第24届面向高级应用的数据库系统国际会议(International Conference on Database Systems for Advanced Applications, 以下简称为DASFAA)在泰国清迈召开。DASFAA是一个年度国际数据库会议,展示了数据库系统及其应用中最先进的研发活动,为来自学术界、商业界和工业界的数据库研究人员、开发人员和用户进行技术演示和讨论提供交流平台。
本次会议特别邀请来自香港中文大学的Lei Chen教授、卡塔尔计算研究所的Ashraf Aboulnaga博士、新加坡国立大学的Anthony K. H. Tung博士作了精彩的特邀报告,分享了他们的研究成果。此外,会议还举行了3个workshop研习会,其主题主要包括数据流管理系统,隐私匿名保护和机器学习的应用等。通过参加本次会议,我们不仅接触到了更多的新知识,也体验到了泰国的人文风情。通过听取报告,了解了目前大数据处理的主流方向,对自己的后续的工作有较大的启发。
本次会议共收录92篇长文,72篇短文和13个系统演示。其中包含我院师生的工作有:1篇长文,3篇短文和4个系统演示。涉及的研究方向包括数据库高可用技术,事务处理,内存计算,知识图谱,基于位置的服务等。以下是我院师生在本次会议中所作的工作报告总结。
SIMD加速内存数据库中星型连接的探测阶段
在内存数据库中,星型模式数据集上的多表连接非常耗时,这主要决定于其昂贵的探测阶段。本研究使用SIMD对该探测阶段进行垂直向量化或者水平向量化,并且通过数据预取加速向量化探测的数据访问。实验结果表明,垂直向量化的集成探测比其标量实现在CPU处理器以及PHI协处理器上分别快2.19倍、2.63倍,比传统的基于右深树计划的探测在CPU处理器以及PHI协处理器上分别快3.24倍、2.74倍。
高竞争工作负载下的自适应事务调度
传统的事务调度机制是数据库系统中的一个关键组成部分,对于高度竞争的工作负载,它极大地降低了并发控制的性能。显然,为了解决这个问题,有两种有效的方法:(1)避免并发事务同时访问相同的高争用元组;(2)加速这些高争用事务的执行。在本文工作中,我们提出了一种新的事务调度机制,旨在同时实现上述两个目标。首先,我们使用first-class队列,它负责处理访问指定的高争用元组的事务。因此,我们可以防止并发事务在同一时间点访问相同的高争用元组。其次,我们可以增加first-class队列的数量。由于每个first-class队列都分配给指定的工作线程,因此可以为高争用事务增加计算资源,从而有效地缩短了高争用事务的执行时间,降低了冲突发生的概率。
基于热点出租车上下点提取的公交车站改善框架
在交通高峰期, 由于缺乏直达公交车, 许多居民通过多模式换乘方式 (如公交车和出租车) 前往目的地, 这急剧增加了出行费用, 甚至导致交通拥堵。巴士服务不便的根源, 是巴士站点资料的陈旧及不正确, 不能满足居民对旅行时间的需求。在这项工作中, 我们提出了一个框架,称为 BSRF, 利用出租车轨迹数据中的短途订单挖掘巴士站点,优化现有的公交线路, 包括确定巴士站点的热门候选点和匹配新巴士站点与现有公交线路。我们建立了一个演示系统来有效地展示 BSRF ,它可以为公交公司提供公交站设置的可靠建议。
农业知识图谱AgriKG及其应用
近年来,随着信息与智能技术的发展,农业的生产和管理效率开始显著地提高。但是,对于如何为下游农业应用有效地整合大规模碎片化信息,还依旧存在着诸多挑战。因此,本论文中提出了农业知识图谱AgriKG,其能够从互联网中自动化地整合海量的农业数据。通过应用自然语言处理和深度学习技术,AgriKG能够自动地从非结构化的文本中识别出农业实体,并同时抽取出他们的关系,从而自动化地构建知识图谱。此外,本论文还提出了将AgriKG和真实应用相结合的典型案例,例如农业实体检索,农业知识问答,等等。
TCL: 基于稀疏轨迹数据的旅行时间预测模型
估计一条路径的旅行时间是构造“智慧城市”不可磨灭的一环,准确的旅行时间预测不仅可以帮助交通监管者更早地识别交通堵塞,也能帮助人们安排他们的出行计划。然而先前的研究并没有很好地从轨迹数据中提取道路速度这个重要特征,这直接导致了结果的不准确。为此,我们提出了一个深度学习框架,Tensor-CNN-LSTM(TCL),它能够从轨迹数据中有效地提取道路速度,并得到更准确的预测结果。TCL主要包含3个组成部分:非负张量分解、长短期速度CNN和LSTM预测模型。其中,非负张量分解还原过去一个小时不同道路上的速度分布,长短期速度CNN提取一条路径的长期/短期速度特征,LSTM预测模型完成最终的预测任务。我们在两个真实的数据集上进行性能评估,TCL达到了更为准确和鲁棒的预测结果。
面向非可靠网络环境中事务系统的快速Raft复制
在不稳定的网络环境下如何针对事务型数据库来实现高性能的共识协议。海报主要展示了本文的背景、研究动机、实现方法以及实验验证。主要介绍了:(1)在移动互联网环境下,当代数据库系统需要能够提供高可用服务,基于共识协议的日志复制为高可用服务提供了一种可能;(2)Paxos和Raft是典型的共识协议算法,Paxos协议难以工程化,而Raft协议中的日志黏性制约了日志同步的性能,尤其在不可靠的网络环境下;(3)本文提出的快速Raft复制协议(FRaft), 由于采用了领导者任期连续性约束,因此打破了日志黏性的约束,从而在不稳定的网络环境下依然有着较好的性能表现;(4)实验验证了本文提出的方法的有效性。
高通量数据库中高效的多数派日志复制与回放技术
现代内存数据库(IMDB)可以支持高度并发的OLTP工作负载,并每秒生成大量事务日志。基于共识协议的复制技术(如paxos或raft)在分布式数据库中得到了广泛的应用。然而,高通量的事务处理对日志复制技术提出了新的挑战。首先,日志复制中的领导者节点应考虑到不同的事务到达率和追随节点的处理能力,使得发送日志的频率具有自适应性,能够在不同的环境中获得优秀的性能。其次,追随者需要重放日志,以便在高度并发的负载中赶上领导者的状态。为此,我们构建了高效的IMDB复制框架QuorumX,用于高负载的OLTP工作。QuorumX将基于关键路径的批处理和管道批处理结合起来,提供了一种自适应的日志传播方案,以在各种设置下获得稳定的高性能。此外,我们还提出了一个安全、无协调的日志重放方案,以尽量减少领导者和追随者IMDB之间的可视性差距。我们对ycsb和tpc-c基准的评估结果表明,Quorumx在不牺牲数据一致性和可用性的情况下实现了接近异步主备复制的性能。并且能够提出稳定且较小的主备可视性差距。
基于热门公交站点对提取的公交线路动态调整
有限的公共交通容量造成的公交拥挤已经严重影响了居民出行的便利性和舒适性。现有的措施:减少公共汽车的调度间隔和补充更多的公共汽车可以缓解这种情况,但同时会加剧交通的堵塞。该工作针对公交线路拥挤不便的问题,提出了一种基于数据驱动的公交线路调整框架——动态公交线路调整系统DBLAS,通过在提取的热门公交站点对之间建立直接可达线路,为现有公交线路推荐新的运行线路。DBLAS主要是基于客运量的估计提取热门公交站点对,利用出租车轨迹规划热门公交站点对之间的最优城市路径。最后,我们开发了一个可视化系统来演示DBLAS的有效性。
会议期间发表的研究成果
长文:
1. Donghui Wang, Peng Cai, Weining Qian, Aoying Zhou: Fast Quorum-Based Log Replication and Replay for Fast Databases. DASFAA (1) 2019: 209-226
短文:
1. Peng Cai, Jinwei Guo, Huan Zhou, Weining Qian, Aoying Zhou: Fast Raft Replication for Transactional Database Systems over Unreliable Networks. DASFAA Workshops 2019: 461-465
2. Yibin Shen, Jiaxun Hua, Cheqing Jin, Dingjiang Huang: TCL: Tensor-CNN-LSTM for Travel Time Prediction with Sparse Trajectory Data. DASFAA Workshops 2019: 329-333
3. Zhuhe Fang, Zeyu He, Jiajia Chu, Chuliang Weng: SIMD Accelerates the Probe Phase of Star Joins in Main Memory Databases. DASFAA Workshops 2019: 476-480
系统演示:
1. Jiaye Liu, Jiali Mao, YunTao Du, Lishen Zhao, Zhao Zhang: Dynamic Bus Route Adjustment Based on Hot Bus Stop Pair Extraction. DASFAA Workshops 2019: 562-566
2. Yuanzhe Chen, Jun Kuang, Dawei Cheng, Jianbin Zheng, Ming Gao, Aoying Zhou: AgriKG: An Agricultural Knowledge Graph and Its Applications. DASFAA Workshops 2019: 533-537
3. Yilian Xin, Jiali Mao, Simin Yu, Minxi Li, Cheqing Jin: Bus Stop Refinement Based on Hot Spot Extraction. DASFAA Workshops 2019: 571-575
4. Jixin Wang, Jinwei Guo, Huan Zhou, Peng Cai, Weining Qian: Adaptive Transaction Scheduling for Highly Contended Workloads. DASFAA Workshops 2019: 576-580
文案:王冬慧
排版:王冬慧