院庆| 中日数据库论坛顺利举办

发布时间:2019-01-23浏览量:67

2018年12月26日上午九时,由华东师范大学数据科学与工程学院、日本东京大学等高校联合举办的中日数据库联合研讨会在华东师范大学中山北路校区的小礼堂举行,中日数据库领域的权威专家齐聚一堂,DBSJ(The Database society of Japan)主席喜连川优作为代表受邀出席。

据悉,本次讨论会致力于鼓励中日技术信息的交流与传播,促进日本数据库协会(DBSJ)和中国计算机联合会数据库技术委员会(CCF TCDB)成员之间的了解与合作。

1.jpg         

首先,DBSJ主席喜连川优教授介绍了DBSJ的历史背景,成员组成,企业支撑以及相关校企联合实验室现状。之后,中日双方讨论了CCF TCDB和DBSJ之间的MOU和未来活动。东京大学的喜连川优教授认为,TCDB和DBSJ应当加强联系,中国的学者可以开展联合的活动,包括技术报告、讲座交流等。周傲英教授对此非常认可,并表达了自己的想法,TCDB和DBSJ可以联合举办新的会议。主要活动的计划和时间表将在DBSJ和CCF TCDB之间进行交换。 在可行的范围内,当任一国家建议举行重大会议或活动时,将进行磋商。

本次研讨会邀请了五位研究者作主题报告。于戈教授介绍了一种可实时更新以及追踪数据分布演变的流式聚类算法EDMStream。流式聚类算法不同于批处理模式下的聚类,主要体现在流式数据源源不断,聚类的结果随之不断变化,因此需要实时更新聚类结果;随着数据分布的变化,聚类也会不断发展变化,而记录追踪此类变化也很重要。因此,如何有效地更新聚类结果以及如何追踪聚类的演变成为流式聚类算法的挑战。传统的流式聚类算法,譬如Clusteream、DenStream等,分为线上总结(online-summarizing)与线下聚类两步,实时更新与追踪演变的代价较高。EDMStream算法受DPClustering(Density Peaks Clustering)算法的启发,通过监测密度高峰(density mountain,即数据点的密度分布)设计了一种新颖的聚类演变追踪算法,提出了一种高校的数据结构依赖树(Dependency-Tree)来维护密度高峰的状态,利用两种过滤策略来精简更新操作,并提出一种自动调正机制,通过学习用户偏好以及数据演变,自动更新算法参数。经大量实验结果表明,EDM-Stream较于传统流式聚类算法具有更好的效力与功效。

2.png

来自东京工业大学的Jun Miyazaki教授介绍了一种针对于大规模高维数据的新型高效聚合查询处理方法。近些年来,互联网的高速发展产生了大量的高维数据,如传感器数据等。聚合查询在分析这类数据上十分有效。传统的关系数据库(RDBs)支持高效的聚合查询以实现更快的查询处理,但数据量的激增会带来严重的瓶颈。另一方面,使用分布式键值存储(D-KVS)可增加数据插入的吞吐量,但由于数据索引的不足,高维数据查询需要进行完整的数据扫描。因此,Jun Miyazaki教授提出了一种将RDBs和D-KVS结合的方法,利用两种方法各自的优点。并提出了一种新型技术,将数据网格划分为多个子集,提前计算每个划分网格的聚合值。通过该新型技术,扫描数据量大幅减少,查询处理性能得到提高。完整的系统架构见下图。最后,大量的实验结果表明,该新型高效聚合查询处理方法在读写性能上优于现有的所有方法。

3.gif

Jun Miyazaki教授介绍完后,在座的老师学生与其进行了深刻的交流。有老师提问large join如何处理,Jun Miyazaki教授回答不使用large join,仅仅集成到一张表中。有学生提问buffer part的鲁棒性,Jun Miyazaki教授回答应提高吞吐量。

随后,李国良教授的介绍了名为《AI4DB and DB4AI: Challenges and Opportunities for the Database Community》的报告,他通过大量的例子详细介绍了数据库管理系统(DBMS)如何与人工智能技术(AI)相结合,并获得共同提高。

11.jpg

我们知道,DBMS肩负着处理大量数据以及高复杂性工作负载的重任,然而其本身难以管理,因为其中包含数百种配置“旋钮”(knob),用于控制诸如缓存内存分配量以及存储数据写入频率等要素。李国良教授团队通过采用强化学习(Reinforcement Learning)的技术,对于数据库的配置定义智能体(Agent)、环境(Environment)、状态(State)和奖励(Reward),在多个数据库系统上提升吞吐量减少延迟。同时,他们也优化了数据库中的“Join”操作,在效率上提升了2-3个数量级。

来自日本名古屋大学信息学研究生院的Yoshiharu Ishikawa教授为我们带来了题为《Query Processing over Probabilistic Data Streams》的报告。在开始正式报告前,Yoshiharu Ishikawa教授首先给我们做了一个简单自我介绍,并为我们介绍了一些有关名古屋市的文化,增加了在场老师和同学对Yoshiharu Ishikawa教授和名古屋市的了解。

本次联合研讨会上,中日数据库领域的专家之间的交流热烈,增进了参会人员之间的深厚友谊。此外,本会不仅为中日数据库领域的学术分享搭建了平台,加强了中日数据库研究的联系,而且对于联合活动达成的共识,为日后中日数据库领域的多层次的合作沟通、共同推动数据库领域的发展创造了机会。


 文案:濮敏、蔡磊、王晓桐、朱仁煜、申弋斌、丁国浩、胡耀艺、熊双宇

摄影:黄建伟

排版:方敏