English 中文版

新闻

华东师范大学第四届数据科学与工程暑期学校顺利举行

来源:DaSE@ECNU时间:2017-07-29 14:28:24浏览量:0

   7月22-26日,由华东师范大学研究生院和数据科学与工程学院(以下简称数据学院)联合主办的第四届数据科学与工程暑期学校(DaSESS2017)顺利举行,开幕式由钱卫宁教授主持,副校长周傲英、研究生院招生办主任刘勇到场祝贺并致欢迎辞。本期暑期学校以“面向新经济的数据管理系统”为主题,邀请了在数据库系统、事务处理、区块链、隐私保护、位置服务等方面有专长与积累的学者讲授课程,开展研讨,为数据科学与工程学科的研究重点、人才培养、产业应用指明了方向。

web-合影.jpg

web-zhou.jpg

web-liu.jpg

web-qian.jpg

    在主题报告“面向新(分享)经济的数据管理——谈谈区块链和分享型数据库”中,周傲英副校长将共享单车作为互联网经济下半场——分享经济的序曲,并探讨了分享经济在低信用社会建立信任以及快速建立高信用体系的需求和作用。而区块链,被周教授认为也许是史上最有名的数据结构,正好迎合了互联网分享经济、数据公司对陌生人之间快速建立信任的技术需求,其本质是一个多副本的分布式账本,并且具有去中心化、不可篡改、共识、无需信用等特性。通过回顾数据管理技术,周教授进一步介绍了自己提出的分享型数据库,强调其是分享经济时代的数据库,是能够支持关键任务的应用,支撑分享经济的业务模式,以分享经济的方式予以实现。周教授认为区块链是分享型数据库的一个案例,并且每种分享经济商业模式都需要有自己的区块链系统。最后,周教授还介绍了华师大数据学院在这方面的实践,其中在应用方面包括了信息化平台、企业知识图谱和在线教育平台,而系统方面包含了“双实时”的Gingko系统、可伸缩的事务处理系统Cedar和大数据存储系统Fir,并强调了新学院“应用驱动创新”的办学宗旨,以及培养“开车人”的教育理念。

   在“OceanBase1.0的技术架构和存储事务引擎”课程中,来自蚂蚁金融服务集团的资深专家杨传辉详细介绍了OceanBase1.0的分布式架构,其包含多个数据中心,每个数据中心有多个数据分区,在每个数据分区中有很多小副本。杨老师详细分析了数据库实现的技术细节,包含高可用、数据分片、副本管理、分布式事务引擎、分布式路由、分布式存储引擎等。在OceanBase云数据库中实现了多租户隔离、多业务混合等功能,全面兼容MySQL和兼容部分的Oracle让数据库更加易用。杨老师认为数据库系统的高性能离不开其独特的事务处理引擎和存储引擎,OceanBase是内存外存混合数据库,具体来说是将新增的修改和频繁访问的热数据存放在内存,而冷数据存放在外存,定期将内存中的数据与外存的数据合并。该机制有性价比高、容量大、适应场景丰富等优点。OceanBase的事务执行引擎采用双索引和多版本的并发控制,在写日志方面使用成组提交,使得事务处理每秒可以达到百万次,延迟在2~3ms。在存储引擎方面,OceanBase使用了多层次的存储结构,并使用压缩技术使得查询请求传输的数据量进一步减少、执行延迟进一步降低。此外,在OceanBase1.0中,每日合并得到了进一步的优化。利用其高可用架构的特性,创造性的提出了轮转合并的方式来降低合并过程对事务处理的影响。

    “OceanBase数据库 SQL查询引擎的发展和应用”课程由蚂蚁金融服务集团的资深技术专家陈萌萌主讲,主要涉及OceanBase数据库SQL查询引擎的发展历程以及SQL在蚂蚁金融服务业务场景中的应用。首先,陈老师介绍了OceanBase数据库SQL 框架的发展历程。OceanBase是一个可扩展、高可用、低成本、高性能的分布式数据库,OceanBase的初步几个版本与1.0版本架构最大的差别在于由原来的单点的写入变为了多点写入,由此带来的是写入性能的多点拓展,但是原来SQL简单的路径选择变得复杂。之后,开发团队对SQL模块进行彻底的重构,增加统计信息的收集,引入了基于代价的查询优化器。OceanBase查询优化从逻辑优化和物理优化两个方面出发,逻辑查询优化根据启发式规则和代价将查询改写为等价的SQL语句;物理查询优化根据代价模型计算出最优的访问路径、连接顺序、连接算法,决策算子下压和上拉。OceanBase在算子的执行上也做了深入的优化,具体是结合编译执行,并且针对蚂蚁金融服务的核心应用场景进行有深度的优化定制。最后,陈老师还介绍了业务的场景应用:SQL执行计划的缓存避免了重复执行SQL时的查询优化过程,从而降低了查询优化的代价;对于淘宝收藏夹业务,OceanBase采用了物化视图技术,并将表的连接信息冗余存储,从而避免了表连接的巨大代价等。

    在“大数据的安全外包和隐私保护”课程中,田秀霞教授通过对大数据上安全数据外包的学术研究与介绍分享,引发了大家的思考,并探讨了多个研究发展方向。在大数据与云计算时代,数据外包的热潮兴起,而其中的隐私保护问题越来越受到重视。数据外包模型一般包括如下几方:数据拥有者(DO)、数据服务提供者(CSP)、数据消费者(DU)、可信审计三方(TPA)。安全的数据外包过程,既能保证数据的机密与完整,也能够保证功能的可行与可信。之后,田老师详细讲解了大数据的外包安全与隐私保护关键技术,包括数据加密技术、密文检索技术、密文访问控制技术、数据完整性审计技术、数据脱敏技术等,并介绍了云钥库典型应用。

    邵奇峰副教授在“Hyperledger Fabric 1.0架构与开发”课程中,讲解源自于比特币的区块链可分为公有链和联盟链,认为大部分区块链商业落地项目更多采用的是联盟链,Linux基金会开源的Hyperledger Fabric 1.0是最有影响力和应用最为广泛的联盟链平台。之后,邵老师介绍了Hyperledger Fabric 1.0的体系架构、块链结构、共识机制、智能合约、隐私安全、开发流程及开发中的常见问题与对策,并从数据库角度分析联盟链应用于企业级应用时的主要优势和局限。最后,邵老师总结区块链的局限和优势,指出现有区块链平台在吞吐量、事务处理、并发处理、隐私保护等方面仍有很大提升空间,但更加肯定了区块链去中心化、不可篡改、可追溯、去信任、高可用的优势,以及广阔的应用前景。

    在“深入解析区块链”课程中,来自微软亚洲研究院的Lead Researcher闫莺博士聚焦近年来最前沿最热门话题之一的区块链技术,详细深入地分析了区块链技术的要点、主要系统和应用场景。课程中闫老师以区块链代表平台--以太坊为例,讲解智能合约并且实战智能合约的编写和部署。在ICO(Initial Coin Offering)方面,通过分析回顾著名几例ICO过程来理解以太坊系统的性能特点。最后,闫老师与大家分享了微软亚洲研究院在区块链上的一些工作以及如何将科研与区块链相结合。期间,在场的嘉宾、学员就区块链的研究问题和方向与闫老师进行了热烈的互动和探讨。

    课程“Indoor Location Based Services: A Data Perspective”由丹麦Aalborg University陆华副教授主讲。课程首先介绍了一种基于距离的室内空间索引技术,该索引将室内的独立空间,如房间等看作节点,将门等连接空间的通道看作连接节点的边,从而形成了一个无向图结构索引。该索引能够高效的解决室内范围查询和最近邻查询。为了解决基于RFID的室内定位的不确定性,陆老师详细说明了基于图的方法和基于机器学习的方法来对RFID数据进行清洗。对于室内移动对象,陆老师分别讲解了室内移动对象的连续范围监测和基于概率阈值的k近邻查询及其相应的在线处理技术。之后,陆老师介绍了如何在室内移动数据上进行挖掘,例如室内人流分析、频繁访问的兴趣点挖掘等。最后,结合大数据的特点,陆老师分析了室内大数据的一些共同特性并分享了室内大数据的未来研究趋势。

jiangshi-合影3.jpg


   暑期学校中以“分享经济与分享型数据库”为主题的Panel,由周傲英教授主持。他探讨了分享经济、区块链、分享型数据库的机制和原理,认为区块链是分享型数据库的案例,而分享型数据库正是适合分享经济发展的技术支撑。之后,本次Panel专家欧冶云商黄云飞总经理、西安交大齐勇教授、东南大学崇志宏副教授、深圳区块链金融服务公司曹锋副董事长、华东师大钱卫宁教授等分享了自己的见解和看法。最后,金海教授、罗军舟教授、肖侬教授、于戈教授、姜青山教授、朱信忠教授、郑建兵副总等结合自身科研实践经历,畅谈了自己对区块链、分享经济和数据库的见解。

panel合影3.jpg


    经过5天充实紧凑的课程学习,学员们纷纷表示自己收获良多,不仅了解了新(分享)经济时代实业界的数据管理技术和应用现状,而且掌握了背后的理论机制及其未来的发展方向。闭幕仪式上,数据学院钱卫宁教授表示很高兴能与课程讲师、学员度过短暂而充实的5天,并向他们表示了衷心的感谢,期待与大家一起相约DaSESS2018暑期学校。之后,数据学院教师代表和课程讲师代表一起为学员代表颁发了结业证书并合影留念,DaSESS2017暑期学校在结业证书发放下圆满落幕。

bimushi.jpg