通知 | 【暑期学校】中期研讨学术报告

发布时间:2019-07-22浏览量:347

会议时间:2019 年 7 月 24 日 上午

会议地点:华东师范大学中北校区文附楼218

会议报告:

         时间

题目

报告人

8:30 ~ 9:00

神威太湖之光上并行算法设计与优化

阳王东

9:00 ~ 9:30

再认识批流融合Dataflow模型

徐辰

9:30 ~ 10:00

基于数据流的大图中频繁模式挖掘算法研究

汤小春

10:00 ~ 10:15

休息


10:15 ~ 10:45

面向倾斜分布大数据的分组聚合查询优化

张岩峰

10:45 ~ 11:15

从游戏引出的科研话题

宫晓利

报告题目:神威太湖之光上并行算法设计与优化

报告摘要:

主要介绍神威太湖之光超级计算机的体系结构和并行编程模式,并对其访存、通信、同步等并行算法设计的若干问题进行分析,并如何针对神威太湖之光的体系结构特征来进行优化并行程序,同时也分析了面向E级计算所面临的挑战。

 

报告人简介:

1.jpg

阳王东,男,湖南大学信息科学与工程学院教授,博士,主要研究领域为高性能计算和并行数值算法。长期致力于基于加速器的并行算法设计和实现研究,为天河一号、二号、神威太湖之光等国产超级计算机开发基础函数库。另外利用加速器对智能交通的视频数据进行加速处理技术进行了深入研究,并在英伟达GPU和华为AI智能芯片研发高通量和多通道交通视频处理技术,所研究的混合交通视频处理技术获得湖南省科技进步奖。发表SCI/EI检索论文40多篇,其中CCF推荐的A类期刊5篇。主持国家自然科学基金项目2个,国家重点研发计划项目子课题1个,湖南省重点研发计划项目1个。

 

____________________________________________________________________________

 

报告题目:再认识批流融合Dataflow模型

报告摘要:

随着Google发表Dataflow模型的论文,SparkFlink等系统纷纷开始走向批处理与流计算相互融合的发展道路。本报告将从批流融合的背景入手,讲述批流融合的必要性以及内在的统一性,进而介绍Dataflow统一编程模型,并从关系模型的角度进一步审视Dataflow模型。最后,本报告将结合去年暑期学校介绍的批流融合系统重新认识Spark/Flink的编程模型。


报告人简介:

2.png

徐辰,华东师范大学数据科学与工程学院副教授。此前他在德国柏林工业大学担任高级研究助理(2014-2018年),从事博士后研究,参与Apache Flink系统的研发。他于2009年在合肥工业大学获计算机科学与技术学士学位,2014年在华东师范大学获计算机应用技术博士学位,曾于2011年赴澳大利亚昆士兰大学短期访问。他的主要研究兴趣是大规模分布式数据管理系统,相关研究成果发表在ICDEVLDBSIGMODTKDE等一流国际会议和期刊,于2019年入选上海市青年科技英才扬帆计划。

 

____________________________________________________________________________

报告题目:基于数据流的大图中频繁模式挖掘算法研究

报告摘要:

    随着单个图数据规模的扩大以及应用领域的扩展,大规模单图上的频繁模式挖掘的需求越来越强烈。传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文在分析了现有的频繁模式挖掘算法后,提出了一种基于数据流的单个大图频繁模式挖掘方法。首先,建立了基于数据流的频繁模式挖掘模型,将MapReduce模型中的“批”数据变成“微批”数据,提高了数据处理的并行度,并且其迭代方式也满足频繁子图挖掘的反单调性。其二,设计了数据流模型中的频繁模式检查、子图实例扩展以及正规编码计算等操作,实现了基于数据流模型的频繁模式挖掘算法。其三,为解决正规编码计算中的复杂性问题,提出了基于不变关系的正规编码计算策略以及基于编码树的优化策略,最后,对涉及的相关算法进行了实验测试,实验证明,算法提高了频繁模式挖掘的并行性,大幅度减少大图的搜索空间,降低了正规编码的计算时间


报告人简介:

 3.png

汤小春,西北工业大学计算机学院副教授。20019月毕业于西北工业大学计算机科学与技术系,获工学博士学位。主要致力于数据库管理、集群计算、大数据分析等方面的研究,已在计算机学报等期刊上发表多篇文章。

 

____________________________________________________________________________

报告题目:面向倾斜分布大数据的分组聚合查询优化

报告摘要:

对应课题四中统一存储模型的研究,本报告针对多存储模型中普遍存在的数据分布不一致的情况,介绍一种面向倾斜分布大数据的分组聚合查询方法。分组聚合查询,即广为所知的GroupBy操作,是将数据根据某种属性进行分组,并与聚合操作配合使用。GroupBy操作应用广泛,例如数据库中GROUPBY语句、分布式计算框架Apache Spark中的GroupBy算子等。当今常用的两大类分组聚合查询的实现方法,即基于哈希的GroupBy实现方法和基于排序的GroupBy实现方法,在处理倾斜分布大数据分组时,都会产生较大的额外I/O开销,最终降低GroupBy效率,本报告介绍一种PowerHash分组方法,可以在有限内存中高效的完成倾斜分布数据的GroupBy操作。

 

报告人简介:

5.jpg

张岩峰,东北大学教授,东北大学与美国麻省州立大学联合培养博士,美国俄亥俄州立大学访问学者,主要研究方向为大数据处理与挖掘、并行与分布式计算等。在VLDBICDEPPoPPSOCCICDCS、《TPDS》、《TKDE》等重要期刊会议上发表论文多篇。曾获云计算领域国际会议ACM SOCC 2011的优秀论文奖等奖励。

 

 

____________________________________________________________________________

 

报告题目:从游戏引出的科研话题

报告摘要:

电脑游戏通常需要昂贵的硬件支持才能够获得优质的用户体验。为了节省用户的直接成本,云游戏成为一种新兴的商业模式,即游戏在服务器端运行,然后将生成的游戏画面用视频流传到用户端,用户的操作经由网络传到服务器完成游戏操控。在这种模式下,服务器资源的充分利用成为这一模式能否成功的关键,即能否在一台服务器上运行尽量多的游戏,而不影响玩家的用户体验。在游戏中,我们将用户体验定量表述为视频帧率(FPS),而多个游戏在同一台服务器上运行时,共享的资源包括CPU、物理内存、总线带宽、多级高速缓存、GPUSM数量等。因此,该问题就被抽象成为,如何描述这些硬件资源与游戏的FPS之间的对应关系,以及游戏之间的资源竞争状态。针对这个问题,我们首先提出sensitivityintensity两个游戏的资源使用指标,然后通过大量的游戏组合实验数据为基础,使用机器学习的方法进行游戏的组合和优化,最终实现一套自动的游戏组合方案,将服务器资源的利用率提高15%


报告人简介:

 4.jpg

宫晓利,男,理学博士,南开大学物联网工程系副教授,负责操作系统课程的教学工作。主要研究方向为嵌入式系统,虚拟化技术以及移动云计算。目前参与承担国家重点研发计划,国家自然科学基金青年基金、天津市自然科学基金等项目研究,并在基于可信开放架构的出版型类纸电子阅读技术及阅读器装置项目中荣获天津市科学技术委员会科技进步二等奖。近年来,已发表高水平学术论文十余篇,翻译出版专著4本。