暑期学校 | 研究生学术论坛

发布时间：2019-08-19浏览量：245

2019年7月21日上午8：30，2019年华东师范大学数据科学与工程研究生学术论坛的上半场正式拉开序幕。上午的我们迎来杨康、申航杰等同学的报告，上半场的报告由金澈清老师和陆雪松老师主持。

1，报告人：杨康（华东师范大学）

作者：杨康，高明，黄定江

面向自动问答的机器阅读理解综述

来自华东师范大学的杨康同学为我们带来了题为面向自动问答的机器阅读理解综述的报告。首先，机器阅读理解是指智能程序阅读文档、问题，从而给出问题答案，其应用场景广泛，如搜索引擎、智能客服和虚拟助手等。智能程序对自然语言的理解主要包含四个程度：词性标注、句法分析、命名实体识别以及共指消解。早期的机器模型主要通过对问题与文档进行训练得出统计模型，依赖句法解析、共指消解和词袋模型等文本表征。传统机器学习的模型的主要问题包括：合适的文本、词的表示方法，系统模块之间存在累计误差以及数据集的规模太小等。而基于神经网络的词向量模型以及循环神经网络的出现缓解了文本表示问题，且端到端的网络架构使得模型哥哥模块能够进行自适应的学习。其次，杨康同学对现有主流的模型进行了分类并总结了各自的优缺点已经使用范围等，分别是基于注意力的模型，基于卷积的模型以及预训练语言模型，其中基于注意力的模型还可以细分为一维与二维匹配模型。最后，杨康同学介绍了相关数据集以及一些评价指标，其中在填空式的任务中的评价指标为准确率，而在段落抽取式的任务中其主要评价指标为EM和F1。在未来研究，自动问答的机器阅读理解的主要目标还是提高效果和压缩模型两个方面。

2，报告人：申航杰（四川大学）

作者：申航杰，孙界平，琚生根

基于模糊聚类和支持向量回归的成绩预测

来自四川大学的申航杰同学为我们带来了题为基于基于模糊聚类和支持向量回归的成绩预测的报告。报告主要分为三个方面，包含研究背景、成绩预测以及未来工作。目前教育行业流量呈现平稳式增长，其数据通常是海量、低质、异构以及动态的，通过AI技术分析这些数据，可以精准计算学生的知识基础、学科倾向、思维类型、感情便好和能力潜质，从而科学地配置教育教学内容对学生进行个性化培养。这份工作首先从学习资源和用户信息两个方面进行数据采集，然后采用自然语言处理技术对词语进行切分、归类以及语义分析，从而构建知识图谱。同时，采用协同过滤推荐算法对用户进行学习资源以及个性化学习路径的推荐。该工作主要通过模糊C均值聚类FCM以及支持向量回归SVR的方法的方法对学生的最终成绩进行预测，从而就能发现学生的学习异常，通过引导和干预就有可能阻止挂科等不幸事件的发生。最后通过实验证明了该工作的正确性以及有效性，展望了未来的工作。

3，报告人：刘子豪（华东师范大学）

作者：刘子豪、胡卉芪、徐瑞、周烜

基于LevelDB的二维数据二级索引实现

来自华东师范大学刘子豪同学为我们带来了题为基基于LevelDB的二维数据二级索引实现。他首先向我们解释了什么是二维数据的二级索引，以及为什么要选择LevelDB来构建二维索引。该工作主要针对的是Key-Value型数据中Value为一个空间中的二维坐标中的情况，而LevelDB是一个典型的面向写优化的key-Value数据，采用LSM的结构可以作为其他数据的存储引擎。他介绍了LSM-tree这一结构在LevelDB中的实现，以及空间索引R-tree。然后，刘子豪同学着重介绍了LevelDB上二维数据的二级索引的设计，包括索引的存储、同步以及查询。最后给出了该二级索引的性能测试，以及后续工作。

4，报告人：邵明锐（中国人民大学）

作者：邵明锐、马登豪、陈跃国、覃维派、杜小勇

基于社区问答数据迁移学习的FAQ问答模型研究

来自中国人民大学的邵明瑞为我们带来了题为基于社区问答数据迁移学习的FAQ问答模型研究报告。FAQ(frequent asked questions )常问问题集，通常根据客服日志中用户提出的历史问题，人工标注得到。在基于FAQ问答场景中，当接收到用户提出的问题时，只需要找到与当前用户提问问题最为相近的历史问题，并且将历史问题所对应的答案作为结果返回给用户即可。但受限于人工标注的规模限制，数量往往不会很大;固定语料的局限性，可识别问题范围有限。常见的问答系统:包括检索式、生成式。基于FAQ 的问答是检索类问答的的重要组成部分。FAQ问答的瓶颈:与特定领域相关，标注语料有限迁移学习的方式可以有效的缓解标注语料有限的问题，常见的做法是基于通用语料训练一个通用的语言模型，特征向量，然后应用在特定领域的问题上，与任务无关。或者在领域相关的数据集上，做迁移学习训练。本文通过在线社区问答网站，获取大量的领域相关的数据集，但是鉴于社区问答数据含有大量的噪音，可能会对迁移学习带来负面影响，因此又分别在数据层面和模型层面做了相应的设计。本文主要解决方案分为两个方面，包括了数据层面以及模型层面。数据层面，数据爬取在爬取时，保证数据内容的相关性语义等价问题的挖掘通过挖掘语义等价问题，保证数据形式的一致性。模型层面，设计并实现一种新的深度神经网络结构，选择并实现合适的fine tune策略，屏蔽迁移过程中噪音的影响。

5，报告人：陈远哲（华东师范大学）

作者：陈远哲、匡俊、刘婷婷、高明、周傲英

共指消解技术综述

来自华东师范大学的陈远哲同学为我们带来了题为共指消解是自然语言处理中一个重要且困难的任务: 让计算机理解文本中，哪些表述指向同一个现实实体。共指消解作为自然语言处理中最难的问题之一，其效果极大地影响了机器对于自然语言的理解能力。他先介绍了共指消解的基本概念，形式化表示，以及与实体消岐的区别。然后系统阐述了共指消解技术的研究技术的主要分类，包括基于规则的方法、基于机器学习的方法、基于全局优化的方法、基于知识库的方法和基于深度学习的方法。其中基于规则的方法理解和实现比较简单，但是基于固定规则导致其泛化性能较差，但特征往往是局部的，没有考虑全局的依赖关系和语义特征。为了得到全局较优的共指方案，避免出现违背传递性的解，全局优化方法被提出，但是全局优化方法计算量大，在规模较大的数据集中无法使用。此外，人们的先验知识有助于共指消解任务，随着深度学习的快速发展，其强大的模型拟合与泛化能力使其在NLP各个任务中都取得了突破性的成果。

6，报告人：陈亮（同济大学）

作者：陈亮、郭嘉雯、武建功、王占全、史令

基于法计算学理论的人工智能辅助决策算法研究

来自同济大学的陈亮同学为我们带来了题为基于法计算学理论的人工智能辅助决策算法研究的报告。本工作提出了不同于计算法学的法计算学的概念，并明确其作为对法律科学进行数据化研究的理论，其核心应当是实现法律关系的可计算化。然后，以“涵摄分类”建立了法律关系与数据分类算法之间的联系，求得将法律进行数据化转化的连结点，以C4.5决策树原理实现了对案件事实的法律定性分类。构建了法律关系坐标系，实现了将低维的法律关系分析向立体空间几何的转化。最终实现了辅助律师进行案件分析决策的算法，以多次朴素贝叶斯原理预测的概率之差作为优化案由的参考性路径，且经与真实律师的代理思路与结果的比较，验证了算法的可行性与准确性。

7，报告人：张涛（华东师范大学）

作者：张涛、张蓉

Woodpecker+：基于数据特征的自定义负载性能评测

来自华东师范大学的张涛同学为我们带来了题为Woodpecker+：基于数据特征的自定义负载性能评测的报告。目前的数据库测试缺乏通用的测试工具，测试案例构造代价高、通用性差，测试工具可拓展性弱。本工作针对上述问题提出一个通用的数据库测试框架Woodpecker，同时支持功能测试、性能测试和系统功能，测试的通用数据库测试框架，设计并实现了一套基于关键字的语义丰富、易用，可高效编写测试任务的测试定义语言(TDL)，且测试案例复用性高，支持简单快速的自动化回归测试及统计信息收集。而Woodpecker+在Woodpecker的基础上，集成了特定的任务负载，并且支持数据特征的自定义。通过实验可以发现Woodpecker+在测试案例的构造代价、负载组织能力、分布式系统测试表达能力以及负载扩展性等方面均优于现有解决方案，为数据系统的测试带来了极大的方便。

8，报告人：葛又铭（中山大学）

作者：江群、戴戈南、张森、葛又铭、刘玉葆

基于用户偏好的最优路径搜索

来自中山大学的葛又铭同学为我们带来了题为基于用户偏好的最优路径搜索的报告。路径搜索与人们的生活息息相关，被广泛应用于智能导航、路径推荐、AR 游戏等领域中。首先，他提出了一个最优路径搜索问题，在已有研究问题基础上，考虑停留代价对路径推荐的影响。然后，介绍了建立最小代价矩阵索引和关键字反向索引，利用索引结构过滤出候选节点集。基于该索引结构，该工作设计一个基于A* 框架的启发式路径搜索算法，并设计两个剪枝策略减少算法的搜索空间。最后，在来源于Foursquare在新加坡、Gowalla在奥斯汀采集的两个真实的签到数据集进行实验，证明该方法能够正确有效地进行最优路径的搜索。

2019年7月21日13：30，2019年华东师范大学数据科学与工程研究生学术论坛的下半场正式拉开序幕。在听完上午的八位同学的报告后，我们将迎来另外的七位同学的报告，下半场的报告由胡卉芪老师和董启文老师主持。

9，报告人：丁国浩（华东师范大学）

作者：丁国浩，徐辰，钱卫宁

面向日志结构化数据存储的高效数据加载

来自华东师范大学的丁国浩同学为我们带来了题为面向日志结构化数据存储的高效数据加载的报告。在目前用户量和业务处理数据量都在快速地增长的大背景下，所存在的单机数据库系统已经无法满足需求。而在这种情况下已有的解决方法主要分为两类：1. 采用分库分表的方式。但是分库分表需要大量的人工维护成本（如：开发成本，服务器成本等），并不能从根本上解决可扩展性问题。2. 采用基于日志结构合并（LSM）树的新型分布式数据库系统替换传统数据库系统（如：OceanBase，TiDB，CockroachDB等）。但是迁移数据库系统时会涉及到一个关键问题：数据加载。这份工作针对数据加载的问题，提出了一种通过预计算分区数目和基于部分采样确定分区间切分点的负载均衡的加载方法。同时，也提出了一种基于副本局部故障恢复的加载方法，从而减少了故障恢复的时间。并在开源数据库Cedar中验证了本文提出的负载均衡和容错数据加载方法的高效性。

10，报告人：王超强（桂林电子科技大学）

作者：傅裕，李优，林煜明，周娅

基于自注意力机制的冗长商品名称精简方法

来自桂林电子科技大学的王超强同学为我们带来了题为基于自注意力机制的冗长商品名称精简方法的报告。目前在构建跨平台商品知识对齐，多源商品的数据融合中存在以下三个方面的问题：1. 商品名称成分复杂，即电商平台上对某一商品的介绍定语较多不够精炼。2. 商品名称信息冗余，即电商平台上对某一商品的介绍信息同样的描述用了多种不同的形式进行介绍，导致信息冗余。3. 商品名称的不一致性，即不同电商平台对于同一商品的说明名称不一致。这份工作针对以上问题，提出一种端到端的基于自注意力机制的冗长商品名称精简方法，命名为ERS-NET。同时，使用基于门控循环单元的神经网络来解决自注意力机制无法直接采集商品时序信息的问题。并在LESD4EC数据集的基础上，生成了商品精简名称标记数据集LESD4EC_L和LESD4EC_S，并以此为基础进行了冗余商品名称精简任务的验证。

11，报告人：祝朝凡（华东师范大学）

作者：祝朝凡、郭进伟、蔡鹏

基于Paxos的分布式一致性算法研究

来自华东师范大学祝朝凡同学为我们带来了题为基于Paxos的分布式一致性算法研究的报告。他向我们介绍了为什么需要分布式系统，分布式系统中所存在的一致性问题，以及他们团队所做的工作。分布式系统（distributed system）是由多台计算机和通信的软件通过计算机网络连接组成（本地局域网或者广域网），一般具有以下四种优点：1. 高性能，相较于集中式计算机网络集群可以提供更高的性能以及更好的性价比。2. 可靠性，一台服务器的系统崩溃并不会影响到其他的服务器。3. 易扩展，在分布式计算系统中系统可以根据需要增加更多的及其。4. 灵活性，可以很容易的安装、实施和调试新的服务。但是，在分布式系统中存在着一致性的问题，即针对某一件事、或者某一个结论达成完全一致；已经达成一致的结论，不可被推翻；在整个决策的过程中，没有参与者说谎；绝对公平、相互对立，所有参与者均可提案，均可参与提案的决策。这份工作针对Paxos在达成一致性的过程中，容易产生活锁的问题，通过选举出一个主节点来接受客户端的读写请求，保证在系统能够提供服务的时间里，系统只有一个主节点能够有效提出提议，从而避免了多个节点在短时间间隔里依次提出提议，而造成Paxos过程总是在accept阶段成功之前被新一轮的提议抢占。同时，为了减少网络延迟和磁盘的写操作对系统性能的影响，如果leader不变，可以通过消除Paxos算法的第一阶段prepare过程，而只使用accept过程来对一系列提案达成一致性。主节点宕机以后，新主节点在重新提供服务之前，需要进行数据恢复过程，将新主节点的状态恢复到最新。由于日志之间存在空洞，为了避免补全空洞过程中造成的多余网络交互，可以通过在日志复制过程中写入适当的信息，从而可以省略补全一些无用的空洞日志的步骤。

12，报告人：钱淑韵（南瑞集团，南京农业大学）

作者：黄福兴，周广山，丁宏，张罗平，钱淑韵，袁培森

基于Isolation Forest的电能量异常数据检测研究

来自南瑞集团、南京农业大学的钱淑韵为我们带来了题为基于Isolation Forest的电能量异常数据检测研究的报告。目前国内的电能量计量系统已进入稳定成长阶段, 网、省级电网及主要城市的供电网均已配备电能量计量系统，采集到的电能量数据规模庞大，其中也不可避免会出现异常数据。为了实现公平、公正、公开的电力交易原则和电能量数据的有效应用，应该保证电能量数据的准确性、可靠性以及完整性，因此对电能量数据的异常检测尤为重要。这份工作针对以上问题，采用一种基于Isolation Forest的异常检测算法，实现大规模电能量数据的异常检测。Isolation Forest算法通过划分训练样本，生成随机二叉树和孤立森林构建模型，通过计算测试样本到根结点的距离检测异常数据点。该算法不仅能够快速处理海量数据，而且结果准确、可靠性高。并在大规模电能量数据的正向有功总电量PAP和反向有功总电量RAP字段上进行检测，实验结果表明，该算法检测效率较高，并具有较高的检测正确率。

13，报告人：郑宁远（华东师范大学）

作者：郑宁远，江一帆，黄定江

基于可微分的环境的深度学习

来自华东师范大学的郑宁远同学为我们带来了题为基于可微分的环境的深度学习的报告。强化学习方法分为Model-free和Model-based方法，这两种方法有着不同的使用场景及优点。Model-free方法中通常使用的是DQN（value-based），PG，PPO等（policy-based），并且是自适应的，但是这种方法的运行效率低下而且是发散的。Model-based方法中通常使用的是World Model，PlaNet等，并且是简单高效的。对于可微分环境来说，它具有以下三点特性：1. Gradient-friendly，end-to-end training；2. No explicit value function/policy is learnt；3. May require engineering effort for specific model (StrokeNet)。本份工作提出了在可微分的环境的深度学习中所要注意的事项，如下：1. Model stochasticity when possible；2. Use supervision when accessible；3. Not all gradients are created equal（如：Neural circuits）。

14，报告人：李灿（上海电力大学）

作者：赵波，田秀霞

基于自适应神经网络的电网稳定性预测

来自上海电力大学的李灿同学为我们带来了题为基于自适应神经网络的电网稳定性预测的报告。电网安全稳定是电力企业乃至整个社会改革、发展、稳定的基础，随着电网结构复杂度的增加，电网的安全和稳定运行，是保证国民经济快速良好发展。通常电网安全主要括内部安全和外部安全两部分内容，内部安全事故是指内部工作人员以及电网自身拓扑结构引起的安全事故，外部安全事故指的是非法的用电操作，自然灾害等安全问题，其中外部原因是引起电网安全问题主要方面。而当前针对电网数据的研究有很多，主要包括三个方向：负荷预测，坏数据监测和需求响应，研究方法包括统计学方法、机器学习方法和深度学习方法。这份工作针对电网的稳定性问题，以神经网络为基础，建立了一种电力系统稳定运行状态的预测。并利用UCI2018电网稳定性仿真数据集进行分析。

15，报告人：黄皓（华东师范大学）

作者：黄皓，李志方，翁楚良

基于GPU的关系型流处理系统实现与优化

来自华东师范大学的黄皓同学为我们带来了题为基于GPU的关系型流处理系统实现与优化的报告。目前，高效的数据收集与处理是当下人工智能与大数据平台的核心竞争力，流处理系统在此扮演着非常重要的角色，基于CPU的流处理系统存在着计算能力上的问题，因此必须在吞吐量与响应时间之间做出权衡。与此同时，我们发现GPU具有更强的通用并行计算能力，并已广泛应用在大规模数据通用计算的场景下。本份工作基于以上提出的问题，提出并实现了一种基于GPU的流处理系统，实现了高效的关系型流查询，并实现流水线模型以充分利用CPU-GPU异构资源。同时，基于流水线建模提出最大吞吐量策略与平衡策略，以适应不同场景的需求。提出并实现了流缓存技术，即中间结果缓存与核函数缓存，以减少重复计算。实验结果表明，此情况下单服务器系统可以达到三服务器Spark Streaming/Flink的3.87倍平均吞吐量，且平均响应时间为后者的91%.

在今天15名同学的报告结束后，金澈清老师，董启文老师，胡卉芪老师，陆雪松老师共同评选出四名获得优秀论文奖的同学，分别是：

报告人	论文作者	报告题目
邵明锐（中国人民大学）	邵明锐，马登豪，陈跃国，覃雄派，杜小勇	基于社区问答数据迁移学习的FAQ问答模型研究
张涛（华东师范大学）	张涛，张蓉	Woodpecker+：基于数据特征的自定义负载性能评测
王超强（桂林电子科技大学）	傅裕，李优，林煜明，周娅	基于自注意力机制的冗长商品名称精简方法
黄皓（华东师范大学）	黄皓，李志方，翁楚良	基于GPU的关系型流处理系统实现与优化

并由董启文老师，胡卉芪老师，陆雪松老师共同为以上获奖同学颁奖。最后，金老师做总结发言。金老师首先对来自外地的同学的到来表示感谢，并对获奖的同学表示祝贺。然后，预告了明年同一时间段将在华东师范大学开展下一次的学术论坛，欢迎大家的再次到来。

至此，2019年华东师范大学数据科学与工程研究生学术论坛正式落幕，希望明年我们能继续相约华东师范大学！

文案 | 方敏

摄影 | 郑舒，杨大为，高宝丽