校企实验室 | 计算教育学中内容生成研究与应用

发布时间:2019-04-28浏览量:108

1 计算教育学联合实验室的成立

百年大计,教育为本,党的十九大明确提出“建设教育强国是中华民族伟大复兴的基础工程”。教育信息化是实现这一宏伟目标的重要手段,推进信息技术与教育教学的深度融合,实现教育现代化已经成为我国的重要战略任务。在此背景之下,华东师范大学数据学院与百度在线网络技术(北京)有限公司(以下简称百度)于2019年1月共同成立了华东师范大学-百度计算教育学联合实验室,双方秉持以数据驱动为原则、以人工智能技术作为主要工具的理念,积极探讨和研究如何利用信息化技术改善教育教学过程,并追求将研究成果落地为优质教育产品,切实惠及莘莘学子。与此同时,通过收集和分析用户的行为数据,双方进一步改进产品质量和教学过程,从而形成平台à教学à数据à平台à教学的闭环。

义务教育是实现伟大复兴的基础工程之中的基础,当前义务教育--尤其是小学教育--面临优秀教学内容稀缺和分配不均等挑战。究其原因,一方面是因为人工构建教学内容效率不高,另一方面,部分人群薄弱的版权意识也使原创性内容构建举步维艰。为缓解这一困境,联合实验室就小学教学内容的自动生成研究展开合作,利用人工智能技术构建海量教学内容,帮助提高小学教学的效率和质量。在小学教育阶段,语文和数学是两门最重要的学科。其中,作文训练和应用题解题训练分别是培养和锻炼学生语文和数学综合水平的重要方式。目前这两方面教育的部分现状是:1)作文阅读资源不足,学生写作往往生搬硬套少量优秀作文的叙述和文字风格;2)应用题答案缺乏解题思路的指引,学生往往知其然而不知其所以然。以这一现状为切入点,联合实验室一期制定了小学作文自动生成和小学数学应用题自动解题两部分研究目标。前者的预期目标为就给定命题自动生成大量不同风格的小学作文范文,经过老师必要的修改和润色后即可供学生参考;后者能够在理解应用题语义的基础上,自动给出解题思路和解题过程。

联合实验室目前参与人员包括数据学院黄定江教授、陆雪松副研究员,百度首席架构师秦首科、资深研发工程师施鹏,数据学院博士研究生申弋斌、郝珊锋,以及硕士研究生李小昌、朱梦霞、杨康和汤路民。

2 人工智能与内容生成

近年来,人工智能技术在内容生成领域有着突出的应用。运用人工智能算法(如深度神经网络)搭建模型,学习现有内容数据集的特征和关联,训练出的生成模型可以部分代替人类自动生成更多的相关内容。典型应用包括图片的自动生成(阿里鹿班、英伟达PGGAN),看图说话(微软CaptionBot、谷歌Show and Tell),机器写作(今日头条xiaomingbot、腾讯DreamWriter)和自动解题(阿凡提解题)等等。一系列内容生成产品的相继涌现,为教育教学内容的大规模自动生成提供了可行的思路和方案,即利用人工智能技术对已有教学内容进行学习和训练,让计算机辅助和(部分)代替教育工作者来生成新的教学内容,在高效生产内容的同时,也在一定程度上规避了版权问题带来的内容构建障碍。

小学作文生成属于自然语言处理中的文本生成研究范畴。当前以深度神经网络为主的文本生成技术已经可以生成可读性较高、长度在十几个到几十个字的文章。绝大部分现有工作的神经网络内核使用了从机器翻译模型演化而来的基于RNN的Sequence-to-Sequence架构,通过构建输入-输出文本对,训练模型模仿原始输入文本的风格生成新的文本。尽管这几年研究人员对这个结构进行了大量优化,辅以Attention, Pointing, RL, Gan等机制和手段,提升文本的长度和逻辑性,但RNN固有的序列结构特性导致了高质量文本生成的长度被限制在几十字以内。最近Google Brain提出的Transformer结构,摈弃了冗长的RNN训练模型,直接利用Self-Attention对文本进行并行编码和解码,提升了训练效率,并在机器翻译和英语选区解析任务中取得了State-of-the-art结果。因此我们计划首先利用Transformer思想来改进现有模型,并辅以Pointing和Coverage等机制优化词语选择和句子生成,用以训练生成长度为50到500字左右的小学作文。

数学教育方面,当前培养学生的数学问题解决能力已经受到世界各国教育界的重视,其中运用数学知识解决小学应用题能力是问题解决能力的一个重要组成部分。现在的小学生在解决应用题的过程中会遇到很多问题,而现有的大班教学无法实现一对一个性化辅导,因此个性化智能教学辅导系统成为必需。在这种教学实际问题的需求下,随着以信息加工理论为基础的人工智能技术的迅速发展,国内外学者都已开始进行小学数学应用题领域的研究。自动求解数学应用题(MWP)的研究历史可以追溯到20世纪60年代,并且最近几年继续吸引着研究者的关注。自动求解应用数学题首先将人类可读懂的句子映射成机器可理解的逻辑形式,然后进行推理。该过程不能简单地通过模式匹配或端对端分类技术解决。因此,设计具有语义理解和推理能力的应用数学题自动求解器已成为通向通用人工智能之路不可缺少的一步。

3 联合实验室研究内容、目标与开展情况

3.1 小学作文生成

小学作文生成项目参与的同学包括李小昌和朱梦霞两位硕士研究生。图一左和右分别为李小昌和朱梦霞同学在实验室工作。

1556430399330052804.png

1556430402690060905.jpg

李小昌和朱梦霞同学正在实验室工作

3.1.1 技术难点和挑战

目前机器写作的一大挑战是多句子长文本的生成,其中多句子文本语义的常识逻辑性是最大的难点之一,即人们常说的Commonsense Knowledge。经典的基于RNN的Seq2Seq文本生成模型可以生成语法语义无误,长度在十几到二十几个字的短句子,但是往往因为累积误差(exposure bias)无法生成语义连贯的长文本。同样地,为了规避这个问题,当前产业界在机器写作方面的产品也附加了各种限制和存在诸多局限,比如缺乏意义的文字堆砌,局限于新闻等格式模板化的写作,以及仅仅针对语法错误的作文批改等等。小学作文一般为50到500字之间的命题作文(按年级从低到高递增),并且要求有一定的原创性,因此研究课题的挑战在于如何根据给定命题,生成符合常识逻辑的长文本小学作文。

3.1.2 预期技术路线

1556430449194060599.png

基于变分自编码器和对抗生成网络的模型结构

经过调研和初步实验论证,我们认为一个可行的方案是基于多文本摘要式总结的文本生成,即根据输入的多个相关的范文内容,利用摘要式总结方法,生成内容变化的原创性小学生作文。其中相关性强的多文本可以很好地提高模型生成文本的逻辑性。图二展示了我们设计的模型整体架构。其中上半部分为基于变分自编码器的生成模型,用以生成文本;下半部分利用对抗网络使生成的文本更加逼近真实文本的分布,进一步提高文本的质量。其中,变分自编码器部分将实现Transformer结构,辅以Pointing和Coverage的机制提升模型的生成效率。而对抗网络将利用强化学习思路,将文本生成的离散数据转化为连续的状态行为值输入给鉴别器,从而规避鉴别器返回的损失无法反向传播的问题。

目前实验室正在开展生成模型的研究工作。我们尝试利用Google Brain提出的MeanSum无监督训练模型,对多个内容相关的作文段落进行摘要式总结,汇聚生成一个风格类似的原创性段落。MeanSum模型是由AutoEncode和Summarization的模型组合演化而来,前者的作用在于可以学得每个输入文本的表示,并且通减小重构损失使得输出的文字限定在与输入原文相关的范围;后者的目的在于缩小文本相似性损失,使得生成的文本在语义上与输入文本相似。在经过对模型结构的优化之后,我们在10万个作文段落上训练得到了初步结果,生成了具有一定质量的文本。图三展示了一个示例样本,在给定4个原始段落之后,模型自动生成了一段语义通顺的文本。当然,由于模型训练和原始文本质量等问题,生成文本的逻辑性问题还有待改进。不过,该模型的一大优点是可以用无监督学习的方式,根据输入文本的不同,训练生成内容丰富多变的原创文本。例如图三中的“还有的像一个个小仙女”和“有只蝴蝶在空中翩翩起舞”两句,均是原始训练数据中没有的文本。

1556430516887097452.png

模型输出文本示例

下一步,实验室计划收集更多数据,尝试通过构建高质量训练集的方式来提升模型效果。同时,实验室准备改造目前的MeanSum模型,使用Attention, Pointing和Coverage机制,优化生成文本的选词和逻辑性,然后将目前模型中使用的自动编码器(Autoencoder)改造成为变分自编码器(Variational Autoencoder),即将MeanSum从一个文本总结模型变为文本生成模型,从而摆脱需要输入文本的限制,直接根据输入的主题类型和随机变量自动生成原创性文本。


3.2 小学应用题解题

小学数学应用题自动解题项目参与的同学包括杨康、汤路民、申弋斌和郝珊锋。

1556430577456063683.jpg

1556430577462080927.jpg

左和右分别为杨康和郝珊锋同学在实验室工作


3.2.1 技术难点和挑战

目前自动解题的难点主要有两方面。一是题目语义的理解。人类具有很强的阅读理解能力,但具有有限的逻辑计算能力,计算机却恰恰相反。例如下面两个题意相反的题:1)两辆车同时往同一方向开,速度分别为28km/h和46km/h,问多少小时后两车相距63km?2)两辆车同时往相反方向开,速度分别为28km/h和46km/h,问多少小时后两车相距63km?人类可以轻而易举理解两题的不同之处,但是计算机却很难准确区分。如何缩小人类与计算机之间的语义理解鸿沟,让计算机真正的理解人类语言是自动解题目前最大的难点。第二个是常识问题。人类的发展是不断地累积经验知识的过程,而计算机的发展更侧重于提高处理速度、计算能力。当人类生成一些应用题时,不可避免的引入一些默认的常识(如兔子有四条腿,一天24小时等)。但让计算机解应用题时,人工智能程序并不知道这些常识。因此如何给AI程序赋予常识、让其理解常识,又是一大挑战。

3.2.2 预期技术路线

1)构建大型小学数学题题库

做数学题是检测学生是否真正理解数学知识点的重要一步,也是学生巩固数学基础的重要环节。构建大型数学题库不仅可以辅助老师教学,又为训练神经网络解题器提供了数据来源。因此我们爬取网上教育资料,同时结合百度教育题库,共同来构建大规模的小学数学题库。

1556430617297053781.png

神经解题器架构


2)整体系统架构图

我们设计了如图五所示的神经解题器系统架构。题库是整个系统的基石。为缓神经网络的语义理解问题,针对每道题进行特征抽取。然后利用当前主流的端到端的网络模型来训练解题器,将每个模型给出的答案进行打分排序,最终给出最优答案。

3.2.3 现有研究结果

端到端的神经网络模型在机器翻译,序列标注等任务上取得了良好的效果。我们利用现有的题库训练端到端模型,输入是问题文本,经过编码器之后,直接解码生成等式模板。目前分别实现了基于LSTM的seq2seq模型、基于Transformer编码器-解码器模型,模型性能有所提升。下一步工作将在数据集扩增,特征抽取这两方面展开。

4 小结和对未来的展望

计算教育学是将信息技术与教育深度融合的新兴研究领域,而数据驱动将是大数据时代计算教育学有别于传统信息化教育的根本特征。联合实验室将深入贯彻这一理念,从内容数据出发,构建数字化信息化教学平台,未来收集和分析用户在平台上的行为数据,进一步优化教学平台和过程,最终构建数据驱动的教育教学的闭环。数据学院目前正和百度密切合作,共同研发上述初始模型,逐步将成果落地成为教育产品,供广大用户使用。相信在不久的将来,我们会展示更多引人入胜的新成果。


撰稿 | 陆雪松 黄定江