数据学院代表团于2019年2月12日至16日访问了硅谷的大学和企业,考察并交流了有关在线教育、大数据和人工智能创业的经验和产出,收获丰富。同时,数据学院的办学理念得到了对方的高度认可。具体考察成果如下。
一、斯坦福大学
1)Hasso Plattner设计学院 (Hasso Plattner Institute of Design)
Hasso Plattner设计学院(简称d.school)是一个培养学生创造力和创新思维的地方。它的Design Thinking课程面向全校所有专业的学生,课程提供了一个协作平台,让他们可以聚集在一起共同尝试解决一些来自工业界的现实问题。课程以完成项目和实验为主,训练学生站在用户角度发现现实中的不足,通过发挥创造力找到解决方案,并通过尝试和迭代实现创新。实践证明,课程可以激发学生的设计创新潜力,建立学生对于从事创造性工作的信心。d.school也会不定期举行各类研讨交流会,开阔学生思维和眼界,为学生解决问题提供相应的帮助。d.school校友的创新成果包括很多著名的应用和创业公司,如LinkedIn Pulse,Ravel Law,Noora Health等等。在我国大力推行大学生“双创”教育的过程中,d.school的成功经验非常值得数据学院思考和借鉴,譬如如何培养学生的“双创”思维,如何让“双创”成果落地,等等。图一为d.school部分照片和数据学院访问随拍。
图一:数据学院在斯坦福d.school访问
2)与斯坦福大学计算机系主任(Chair of CS Dept.)John C. Mitchell教授会面
在访问d.school之后,数据学院一行与John C. Mitchell教授会面,就如何推进教育和信息技术的融合(计算教育学)进行了交流。Mitchell教授有多年从事教育创新和在线教育的经验。在会谈中,他首先回顾了斯坦福大学过去半个多世纪在在线教育领域作出的尝试和努力,包括从上世纪50年代开始的远程教育,到90年代基于互联网的课程,以及最近的MOOC教学,指出了计算教育学的本质是要利用有限的教育资源达到可延展学习的目的(learning at scale)。在询问如何达到这一目的时,Mitchell教授认为关键是能够实现教育平台的自动化工作(do things automatically),比如自动给出学生解题提示,自动发现学生(编程中)错误的代码和习惯,自动给学生作业打分等等。而实现自动化的关键是数据驱动,即大量收集和模拟学生的行为数据,通过数据分析和建模来帮助实现自动化教学。这点和数据学院的理念不谋而合,即建立信息化教学平台(如编程实训平台),收集学生数据,再将数据分析的结果用于教学过程,提高教学效率和质量。Mitchell教授还介绍了斯坦福可延展教育研究实验室Lytics Lab和相关研究人员,以及部分近期研究成果,供我们日后参考。得知数据学院在推动“数据驱动的计算教育学”上付出的努力后,他非常欣喜,并答应日后安排时间参与数据学院在“计算教育学”方面的活动。图二为John C. Mitchell教授以及他板书的Lytics Lab和CS at scale教育的介绍。
图二:John C. Mitchell教授,Lytics Lab和CS at scale教育介绍
3)和Infosys前CEO Vishal Sikka博士会面
访问完斯坦福大学计算机系后,数据学院一行和老朋友Vishal Sikka博士在咖啡馆进行了短暂的会面。Sikka博士讲述了他在斯坦福大学的学习经历以及他引荐Hasso Plattner(SAP创始人)到斯坦福创建d.school的经过。Sikka博士近期非常关注AI的基础教育工作,他认为AI的应用前景将非常广泛,而市场对AI人才的需求将长期得不到满足。为此,他和他的妻子近年来一直在世界各地推广CS for ALL和AI for ALL运动,致力于让从事广泛职业的人掌握计算机和人工智能的基础知识。Sikka博士于去年11月在华东师范大学开设了AI通识课程,亲自授课。在这次会面中,他表示希望将课程继续开展下去,他今年的课程会深入浅出地讲解一些具体的AI技术。
图三:和Vishal Sikka博士交谈
二、圣何塞州立大学Charles W. Davidson工程学院
数据学院随后访问了圣何塞州立大学(SJSU)Charles W. Davidson工程学院,Belle W.Y. Wei教授(以下称魏教授)和Ping Hsu教授(以下称许教授)向数据学院介绍了他们在SJSU可延伸教育领域进行的实践。许教授介绍SJSU非常注重培养学生解决实际问题的能力,为此他们的重要举措之一便是聘请著名企业的专家和工程师作为兼职教授,来给SJSU的学生(尤其研究生)上课,按照企业的实际要求培训学生。同时,这些兼职教授也会到相关企业开课,做职业培训;包括洛克希德·马丁、思科、科磊等著名企业都是他们的授课对象。SJSU的教授会经常和这些兼职教授讨论课程的设计和学生资格考试的方案。由于坐落于硅谷,SJSU可以招募到大量顶尖工程师来学校做兼职教授;据悉,他们30%的老师都是硅谷的现役工程师;这一举措有效提升了SJSU毕业生的就业能力。魏教授又介绍了SJSU开设的K12教育教师培训项目和社区服务工程实践项目,以及为学生开展工程项目提供各种资源和设备的教学场所Makerspace。SJSU的经验对数据学院思考如何培养对业界有用的学生有很大的启发。图四为数据学院与魏教授许教授会谈照片。
图四:数据学院与SJSU的Belle W.Y. Wei教授和Ping Hsu教授探讨如何开展延伸教育
三、Coursera
Coursera是一家由斯坦福大学教授Andrew Ng和Daphne Koller创立的在线教育机构,通过和世界各地大学及教育机构合作,为学生和年轻雇员提供在线课程、专业以及学位。截至2018年,Coursera已经为3800多万注册用户开设了超过2700门课程,300多个专业以及5个学位。数据学院一行与Coursera首席内容官Dil Sidhu和资深经理Gary Chia探讨了在线教育平台的建立和经营理念。Coursera的使命是使得大学教育可延展,让优秀教育资源被更多人获取,让更多人能承受享受优质教育的成本。为此,Coursera建立了一套由大学、学生和企业构成的生态系统—大学老师将课程放在平台,获得经济收益和知名度;学生通过平台得到培训并找到工作;企业通过平台招募并培训员工。这个生态系统让大学、学生和企业三者相互获益,形成正向循环,并推动平台不断发展壮大。Coursera有强大的教育研究团队,帮助大学老师设计和优化课程;通过平台收集的教学过程数据为教育研究团队提供了丰富的研究素材,帮助他们理解什么样的教学方式更有效。此外,学生也会把对在线课程的体会和评价反馈给Coursera,再由Coursera将这些反馈传递给大学和教育机构,进一步改善课程设计和教学过程。据悉,Coursera将平均每年10万美元的大学教育成本降低到了2万美元左右,使得更多学生和年轻雇员触及优秀的教育资源。Coursera的成功经验对于数据学院如何利用信息化技术普及优秀教育资源有很大的启发。图五为资深经理Gary Chia向数据学院介绍Courera在线教育平台。
图五:Coursera向数据学院介绍公司概况和自主研发的在线教育平台
四、计算机历史博物馆
计算机历史博物馆保存并展示信息时代发展过程和计算机文物,馆内陈列了计算机发展史上的重要成果。博物馆学校和教师项目经理Stephanie Corrigan向数据学院一行介绍了计算机由珠算à模拟计算机à早期大机à超级计算机à小型机à个人计算机à移动计算和互联网的整个发展历程,以及在此过程中被发明的各类计算机产品和相关设备,包括用于二战的ENIAC计算机系统,Cray系列超级计算机,苹果电脑,Google racks等等。另一方面,博物馆展示了近代计算机软件的发展过程,介绍了文本编辑,医学MRI,音乐和游戏等方面的著名应用,并且可以让游客通过live programming等方式进行互动体验。了解计算机的发展历史有利于我们理解计算机知识体系的发展脉络和历史局限性,帮助我们改进教学的内容和方式。这也是此行的目的。数据学院希望和计算机历史博物馆建立长期合作关系,通过让学生访问博物馆并完成实践项目,开拓学生的计算机专业知识,让学生对数据科学与计算机科学的关系有更深入的体会。图六为Stephanie介绍计算机历史博物馆和馆内部分展品。
图六:Stephanie Corrigan向数据学院介绍计算机历史博物馆展品
五、Udacity
Udacity是一家专注于职业教育的在线教育机构,重点聚焦于编程和数字经济教育,根据企业的实际需求来培养职业人才。联合创始人、前Google副总裁和斯坦福大学计算机系兼职教授Sebastian Thrun博士向数据学院一行介绍了Udacity的宗旨和现状。Udacity发明了面向职业教育的所谓“第四学位”(区别于本科,硕士和博士学位),将业界需要的专业知识和技能,通过学习à工作à学习à工作的迭代过程,在半年时间教授给学生,帮助他们拓展专业技能,找到合适的工作。在Udacity的课程中,80%的学习通过项目实践完成,只有20%的学习通过内容学习完成。课程项目和内容是由业界专家设计、构建并负责教授,内容往往是几分钟的短视频,使得学生能够集中注意力。Sebastian Thrun认为传统的长时段课堂教学是不得已而为之的模式,而短视频的教学更符合人性,效率更好,也更适合在职的学生。与Coursera不同,Udacity让每一个学生在学习过程中都可以获得助教的一对一辅导,作业可以及时得到助教的评价(助教大都为高校的研究生)。因此,Udacity会收取远高于Coursera的学费,但同时获得更高的课程完成率(Coursera的课程平均完成率为5%,而Udacity为50%)和更好的实训效果。此外,Udacity还会帮助学生设计简历和模拟面试,来增加学生求职过程中的自信心。Udacity也很关注“数据驱动的计算教育学”,包括利用AI去筛选学生和干预学习过程,研究学生需求、选课和退课的原因等等,来进一步完善在线教育平台。Udacity的实践获得了很多经验,包括:短视频更容易让学生学到知识,十个人左右的小讨论班更加有效率,每周需要20个小时用来学习,专业技能+自信心才能找到满意的工作,等等。这些理念对数据学院开展职业教育有指导意义。图七为Thrun先生向数据学院介绍Udacity。
图七:Udacity联合创始人Sebastian Thrun与数据学院会面
六、Conviva
Conviva是一家在线视频优化和分析公司,为流视频和流电视内容提供者提供实时分析和智能优化。创始人为卡内基·梅隆大学计算机系教授张晖先生。数据学院访问Conviva,了解人工智能和大数据在视频处理领域的应用。张晖教授介绍,Conviva构建用户观看闭环,通过将用户数据发回云端分析,来优化视频播放,并向用户推荐可能感兴趣的视频。张晖教授认为,互联网数字媒体必定会取代传统的电视,Conviva提供的服务是未来数字媒体都需要的。著名的大数据处理系统Spark就诞生在Conviva公司 – 视频观看闭环的建立需要高扩展低延迟系统,加州大学伯克利分校的研究团队针对Conviva的这个需求创造了Spark系统。数据学院与随行的交通银行同事,一起与张晖教授探讨了就高并发系统的构建和银行视频自动审计等难题进行合作的可能性。图八为数据学院访问Conviva进行会谈。
图八:数据学院访问Conviva并与张晖教授会谈
七、Google Sunnyvale
Google Sunnyvale专注于构建Google产品基础设施(gpi),为Google内部提供基础设施服务(相对于Google Cloud为外部用户提供服务)。数据学院访问Google Sunnyvale,就构建高可用高扩展的分布式系统与Google数据基础设施与分析团队工程总监洪伟博士进行了交流。洪伟博士介绍了gpi和Google Cloud的区别,指出gpi的目标是满足Google自身的系统需求,而Google Cloud的目标是对外提供云平台。因此,gpi提供比Google Cloud更好的分布式系统服务,包括独特的文件系统、Dataflow框架和数据库系统等,同时gpi维护大量完全拷贝的数据中心,来支撑高可用高扩展的分布式服务。当被问及如何构建基于GPU的数据库时,洪伟博士认为关键是将可以并行处理的数据完全压缩到GPU内存中,以减少GPU和CPU之间的数据交换,因此如何分配GPU内存和CPU内存中的数据对提高数据库的效率至关重要。最后,洪伟博士介绍了gpi团队为Google知识图谱开发的支持系统。图九为数据学院访问Google Sunnyvale。
图九:数据学院一行访问Google Sunnyvale
八、DataVisor
DataVisor是业界领先的反欺诈数据分析公司,为金融、社交、电商平台等客户提供最先进的反欺诈技术解决方案。联合创始人分别为前微软研究院资深工程师俞舫女士和谢映莲女士。在交流会中,她们共同向数据学院和交通银行一行介绍了DataVisor利用基于无监督学习的AI技术解决反欺诈、信贷、网络安全等问题的解决方案和成功经验,指出通过不同维度的关联,可以精确发现可疑群体和行为,精准构建用于欺诈检测的用户画像。数据学院和两位女士探讨了如何将无监督学习结果转化为风险评分,如何将无监督学习和有监督学习有效结合并用于信用模型等问题。DataVisor运用无监督学习的成功经验,对数据学院和喔噻科技合作的小微商户征信项目有一定指导意义。图十为数据学院访问DataVisor并进行会谈。
图十:为数据学院访问DataVisor并与俞舫、谢映莲女士进行会谈
九、Rul.ai
Rul.ai是一家专注于智能客服的AI创业公司,也是数据学院本次出访硅谷的最后一站。联合创始人、UCSC计算机系教授张奕女士接待了数据学院一行。会谈中,张奕教授介绍了Rul.ai运用AI技术实现智能客服的成果和产品,解释了task-based模型实现基于上下文进行多重智能问答的优势,并指出了Sequence2Sequence模型在语义理解方面的缺陷。张奕教授认为Java+Python是训练数据科学家的最佳语言,同时肯定了数据学院的人才培养理念和方式,并探讨了未来合作的可能。图十一为张奕教授及其展示的智能客服Demo。
图十一:张奕教授及其展示的Rul.ai智能客服Demo
总的来说,此次出访让数据学院认识到了硅谷在计算教育学和人工智能大数据创业领域的最新经验和成果,为数据学院思考如何将教育与信息技术深度融合,如何建立符合中国国情的CS for ALL和AI for ALL教育体系提供了参考依据,同时坚定了数据学院以数据驱动创新、从实际应用出发做有用研究的办学理念。