“Python学习汇报暨人工智能与计算” 的大数据创新学习活动成功举办

  • 发布时间:2017-05-31
  • |
  • 作者:逄金辉
  • |
  • 阅读次数:450

自2016年12月以来,北京理工大学“大数据创新学习活动”开展了Python模块和知识图谱模块的学习活动,该活动以大数据分析为主轴线,让广大师生在“实战中学、互助中学、导师指导学”的浓厚学习氛围中,掌握数学、计算机科学及其应用的基础支撑性学科知识,获得大数据科学研究及应用创新的核心技能,满足社会科技发展对人才数据科学素养教育的需求。

 2017年5月27-28日,“Python学习汇报暨人工智能与计算”的学习活动在研究生院101报告厅成功举办,来自我校和北京地区的130余名师生和业界人士参加了活动。

研究生院院长王军政教授致欢迎词,他介绍了北京理工大学研究生教育的优势资源和“双一流”建设背景下研究生学术能力、科技创新能力、拔尖人才培养的新举措。他强调了北京理工大学为营造良好的研究生教育环境和学习氛围,开展了研究生高水平系列讲座、学术论坛、研究生科技竞赛等系列创新教育板块和创新学习活动。他指出“北理工大数据创新学习活动” 迎合了互联网、云计算、大数据等现代信息技术发展的潮流,邀请国内外学术界知名学者做“理论学习指导教师”,聘请业界精英担任“实战学习导师”,实现大数据行业资源与教学资源的有机融合,为我校研究生数据科学素养的提升,搭建了良好的校企合作教育平台。

北理工图书馆逄金辉副教授简要介绍了“大数据创新学习活动”的活动宗旨“提升数据科学素养、普及交叉学科通用知识、拓宽学校与业界零对接教育渠道和探索多元化的创新教育模式”,并对学习活动的模块规划和安排做了详尽的说明。

雪晴数据网创始人陈堰平做了“数据•决策•价值”报告,他从“大数据的几种常见谬论、数据分析的常见错误”开始,分析了大数据和Hadoop、Spark和机器学习的差异及应用场景,为师生系统讲解了批判性的数据思维、数据的价值、相关决策方法和数据挖掘的流程。他以三个案例“电信运营商用户离网预测及客户保持、银行呼叫中心精准营销、多渠道营销的动态效果评估”详细介绍了数据挖掘方法论的实战实施步骤,让师生充分体会到了数据挖掘过程以实际问题为导向的重要意义。

这次活动有26名在校硕士生和博士生,选取了五个主题汇报了他们的Python模块学习成果。在“在处理淘宝数据实战中熟悉python机器学习工作流程、基于python的人脸识别简单实现和链家网房价数据分析的Python实现”的主题汇报中,内容涉及了python环境搭建、Scrapy爬虫实战、数据整理工具pandas、SVM的人脸识别算法、CNN卷积神经网络介绍、DEEPID算法、聚类算法、链家北京二手房的python数据分析、回归房价预测、链家网二手房标题数据词云分析、matplotlib画图等。

学员“基于Python的信用卡评分方法、推荐系统Python实践”主题汇报。他们就如何读取及查看数据表、随机深林、XGBoost原理、XGBoost模型及调参、XGBoost模型评测、Adaboost算法原理及Python实现、缺失值检测及处理、异常值检测及处理、基于协同过滤的用户评分预测、基于高斯混合模型的用户评分预测等内容详细展示了实战分析的完整流程。

学员们利用2个月的课余时间,以平凡的“学中用、用中学”的自主学习模式,从“产、学、研”的三个维度实现了理论基础知识体系与应用知识拓展的无缝对接,取得了良好的学习效果。

 随着社交媒体的快速发展,社会生活离不开社交媒体,社交大数据亦无处不在。中国人民大学赵鑫做了“面向社交大数据的商业价值挖掘”报告,他围绕用户的“真实身份”与“在线社交身份”主题,介绍了社交媒体大数据中用户画像构建、用户意向分类整体模型框架、用户意图检测、受众的意图识别和用户需求推荐等内容,阐述了如何利用电子商务平台数据和社交媒体平台用户数据解决一些之前电子商务平台网站很难解决的技术问题,如冷启动推荐问题等。

清华大学陈文光教授讲解了性能优先的大数据系统——GridGraph系统,他首先分析了以编程简易性、可扩展性和容错能力为设计原的MapReduce和Spark,然后提出性能与容错并非是相互排斥的设计理念,强调了图计算是一个折衷的大数据分析平台,详尽地介绍了他们研发的高性能分布式图计算Gemini系统,在典型的图处理应用中,该系统需要的内存是约为GraphX的十分之一,性能是Spark GraphX的100倍以上。陈文光教授用对比数据说明了Gemini系统在图的划分方法、数据结构、局部性优化、细粒度负载平衡和通信与计算重叠方面的优化功能。

 北京理工大学马宏宾教授从“产、学、研”角度为大数据创新学习中心的师生分享了“智能一切——时代•机器•产业”,他介绍了人工智能发展历程、2016年美国Gartner的前10项技术前沿以及智能制造的未来发展,以机器人为例阐述了其“智能化之路”的独到见解,提出了智能产业未来大数据价值创造新方向。

融360风控技术总监殷磊博士做了“迁移学习在金融大数据风控中的应用”报告,他讲解了迁移学习算法及其在金融大数据分析的应用,介绍了融360“麒麟”融控数据平台的流式计算和批处理计算,通过有充数据的源任务抽象knowledge,再将knowledge应用到目标任务中的方式解决样本量不充足导致无法有效训练模型的问题。

猎聘网首席数据官单艺,为大数据创新学习中心学员带来了“人工智能、大数据和人才的未来”主题分享,他以猎聘网数据展示了大数据、机器学习、NLP和统计分析的方法对求职招聘相关的主要问题的研究,分析了人工智能对就业的可能影响,让师生体验到了智能职位推荐、人才推荐和职业社交推荐的背后大数据分析方法和技术支撑。

在两天的汇报活动中,报告的几位专家与业界专家布本智能联合创始人及首席分析官王安、清华数据创新基地任技术与服务总监黄凯波,一起与师生们展开了“码农在路上、人工智能中的大数据”的思想碰撞式讨论,师生们和业界人员受益匪浅。

北京理工大学大数据创新学习活动,为我校师生提供了“学界与业界的无缝对接学习与交流“平台,开展了系列学习活动。后续的学习活动将在学校公众平台、微信公众号上发布,欢迎感兴趣师生加入,共同办好创新学习活动。