北京理工大學的前身是1940年誕生于延安的自然科學院,是中國共產黨...
自2016年12月以來,北京理工大學“大數據創(chuàng)新學習活動”開展了Python模塊和知識圖譜模塊的學習活動,該活動以大數據分析為主軸線,讓廣大師生在“實戰(zhàn)中學、互助中學、導師指導學”的濃厚學習氛圍中,掌握數學、計算機科學及其應用的基礎支撐性學科知識,獲得大數據科學研究及應用創(chuàng)新的核心技能,滿足社會科技發(fā)展對人才數據科學素養(yǎng)教育的需求。
2017年5月27-28日,“Python學習匯報暨人工智能與計算”的學習活動在研究生院101報告廳成功舉辦,來自我校和北京地區(qū)的130余名師生和業(yè)界人士參加了活動。
研究生院院長王軍政教授致歡迎詞,他介紹了北京理工大學研究生教育的優(yōu)勢資源和“雙一流”建設背景下研究生學術能力、科技創(chuàng)新能力、拔尖人才培養(yǎng)的新舉措。他強調了北京理工大學為營造良好的研究生教育環(huán)境和學習氛圍,開展了研究生高水平系列講座、學術論壇、研究生科技競賽等系列創(chuàng)新教育板塊和創(chuàng)新學習活動。他指出“北理工大數據創(chuàng)新學習活動” 迎合了互聯網、云計算、大數據等現代信息技術發(fā)展的潮流,邀請國內外學術界知名學者做“理論學習指導教師”,聘請業(yè)界精英擔任“實戰(zhàn)學習導師”,實現大數據行業(yè)資源與教學資源的有機融合,為我校研究生數據科學素養(yǎng)的提升,搭建了良好的校企合作教育平臺。
北理工圖書館逄金輝副教授簡要介紹了“大數據創(chuàng)新學習活動”的活動宗旨“提升數據科學素養(yǎng)、普及交叉學科通用知識、拓寬學校與業(yè)界零對接教育渠道和探索多元化的創(chuàng)新教育模式”,并對學習活動的模塊規(guī)劃和安排做了詳盡的說明。
雪晴數據網創(chuàng)始人陳堰平做了“數據?決策?價值”報告,他從“大數據的幾種常見謬論、數據分析的常見錯誤”開始,分析了大數據和Hadoop、Spark和機器學習的差異及應用場景,為師生系統講解了批判性的數據思維、數據的價值、相關決策方法和數據挖掘的流程。他以三個案例“電信運營商用戶離網預測及客戶保持、銀行呼叫中心精準營銷、多渠道營銷的動態(tài)效果評估”詳細介紹了數據挖掘方法論的實戰(zhàn)實施步驟,讓師生充分體會到了數據挖掘過程以實際問題為導向的重要意義。
這次活動有26名在校碩士生和博士生,選取了五個主題匯報了他們的Python模塊學習成果。在“在處理淘寶數據實戰(zhàn)中熟悉python機器學習工作流程、基于python的人臉識別簡單實現和鏈家網房價數據分析的Python實現”的主題匯報中,內容涉及了python環(huán)境搭建、Scrapy爬蟲實戰(zhàn)、數據整理工具pandas、SVM的人臉識別算法、CNN卷積神經網絡介紹、DEEPID算法、聚類算法、鏈家北京二手房的python數據分析、回歸房價預測、鏈家網二手房標題數據詞云分析、matplotlib畫圖等。
學員“基于Python的信用卡評分方法、推薦系統Python實踐”主題匯報。他們就如何讀取及查看數據表、隨機深林、XGBoost原理、XGBoost模型及調參、XGBoost模型評測、Adaboost算法原理及Python實現、缺失值檢測及處理、異常值檢測及處理、基于協同過濾的用戶評分預測、基于高斯混合模型的用戶評分預測等內容詳細展示了實戰(zhàn)分析的完整流程。
學員們利用2個月的課余時間,以平凡的“學中用、用中學”的自主學習模式,從“產、學、研”的三個維度實現了理論基礎知識體系與應用知識拓展的無縫對接,取得了良好的學習效果。
隨著社交媒體的快速發(fā)展,社會生活離不開社交媒體,社交大數據亦無處不在。中國人民大學趙鑫做了“面向社交大數據的商業(yè)價值挖掘”報告,他圍繞用戶的“真實身份”與“在線社交身份”主題,介紹了社交媒體大數據中用戶畫像構建、用戶意向分類整體模型框架、用戶意圖檢測、受眾的意圖識別和用戶需求推薦等內容,闡述了如何利用電子商務平臺數據和社交媒體平臺用戶數據解決一些之前電子商務平臺網站很難解決的技術問題,如冷啟動推薦問題等。
清華大學陳文光教授講解了性能優(yōu)先的大數據系統——GridGraph系統,他首先分析了以編程簡易性、可擴展性和容錯能力為設計原的MapReduce和Spark,然后提出性能與容錯并非是相互排斥的設計理念,強調了圖計算是一個折衷的大數據分析平臺,詳盡地介紹了他們研發(fā)的高性能分布式圖計算Gemini系統,在典型的圖處理應用中,該系統需要的內存是約為GraphX的十分之一,性能是Spark GraphX的100倍以上。陳文光教授用對比數據說明了Gemini系統在圖的劃分方法、數據結構、局部性優(yōu)化、細粒度負載平衡和通信與計算重疊方面的優(yōu)化功能。
北京理工大學馬宏賓教授從“產、學、研”角度為大數據創(chuàng)新學習中心的師生分享了“智能一切——時代?機器?產業(yè)”,他介紹了人工智能發(fā)展歷程、2016年美國Gartner的前10項技術前沿以及智能制造的未來發(fā)展,以機器人為例闡述了其“智能化之路”的獨到見解,提出了智能產業(yè)未來大數據價值創(chuàng)造新方向。
融360風控技術總監(jiān)殷磊博士做了“遷移學習在金融大數據風控中的應用”報告,他講解了遷移學習算法及其在金融大數據分析的應用,介紹了融360“麒麟”融控數據平臺的流式計算和批處理計算,通過有充數據的源任務抽象knowledge,再將knowledge應用到目標任務中的方式解決樣本量不充足導致無法有效訓練模型的問題。
獵聘網首席數據官單藝,為大數據創(chuàng)新學習中心學員帶來了“人工智能、大數據和人才的未來”主題分享,他以獵聘網數據展示了大數據、機器學習、NLP和統計分析的方法對求職招聘相關的主要問題的研究,分析了人工智能對就業(yè)的可能影響,讓師生體驗到了智能職位推薦、人才推薦和職業(yè)社交推薦的背后大數據分析方法和技術支撐。
在兩天的匯報活動中,報告的幾位專家與業(yè)界專家布本智能聯合創(chuàng)始人及首席分析官王安、清華數據創(chuàng)新基地任技術與服務總監(jiān)黃凱波,一起與師生們展開了“碼農在路上、人工智能中的大數據”的思想碰撞式討論,師生們和業(yè)界人員受益匪淺。
北京理工大學大數據創(chuàng)新學習活動,為我校師生提供了“學界與業(yè)界的無縫對接學習與交流“平臺,開展了系列學習活動。后續(xù)的學習活動將在學校公眾平臺、微信公眾號上發(fā)布,歡迎感興趣師生加入,共同辦好創(chuàng)新學習活動。