關(guān)于大數據培訓
行業(yè)背景
經(jīng)濟學(xué)家杰里米·里夫金提出,互聯(lián)網(wǎng)技術(shù)和可再生能源的結合是第三次工業(yè)革命一個(gè)特質(zhì),它創(chuàng )造了強大的基礎設施。的確,在產(chǎn)品經(jīng)濟年代,基礎設施是“鐵、公、機”,“路、橋、隧”,“水、電、氣”。但在數字化年代,還要加上軟的基礎設施:“大、云、平、移”。
“大”就是“大數據”,即通過(guò)云計算、移動(dòng)互聯(lián)網(wǎng)等手段,從各類(lèi)數據中快速獲得有價(jià)值信息的能力。它具有Volumn體量巨大、Variety類(lèi)型繁多、Value價(jià)值低密度、Velocity處理快速的4V特點(diǎn)?!霸啤本褪窃朴嬎?、云服務(wù)。2010年起,上海推出了“云海計劃”?!捌健本褪瞧脚_,有交易平臺、媒體平臺、支付平臺、軟件平臺等。全球品牌500強前十名中有6個(gè)是平臺型企業(yè);中國500強企業(yè)前40名中,利潤最豐厚的是平臺型企業(yè),如百度、網(wǎng)易、騰訊、阿里巴巴等?!耙啤本褪且苿?dòng)互聯(lián)網(wǎng),即互聯(lián)網(wǎng)加移動(dòng)通信。近年來(lái),它在國內外成長(cháng)迅捷。
課程結構框架體系
在參照業(yè)界大數據培訓框架體系的基礎上,結合過(guò)往培訓工作開(kāi)展經(jīng)驗,伯特咨詢(xún)大數據培訓的課程框架體系如下:
“計算廣告學(xué)”課程
課程概述
計算廣告是廣告投放中一個(gè)新興的分支,主要指互聯(lián)網(wǎng)在線(xiàn)廣告的精準投放。計算廣告學(xué)重點(diǎn)研究:互聯(lián)網(wǎng)在線(xiàn)廣告的商業(yè)模式,產(chǎn)業(yè)鏈分工,廣告檢索算法及平臺,廣告投放策略及平臺等內容。本課程將介紹計算廣告學(xué)的基本概念、基本方法、技術(shù)發(fā)展與趨勢,以及典型系統。
課程大綱
第一部分
·計算廣告學(xué)概述:了解計算廣告與傳統廣告的主要區別,互聯(lián)網(wǎng)在線(xiàn)廣告的分類(lèi);
·計算廣告商業(yè)模式:了解計算廣告商業(yè)模式的發(fā)展歷程,未來(lái)發(fā)展趨勢,以及目前計算廣告的競價(jià)策略;
·計算廣告產(chǎn)業(yè)鏈:了解ad network,ad exchange, ad dsp, ssp, 等主要產(chǎn)業(yè)鏈分工及其功能;
·計算廣告投放機制:了解展示廣告和文本廣告的檢索方法、檢索平臺、投放策略和投放平臺;
·計算廣告學(xué)的新興投放形式:了解移動(dòng)設備廣告投放,視頻中廣告投放等新興計算廣告形式。
第二部分
·計算廣告學(xué)概述:計算廣告學(xué)發(fā)展歷程,計算廣告學(xué)的分類(lèi),商業(yè)模式,產(chǎn)業(yè)鏈分工。
·博弈論在計算廣告學(xué)中的應用:深入了解計算廣告學(xué)的商業(yè)模式,博弈論對設計該商業(yè)模式的作用,競價(jià)規則在計算廣告學(xué)中的應用和擴展;
·信息檢索在計算廣告學(xué)中的應用:信息檢索的基本原理,信息在廣告檢索、排序方面的擴展;掌握廣告的基本檢索方法;
·文本廣告:掌握文本廣告的分類(lèi)及其區別,贊助商搜索的關(guān)鍵詞廣告檢索,查詢(xún)擴展檢索,相關(guān)度競價(jià)綜合排序策略,網(wǎng)頁(yè)文本廣告的檢索,確定投放和非確定投放的綜合投放策略;
·展示廣告:掌握展示廣告的投放形式,展示廣告的計價(jià)方式,重定向機制等;
·移動(dòng)廣告和視頻廣告:掌握并理解嵌入了用戶(hù)位置信息后的移動(dòng)廣告投放策略,理解視頻廣告投放機理。
第三部分
·計算廣告概覽:計算廣告分類(lèi),發(fā)展歷程,商業(yè)模式,廣告形式等;
·廣告檢索技術(shù)及其系統:掌握文本廣告,展示廣告的檢索技術(shù),及其相關(guān)實(shí)現平臺;
·廣告競價(jià)技術(shù)及其系統:掌握關(guān)鍵詞競價(jià),展示廣告競價(jià),dsp競價(jià)技術(shù)及其相關(guān)實(shí)現方法;
·廣告與推薦:掌握個(gè)性化推薦技術(shù)在計算廣告中的相關(guān)應用及其實(shí)現;
·廣告異常檢測技術(shù):廣告計費系統,廣告異常點(diǎn)擊檢測系統,
·移動(dòng)廣告技術(shù)及其系統:基于位置信息的計算廣告商業(yè)模式,及其廣告投放系統;
“數據可視化分析”課程
課程概述
信息可視化旨在研究大規模信息資源的視覺(jué)呈現和表達。信息可視化為日益顯著(zhù)的“數據超載”問(wèn)題提供近實(shí)時(shí)的解,有助于用戶(hù)解決模型與模式的有效發(fā)現問(wèn)題,還能提供直觀(guān)的分析結果及解釋?zhuān)墙陙?lái)數據分析與管理的熱門(mén)領(lǐng)域。本課程將介紹數據分析可視化的基本概念、基本方法、技術(shù)發(fā)展與趨勢,以及典型案例。
課程大綱
第一部分
·數據可視化分析概述:了解信息可視化的概念和范疇、發(fā)展歷史及技術(shù)演化;
·介紹可視分析的基本理論,包括視覺(jué)基本知識,顏色理論,光學(xué)模型等。
·介紹基本的可視化圖表,包括柱狀圖、餅狀圖、散點(diǎn)圖、平行坐標、盒須圖等;
·了解信息可視化的最近進(jìn)展,面向大數據的可視分析新策略。
第二部分
·信息可視化概述,包括信息可視化發(fā)展歷程,信息可視化的分類(lèi)、特點(diǎn)等;
·介紹可視化研究領(lǐng)域,包括基本可視化數據結構及其應用,如網(wǎng)絡(luò )數據、多變量數據、時(shí)變數據,以及和應用領(lǐng)域相關(guān)的數據類(lèi)型;
·介紹基本的可視化算法,包括等值面提取、感知顯示、過(guò)程可視化技術(shù)等;
·重點(diǎn)介紹經(jīng)典的數據可視化方法,包括地圖可視化、樹(shù)與網(wǎng)絡(luò )可視化、文本可視化、社交網(wǎng)絡(luò )可視化等;
·介紹常用的可視化軟件系統,包括Improvise、Polaris、InfoVis 工具包等。
第三部分
·信息可視化概述:信息可視化發(fā)展歷程,信息可視化的分類(lèi)、特點(diǎn)等;
·高級信息可視化算法:高維數據信息的降維方法、多維信息的可視顯示方法;
·過(guò)程式可視化技術(shù):如何將機器學(xué)習、統計學(xué)原理等與圖形顯示結合起來(lái)?
·案例分析:針對典型的信息可視化案例,分析優(yōu)缺點(diǎn);
·典型數據的可視分析實(shí)踐:利用部分數據樣本,來(lái)進(jìn)行可視化分析實(shí)踐,至少完成一種數據可視化方案設計與實(shí)現。
“數據挖掘與機器學(xué)習”課程
課程概述
機器學(xué)習是在數據上建立計算機模型,從經(jīng)驗中學(xué)習知識,并應用于對未來(lái)的預測。而數據挖掘是從數據中獲得隱藏的模式。信息技術(shù)的進(jìn)步帶來(lái)數據量的極大增長(cháng),機器學(xué)習和數據挖掘被廣泛用于各類(lèi)數據處理任務(wù)中,是大數據應用的基本方法。
在本課程中,我們將介紹機器學(xué)習和數據挖掘的基礎理論知識,基本的模型,及其典型應用。
課程大綱
第一部分
·與機器學(xué)習相關(guān)的概率,統計以及數學(xué)等的基礎知識
·聚類(lèi)方法:了解聚類(lèi)方法的應用和各種模型,Partitional clustering、Hierarchical clustering、Kmeans,以及基于Density 的聚類(lèi)方法,比如DBSCAN等
·貝葉斯決策理論
·極大似然估計,貝葉斯估計
·分類(lèi)方法:決策樹(shù)、樸素貝葉斯、K 鄰近法((K Nearest Neighbor, KNN)、Bagging、Boosting
·回歸方法:最小二乘回歸、邏輯回歸
·神經(jīng)網(wǎng)絡(luò )
·降維方法:Principal Component Analysis (PCA)、Multidimensional Scanlig (MDS)
第二部分
·假設檢驗:了解并懂得significance test, p-value等模型結果分析概念。
·模型選擇:理解各種模型選擇的理論
·Sequence labeling 模型: 應用于 part of speech tagging (POS)等任務(wù)中。包括隱馬爾科夫模型、條件隨機場(chǎng)等。
·支持向量機
·最大熵模型
·Topic models 以及相關(guān)的語(yǔ)言模型:LSI、PLSI、Latent Dirichlet Allocation (DLA)
·流形學(xué)習 (manifold learning)
·Machine learning ranking (MLR)
·網(wǎng)頁(yè)pairwise ranking
·廣告點(diǎn)擊率預測
“分詞系統與搜索技術(shù)”課程
課程概述
“大數據”已經(jīng)成為一個(gè)時(shí)髦的術(shù)語(yǔ),從字面上來(lái)看,“大數據”這三個(gè)字構詞簡(jiǎn)單,本身沒(méi)帶太多信息,給人們留下很大的解讀空間。到底什么是“大數據”?這個(gè)概念是如何誕生的?它的內涵和外延是什么?本課程將從數據庫學(xué)習和研究者的角度來(lái)對大數據進(jìn)行解讀,以幫助學(xué)員客觀(guān)全面理解大數據的產(chǎn)生和發(fā)展。
課程大綱
·科學(xué)的大數據觀(guān)
- 大數據的定義,科學(xué)發(fā)展淵源
- 如何科學(xué)看待大數據?
- 如何把握大數據,分別從“知著(zhù)”、“顯微”、“曉義”三個(gè)層面闡述科學(xué)的大數據觀(guān)
·大數據精準搜索關(guān)鍵技術(shù)
- 通用搜索引擎與大數據垂直業(yè)務(wù)的矛盾
- 大數據精準搜索的基本技術(shù)
- 大數據精準搜索語(yǔ)法
- 大數據精準搜索應用案例
- 實(shí)訓演練
- JZSearch大數據精準搜索引擎實(shí)訓演練
·大數據挖掘
- 語(yǔ)義理解基礎
- 內容關(guān)鍵語(yǔ)義自動(dòng)標引與詞云自動(dòng)生成;
- 大數據聚類(lèi);
- 大數據分類(lèi)與信息過(guò)濾;
- 大數據去重、自動(dòng)摘要;
·漢語(yǔ)分詞關(guān)鍵技術(shù)及最新進(jìn)展及使用實(shí)訓( NLPIR2014 )
- 漢語(yǔ)分詞關(guān)鍵技術(shù)及最新進(jìn)展
- 英語(yǔ)詞法分析技術(shù);
- Java語(yǔ)言調用實(shí)訓
- Linux調用實(shí)訓
- 高級編程實(shí)訓
“社交媒體數據分析及其應用”課程
課程概述
社交媒體是萬(wàn)維網(wǎng)中利用社交網(wǎng)絡(luò )進(jìn)行信息傳播的一類(lèi)服務(wù)的總稱(chēng),是典型的新媒體。社交媒體數據的管理與分析是與情分析、客戶(hù)關(guān)系管理、用戶(hù)畫(huà)像等應用的基礎和支撐技術(shù)。本課程將介紹社交媒體數據分析的概念、基本方法、技術(shù)發(fā)展,以及典型的應用。
課程大綱
第一部分
·社交媒體概述:了解社交網(wǎng)絡(luò )、Web 2.0、社交媒體數據模型,社交媒體服務(wù)的分類(lèi);
·社交媒體數據獲?。毫私馍缃幻襟w數據獲取的基本方法,并理解各方法的局限性;
·社交媒體內容分析:了解分詞、VSM模型等信息檢索基本技術(shù);了解開(kāi)源的信息檢索工具;理解社交媒體內容分析與傳統信息檢索技術(shù)的區別;
·社交網(wǎng)絡(luò )分析:了解網(wǎng)絡(luò )的基本模型及其表示;了解小世界網(wǎng)絡(luò )、無(wú)標度網(wǎng)絡(luò )等社交網(wǎng)絡(luò )模型;理解社交網(wǎng)絡(luò )的度量及其意義;了解社交網(wǎng)絡(luò )分析的基本方法;了解并學(xué)會(huì )開(kāi)源社交網(wǎng)絡(luò )分析軟件工具(如Gephi)的使用;
·社交媒體數據分析示例:以“網(wǎng)上集群行為分析系統”原型為例,理解所學(xué)基本方法的綜合利用。
第二部分
·社交媒體內容分析:掌握信息抽取和信息檢索的基本方法;了解Lucene及其使用;理解中文處理與西文處理的區別;
·社交網(wǎng)絡(luò )分析:掌握社交網(wǎng)絡(luò )分析的基本方法;了解關(guān)系數據庫與圖數據庫管理社交網(wǎng)絡(luò )數據的優(yōu)缺點(diǎn);掌握RDBMS中使用SQL語(yǔ)言查詢(xún)社交網(wǎng)絡(luò )數據的方法以及圖數據庫(如Neo4J)使用方法;
·時(shí)序數據分析:了解時(shí)序數據的模型、以及相似性度量;了解時(shí)序數據分析的基本方法;
·數據挖掘方法:回顧數據挖掘的基本任務(wù)和方法,嘗試Mahout等開(kāi)源海量數據挖掘工具;
·社交媒體數據分析綜合應用:了解情感分析、時(shí)空分析、事件發(fā)現與監測、用戶(hù)畫(huà)像、實(shí)體檢測等基本社交媒體數據分析任務(wù);實(shí)踐采用學(xué)過(guò)的方法和系統完成至少一個(gè)分析任務(wù)。
第三部分
·大規模分布式系統回顧:了解以Hadoop、Spark等系統為代表的大數據管理和處理工具;
·信息檢索技術(shù):了解信息檢索技術(shù)的發(fā)展現狀和可用工具;
·社交網(wǎng)絡(luò )分析:了解信息社交網(wǎng)絡(luò )分析的發(fā)展現狀和可用工具;
·數據挖掘方法:了解信息數據挖掘的發(fā)展現狀和可用工具;
·社交媒體數據分析應用分析:以集群行為分析、與情分析、個(gè)人信息分析、情感分析、社交網(wǎng)絡(luò )營(yíng)銷(xiāo)、Spam檢測等應用為示例,分析相關(guān)技術(shù)的選取準則、了解應用效果測試方法;
·社交媒體數據分析綜合應用:結合學(xué)員背景和工作,完成一個(gè)社交媒體數據分析相關(guān)的應用原型,并進(jìn)行測試分析。
“位置服務(wù)及其應用”課程
課程概述
位置服務(wù)是新時(shí)代移動(dòng)數據管理的一類(lèi)新興數據管理方式。在定位技術(shù)的幫助之下,可以實(shí)時(shí)獲取移動(dòng)物體的位置信息,再進(jìn)行相應的查詢(xún)、分析、預測、推薦等工作。本課程介紹位置服務(wù)的概念、基本方法、技術(shù)發(fā)展,以及典型的應用。
課程大綱
第一部分
·LBS概述:了解LBS應用背景、基本架構;空間數據庫基礎知識
·LBS快照查詢(xún)處理:針對過(guò)去數據的查詢(xún)處理、針對當前數據的查詢(xún)處理、針對未來(lái)的查詢(xún)處理。
·LBS連續查詢(xún)處理:連續查詢(xún)與快照查詢(xún)的差異、代表性的連續查詢(xún)處理算法
·移動(dòng)索引技術(shù):針對移動(dòng)數據的索引技術(shù)、時(shí)空索引技術(shù)
·開(kāi)源LBS項目分析:介紹一個(gè)開(kāi)源LBS系統
第二部分
·軌跡數據管理(初級):介紹軌跡數據管理概述。軌跡分析技術(shù)。
·位置隱私保護技術(shù):概述、位置隱私攻擊手段,位置隱私常用防御手段。
·社交媒體與LBS:介紹社交媒體與LBS的管理
·分布式架構與LBS:介紹如何基于分布式架構實(shí)現LBS
·基于LBS的模式發(fā)現:目的是根據LBS數據發(fā)現一些重要模式
第三部分
·室內LBS技術(shù):多種定位技術(shù)分析、室內LBS技術(shù)的建模、索引與查詢(xún)
·不確定LBS技術(shù):不確定性時(shí)空數據的概念、概率LBS查詢(xún)技術(shù)
·軌跡跟蹤技術(shù)(高級):軌跡預測技術(shù)
·基于路網(wǎng)的數據管理:基于路網(wǎng)模型來(lái)管理數據。
·高級位置隱私保護技術(shù):基于隱私保護的查詢(xún)處理技術(shù),包括范圍查詢(xún)、聚集查詢(xún)、最近鄰查詢(xún)等。
“數據系統”課程
課程概述
數據系統是數據存儲系統、數據處理系統的統稱(chēng)。幾十年來(lái),數據系統按照應用類(lèi)型的不同,可以分成事務(wù)處理
系統,數據分析系統,數據流系統,鍵值對存儲系統,對規模并行數據處理系統等。本課程將介紹數據系統基本概念
、基本算法、典型系統,技術(shù)發(fā)展與趨勢等。
課程大綱
第一部分
·數據系統概述:了解數據系統40年來(lái)的發(fā)展歷程,數據系統的主要分類(lèi);
·事務(wù)處理系統:了解事務(wù)處理的基本概念,事務(wù)系統基本算法,典型事務(wù)系統包括Oracle,DB2, SQL Server, MySQL等系統的使用;
·數據分析系統,了解數據分析系統的基本概念,數據分析系統的基本算法,典型系統包括TeraData, ExaData,DB2/PE等系統的使用;
·數據流系統:了解數據流處理的基本概念,數據流處理系統的基本算法,典型系統包括STREAM, TelegraphCQ,Storm等系統的使用;
·鍵值對存儲系統:了解鍵值對存儲的基本概念及其基本算法,典型系統包括bigtable,cassandra,dynamo等系統的使用;
·大規模并行數據處理系統:大規模并行處理的基本概念及其基本算法,典型系統MapReduce,GFS,Hadoop,HBase,Hive等系統的使用。
第二部分
·數據系統概述:了解數據系統40年來(lái)的發(fā)展歷程,數據系統的主要分類(lèi);
·事務(wù)處理系統:典型事務(wù)系統設計原理與實(shí)現方法,典型事務(wù)系統包括Oracle,DB2, SQL Server, MySQL等
·數據分析系統,典型數據分析系統的設計原理與實(shí)現方法,典型系統包括TeraData, ExaData, DB2/PE,等;
·數據流系統:典型數據流系統的設計原理與實(shí)現方法,典型系統包括STREAM, TelegraphCQ, Storem等;
·鍵值對存儲系統:典型鍵值對系統的設計原理與實(shí)現方法,典型系統包括bigtable,cassandra,dynamo等;
·大規模并行數據處理系統:典型大規模并行處理的設計原理與實(shí)現方法,典型系統MapReduce,GFS,Hadoop,HBase,Hive等。
第三部分
·數據系統的最新研究進(jìn)展:數據系統的發(fā)展歷程,最新研究進(jìn)展,大規模并行處理系統,內存系統等;
·大規模并行事務(wù)系統:Megastore,Cloud SQL Server,Espresso,ElasTraS等;
·大規模并行分析系統:Dyrad,Pregel,Percolator,Piccolo等
·高通量事務(wù)系統:Oceanbase,Hekaton等;
·內存分析系統:HANA,Spark,Shark等
“數據存儲與訪(fǎng)問(wèn)”課程
課程概述
信息化時(shí)代,很多企業(yè)都擁有海量的數據,包括各種業(yè)務(wù)操作數據、報表統計數據、辦公文檔、電子郵件、
Web數據等,如何有效存儲和使用這些數據已經(jīng)成為影響企業(yè)運行的關(guān)鍵因素。本課程主要介紹數據存儲和訪(fǎng)問(wèn)相關(guān)的基本概念和相關(guān)技術(shù)。
課程大綱
第一部分
·數據存儲和訪(fǎng)問(wèn)概述:了解數據存儲設備、數據管理技術(shù)的發(fā)展歷史;
·數據結構的基礎知識:了解常用的數據結構和算法,包括隊列、堆棧、鏈表、排序、LRU算法等;
·文件系統的基礎知識:了解磁盤(pán)的基本結構,基于磁盤(pán)的文件系統,常用文件系統,以及訪(fǎng)問(wèn)文件系統中數據的基本方法;
·數據模型基礎知識:學(xué)習常用的數據管理模型,包括關(guān)系模型、面向對象模型、星形模型、半結構化模型等;
·SQL語(yǔ)言:學(xué)習基本的SQL語(yǔ)句;
第二部分
·分布式數據管理的基礎知識:包括事務(wù)處理、分布式提交、向量時(shí)鐘、選主協(xié)議和一致性哈希等;
·鍵-值存儲系統:了解以Bigtable、PNUTS和Dynamo等系統為代表的鍵-值存儲系統的相關(guān)知識;
·數據一致性:了解CAP定理以及最終一致性相關(guān)的知識;
·可擴展的事務(wù)處理:了解在分布式環(huán)境下進(jìn)行大規模事務(wù)處理的實(shí)現技術(shù);
·OceanBase系統介紹:了解和使用OceanBase開(kāi)源系統的管理和開(kāi)發(fā)。
第三部分
·列存儲數據庫:了解以C-Store、MonetDB等系統為代表的面向列存儲的數據庫技術(shù);
·高維數據的管理:了解R-Tree、X-Tree、M-Tree等面向高維數據管理的索引結構;
·半結構化數據的管理:了解XML數據的存儲、索引和查詢(xún)相關(guān)技術(shù);
·時(shí)序數據的管理:了解時(shí)序數據中子序列匹配、近似查詢(xún)等相關(guān)技術(shù);
·P2P環(huán)境中的數據管理:了解Chord、Pastry等常用的P2P協(xié)議,以及P2P環(huán)境下數據索引和訪(fǎng)問(wèn)的相關(guān)技術(shù);
“非結構化數據處理”課程
課程概述
相對于結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來(lái)邏輯表達實(shí)現的數據)而言,不方便用數據庫二維邏輯表來(lái)表現的數據即稱(chēng)為非結構化數據。該課程以文本、網(wǎng)頁(yè)和多媒體數據為研究對象,介紹非結構化數據的表示、組織和檢索方法,以及各種典型的應用案例。
課程大綱
第一部分
·信息檢索使用的應用場(chǎng)景介紹:了解其主要的應用場(chǎng)景和其重要的地位;
·信息檢索涉及的NLP基礎技術(shù):了解與自然語(yǔ)言處理相關(guān)的基礎技術(shù)(分詞,去除停滯詞,詞干化等)和主要工具;
·信息檢索任務(wù)定義和其軟件體系結構:介紹人和機器在任務(wù)中的地位和角色;了解軟件體系結構的概況;
·信息檢索面向的研究對象:了解信息檢索對象的獲取手段(爬蟲(chóng)技術(shù))以及基礎的組織方式和訪(fǎng)問(wèn)方法(索引和查詢(xún)方法);
·基礎的檢索評價(jià)標準:了解經(jīng)典的檢索性能評判標準,如precision,recall, MAP,MRR等;
第二部分
·基礎信息檢索模型:了解信息檢索模型的分類(lèi),主要介紹經(jīng)典模型(TF-IDF,向量模型,布爾模型,概率模型等);
·文檔的語(yǔ)法表示:了解各種標記語(yǔ)言及其應用背景和功能,包括XML,HTML,RDF等;
·查詢(xún)表示以及查詢(xún)度量:不同的查詢(xún)表達或表示方法,包括keyword based query, beyond keywords,structuredquery等;了解度量查詢(xún)好壞的方法;
·查詢(xún)重構:了解查詢(xún)重構的原理和手段;
·文本分類(lèi)技術(shù):了解文本分類(lèi)的技術(shù)原理和主要的工具,并利用工具對指定的文檔實(shí)現分類(lèi)。
第三部分
·并行、分布式信息檢索:針對大規模數據的并行分布式數據組織,索引,查詢(xún)技術(shù)以及實(shí)現;
·結構化文本檢索:對文本的結構特征進(jìn)行分析和利用支持有效地信息檢索;
·多媒體信息檢索:了解對多媒體數據進(jìn)行數據組織和查詢(xún)處理的技術(shù);
·高級信息檢索技術(shù):介紹企業(yè)級搜索,圖書(shū)館,以及電子圖書(shū)館搜索面臨的主要問(wèn)題和解決手段;
·檢索系統實(shí)現:實(shí)現一類(lèi)信息檢索系統,復習和考核學(xué)習成果。
“云計算安全精要”課程
課程概述
隨著(zhù)3G和移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),以及網(wǎng)格計算、虛擬化、自動(dòng)化、SOA、容錯技術(shù)、分布式海量數據倉庫技術(shù)、并行數據處理、新一代數據中心等技術(shù)的突破、成熟和各項技術(shù)的大融合,通過(guò)網(wǎng)絡(luò )訪(fǎng)問(wèn)非本地的計算服務(wù)(包括數據處理、存儲和信息服務(wù)等)的條件越來(lái)越成熟,催生了信息技術(shù)及信息服務(wù)模式的集大成者 “云計算”。之所以稱(chēng)作“云”,是因為計算設施不在本地而在網(wǎng)絡(luò )中,用戶(hù)不需要關(guān)心它們所處的具體位置,可以方便的用各種終端登錄“云端”來(lái)享受IT服務(wù)。
面對市場(chǎng)上鋪天蓋地的云計算宣傳,各服務(wù)商為我們描繪了美好的前景,但其中的安全問(wèn)題您考慮到了?如何在設計和運用云計算的同時(shí)避免其中的安全風(fēng)險?有哪些解決方法可以幫到我們?圍繞云計算安全的大量夸大的宣傳和不確定性,本課程將透過(guò)其夸張的表象去剖析云計算的實(shí)質(zhì),為學(xué)員提供實(shí)踐知識,確保學(xué)員了解真實(shí)的云計算安全問(wèn)題和解決方案。
課程大綱
·云治理與全面風(fēng)險管理
·信息生命周期管理
·虛擬化與計算資源調度
·可移值性和互操作性
·傳統安全、業(yè)務(wù)連續性和災難恢復
·數據中心
·事件響應、通告與應急
·應用層面安全
·加密和密鑰管理
·身份與訪(fǎng)問(wèn)管理
·法律與電子證據發(fā)現
·合規性審計
“云計算的風(fēng)險、安全和審計”課程
課程概述
全球互聯(lián)的今天,不需要懷疑云計算是否能給企業(yè)用戶(hù)帶來(lái)便捷的應用,作為全球IT業(yè)的領(lǐng)導者Google(谷歌)、Amazon(亞馬遜)、Microsoft(微軟)等IT巨頭已經(jīng)為云計算的應用做出了榜樣,雖然部分應用僅僅是剛剛起步,但已經(jīng)可以預想未來(lái)便捷快速的web應用,云計算代表未來(lái)計算機服務(wù)的發(fā)展方向,它將廣泛應用已經(jīng)是大勢所趨,越來(lái)越多的企業(yè)用戶(hù)已經(jīng)開(kāi)始關(guān)注云計算服務(wù)。亞馬遜宕機事件等一系列云服務(wù)提供商影響較大的網(wǎng)絡(luò )故障,使得企業(yè)用戶(hù)對云計算的安全性憂(yōu)心忡忡,大型企業(yè)仍對云計算望而卻步,首要的問(wèn)題是安全,能夠把企業(yè)的數據、甚至整個(gè)業(yè)務(wù)架構,交給云計算服務(wù)供應商嗎?
針對新一代信息技術(shù)的發(fā)展進(jìn)行跟蹤研究,關(guān)注云計算環(huán)境企業(yè)信息化面臨的風(fēng)險,研究如何建立安全應對風(fēng)險,云計算環(huán)境信息系統運維管理和信息安全管理的改進(jìn),探討如何進(jìn)行云審計以鑒證安全措施的效率和效果。
課程大綱
·什么是云計算:包括云計算定義 ;云計算服務(wù)交付模型(SPI)--SAAS,PAAS,IAAS;傳統應用交付模式;云計算部署模式--公有云,私有云,社區云,混合云;采用云計算的主要驅動(dòng)因素 ;云計算對用戶(hù)的影響 ;云計算的管理 ;為什么不轉向云計算?--企業(yè)采用云計算的障礙等內容。
·云計算風(fēng)險--安全和隱私:包括數據分隔和保護;脆弱性管理;身份管理;物理和人員管理;可用性;應用安全;事件反應;隱私等內容。
·云計算風(fēng)險--合規:包括業(yè)務(wù)持續和災難恢復;日志和審計線(xiàn)索;特殊合規要求等內容。
·云計算風(fēng)險--其它法律和合同要求:包括責任;知識產(chǎn)權;服務(wù)支持結束;審計要求等內容。
·云計算安全:包括云治理;法律法規;電子取證;合規和審計;信息生命周期管理;遷移和互操作;傳統安全;業(yè)務(wù)持續和災難恢復;數據中心運維;事件反應;通告和糾正;應用安全;加密和密鑰管理;身份和訪(fǎng)問(wèn)管理;存儲;虛擬化等內容。
·云計算審計:包括內部政策合規 ;治理、風(fēng)險與合規(GRC) ;云計算的解釋性控制目標 ;增加的針對云服務(wù)提供商(CSP)的控制目標 ;附加的密鑰管理控制目標;云服務(wù)提供商(CSP)用戶(hù)的控制考慮 ;監管/外部合規 ;其他要求;云安全聯(lián)盟(CSA) ;審核云計算的合規性等內容。
“云計算精要”課程
課程概述
隨著(zhù)3G和移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái),以及網(wǎng)格計算、虛擬化、自動(dòng)化、SOA、容錯技術(shù)、分布式海量數據倉庫技術(shù)、并行數據處理、新一代數據中心等技術(shù)的突破、成熟和各項技術(shù)的大融合,通過(guò)網(wǎng)絡(luò )訪(fǎng)問(wèn)非本地的計算服務(wù)(包括數據處理、存儲和信息服務(wù)等)的條件越來(lái)越成熟,催生了信息技術(shù)及信息服務(wù)模式的集大成者 “云計算”。之所以稱(chēng)作“云”,是因為計算設施不在本地而在網(wǎng)絡(luò )中,用戶(hù)不需要關(guān)心它們所處的具體位置,可以方便的用各種終端登錄“云端”來(lái)享受IT服務(wù)。
本課程主要闡述:云計算是什么?云計算發(fā)展的內外在動(dòng)力是什么?云計算帶來(lái)什么樣的機會(huì )?主流云計算的工作機制是什么?云計算的主要技術(shù)原理有哪些?國內外有哪些最佳實(shí)踐?如何運用云計算技術(shù)?企業(yè)如何向云計算轉型和落地?
課程大綱
·云計算概述
1) 云計算的概念
2) 云計算產(chǎn)生的動(dòng)力
3) 云計算的優(yōu)勢
·云計算結構
1) 結構概述
2) 云計算的工作機制
3) 基礎架構作為服務(wù)
4) 平臺作為服務(wù)
5) 應用作為服務(wù)
·云計算技術(shù)
1) 云計算的關(guān)鍵技術(shù)
2) 云計算的重大挑戰
·云計算實(shí)踐
1) 國際上的實(shí)踐
2) 中國的實(shí)踐
3) 云計算的落地
講師團隊
蔣龍
淘寶網(wǎng)高級技術(shù)專(zhuān)家,曾任MSRA研究員,畢業(yè)于北京大學(xué)信息管理系,在微軟亞洲研究院(MSRA)從事自然語(yǔ)言處理、機器學(xué)習研究工作近5年。其間,作為技術(shù)負責人研發(fā)了微軟對聯(lián)系統。之后又加入MSRA機器翻譯研究小組,隨隊參加了2008年NIST機器翻譯評測比賽并獲得了中英翻譯第一英中翻譯第二的成績(jì)。2009年轉入網(wǎng)絡(luò )數據挖掘研究,為微軟Engkoo項目(現為必應詞典)提供了大規模的雙語(yǔ)數據和名詞術(shù)語(yǔ)翻譯。2010年開(kāi)始在Twitter的語(yǔ)義計算項目研究對Tweets的搜索排序和情感分析。在國際知名會(huì )議(ACL,IJCAI,SIGIR,CIKM,KDD等)累積發(fā)表10余篇文章,并擁有多項美國專(zhuān)利申請。"
張華平
博士,北京理工大學(xué)副教授,研究生導師,知名漢語(yǔ)分詞系統ICTCLAS的創(chuàng )始人,計算機學(xué)院院長(cháng)助理,大數據搜索挖掘實(shí)驗室主任,中國計算機學(xué)會(huì )高級會(huì )員,中國中文信息學(xué)會(huì )社會(huì )媒體處理專(zhuān)業(yè)委員會(huì )常務(wù)委員,同時(shí)擔任首都師范大學(xué)兼職副教授,遼寧師范大學(xué)客座教授。2005年畢業(yè)于中科院計算所。曾先后獲得2010年度錢(qián)偉長(cháng)中文信息處理科學(xué)技術(shù)獎一等獎,中科院院長(cháng)優(yōu)秀獎、中科院計算所所長(cháng)特別獎,中科院計算所“百星計劃”首批入選者。張華平作為課題組長(cháng)主持開(kāi)發(fā)了國家自然科學(xué)基金、863、973、242等科研課題十余項,發(fā)表專(zhuān)譯著(zhù)3部,所研制的ICTCLAS分詞系統已經(jīng)向國內外的企業(yè)和學(xué)術(shù)機構頒發(fā)了三十萬(wàn)多份授權,在學(xué)術(shù)界和產(chǎn)業(yè)界得到了廣泛的應用。并作為特邀技術(shù)專(zhuān)家,先后在全國網(wǎng)絡(luò )俠客行大會(huì )、全球大數據技術(shù)峰會(huì )、中國網(wǎng)絡(luò )科學(xué)大會(huì )上做大數據相關(guān)的主題演講,廣受好評。
劉鵬
現任奇虎360商業(yè)產(chǎn)品首席架構師,負責領(lǐng)導360的變現產(chǎn)品及工程,包括搜索廣告、展示廣告及大數據平臺等。劉鵬于2004年在清華大學(xué)獲得博士學(xué)位后,加入微軟亞洲研究院,從事人工智能領(lǐng)域的研究。2009年一月,劉鵬參與創(chuàng )建雅虎北京研究院,出任高級科學(xué)家,負責日本雅虎搜索廣告收入優(yōu)化及其他全球廣告項目。劉鵬還曾經(jīng)擔任MediaV (中國最大的DSP之一) 首席科學(xué)家、以及搜狐集團研究院院長(cháng)等職。劉鵬還一直致力于大數據及其變現技術(shù)的普及工作,他講授的《計算廣告學(xué)》在網(wǎng)易云課堂和師徒網(wǎng)共有超過(guò)6000名的學(xué)生選課,已經(jīng)成為業(yè)界相關(guān)公司進(jìn)行相關(guān)培訓的基礎教程之一。此課還作為北大計算機系研究生課程和清華大學(xué)公開(kāi)課講授。
沈浩
中國傳媒大學(xué)電視與新聞學(xué)院教授,博士,中國傳媒大學(xué)調查統計研究所副所長(cháng),中國傳媒大學(xué)數據挖掘研發(fā)中心主任,IPSOS益普索中國市場(chǎng)咨詢(xún)有限公司首席技術(shù)顧問(wèn)。15年的數據分析的專(zhuān)業(yè)經(jīng)驗,精通各種統計技術(shù)的分析方法和分析軟件,在統計行業(yè)和市場(chǎng)研究行業(yè)享有較高的聲譽(yù)。致力于數據挖掘、數據可視化,社會(huì )化媒體傳播和營(yíng)銷(xiāo)方向的研究,2013年全球大數據技術(shù)峰會(huì )特邀演講嘉賓。
姚斌
副教授,碩士生導師,于2011年8月畢業(yè)于美國佛羅里達州立大學(xué),獲博士學(xué)位,同年9月加入上海交通大學(xué)計算機科學(xué)與工程系。主要研究方向為數據管理,空間數據庫,大數據分析與處理等。近五年內發(fā)表數據庫領(lǐng)域頂級會(huì )議和期刊(如SIGMOD,ICDE,VLDBJ,TKDE)10余篇,主持和參與國家,省市級項目10余項。
馬慶
信息系統審計和信息安全管理專(zhuān)家,畢業(yè)于北京化工大學(xué)應用數理系,擁有23年的實(shí)施、咨詢(xún)經(jīng)驗,在技術(shù)管理方面具有豐富知識和經(jīng)驗,通曉電信運營(yíng)商、金融行業(yè)信息系統軟件、硬件、開(kāi)發(fā)、運營(yíng)、維護、管理和安全,熟悉業(yè)務(wù)運營(yíng)管理的核心,能夠利用信息系統審計技術(shù),對信息系統的安全性、穩定性和有效性進(jìn)行審計、檢查、評價(jià)和改造。
戚正偉
博士,上海交通大學(xué)副教授, 入選2011年教育部新世紀人才計劃,獲得2012年教育部科技進(jìn)步一等獎(排名第六),擔任國家重大專(zhuān)項課題組副組長(cháng),2011年在CMU大學(xué)Edmund M. Clarke(圖靈獎得主)處訪(fǎng)問(wèn)。主持三項國家自然基金和主持一項教育部精品課程,出版教材3部,在期刊和會(huì )議發(fā)表了50余篇論文,申請專(zhuān)利15項,獲得授權6項。
肖凱
博士,上海交通大學(xué)講師,2004年1月及2010年7月在諾丁漢大學(xué)獲得理學(xué)碩士和哲學(xué)博士學(xué)位。2010年9月開(kāi)始在上海交通大學(xué)軟件學(xué)院任教,主要研究方向為醫學(xué)及生物圖像處理及分析、大數據、數據挖掘、模式識別和人工智能。
唐新懷
博士,上海交通大學(xué)副研究員,中國計算機學(xué)會(huì )普適計算專(zhuān)委會(huì )委員。主要研究方向為分布式計算、移動(dòng)計算、面向服務(wù)計算、云計算與云存儲技術(shù) 、中間件技術(shù)、軟件自適應技術(shù)和海量信息處理技術(shù)。目前已在國內外期刊和國際會(huì )議發(fā)表論文30多篇,被SCI和EI索引10多篇。參加并負責過(guò)多項國家自然科學(xué)基金、國家863計劃、上海市科委和上海市經(jīng)信委等國家及省部級科研項目。申請并擁有三項專(zhuān)利技術(shù)。長(cháng)期從事軟件應用技術(shù)與相關(guān)產(chǎn)品的研制,與相關(guān)企業(yè)保持著(zhù)密切的合作關(guān)系,善于產(chǎn)學(xué)研結合,善于把相關(guān)的研究與企業(yè)的技術(shù)創(chuàng )新聯(lián)系起來(lái)。主要從事中間件技術(shù),云計算相關(guān)技術(shù),海量信息處理技術(shù)方面的研究。主講課程有《大數據基礎》,《云計算基礎》,《中間件技術(shù)》,《數據庫技術(shù)》等。
賈兆慶
博士,上海海事大學(xué)副教授。2008年獲上海交通大學(xué)計算機軟件與理論專(zhuān)業(yè)博士學(xué)位。研究?jì)热莅≒2P、網(wǎng)絡(luò )計算中間件、云計算等。教授課程包括數據結構、數據挖掘、計算機組成與原理等。參與過(guò)多項國家、省部級項目,發(fā)表了20多篇學(xué)術(shù)論文。
阮彤
博士,華東理工大學(xué)副教授。2002年中科院軟件所博士畢業(yè),現任華東理工大學(xué)計算機技術(shù)研究所副所長(cháng),自然語(yǔ)言處理與大數據挖掘實(shí)驗室主任,ACM會(huì )員。在華東理工大學(xué)計算機系從事軟件工程教學(xué)。作為課題第一負責人,主持國家科技支撐計劃“國際貿易區域經(jīng)貿合作與流通促進(jìn)關(guān)鍵支撐技術(shù)研究”課題,作為主要參與人,參與了國家科技支撐計劃課題“區域性供應鏈業(yè)務(wù)協(xié)同服務(wù)平臺研發(fā)及應用”。主持和參與了數十項上海市科委、經(jīng)信委課題與企業(yè)課題。2012年獲得上海市科委的“產(chǎn)學(xué)研合作獎”。近五年專(zhuān)注于互聯(lián)網(wǎng)文本挖掘軟件與關(guān)鍵技術(shù),開(kāi)發(fā)了基于本體的知識采集與展現系統、輿情分析系統,研發(fā)成果被盛大游戲,萬(wàn)達信息等多家大型企業(yè)采用。
錢(qián)夕元
博士,華東理工大學(xué)副教授。1990年以?xún)?yōu)異成績(jì)畢業(yè)于華東理工大學(xué)數學(xué)系應用數學(xué)專(zhuān)業(yè),并被保送直升本校攻讀碩士研究生,畢業(yè)后留校任教。從事數學(xué)系本科統計課程教學(xué)數十年。2003年10月至2004年3月,國家公派到美國加州大學(xué)圣地亞哥分校(UCSD)學(xué)習進(jìn)修半年。2008年7月在職獲得計算機應用方向博士學(xué)位。2010年9月至2011年9月,作為訪(fǎng)問(wèn)學(xué)者公派到美國北卡羅琳達大學(xué)夏洛特分校(UNCC)研修一年?,F擔任理學(xué)院院長(cháng)助理。主要從事統計計算、數值軟件等方面的研究工作,先后在國內外核心期刊上發(fā)表論文二十余篇,作為負責人,承擔教育部留學(xué)回國人員基金項目,完成了教育部中央高?;究蒲袠I(yè)務(wù)費探索項目,上海市信息化項目及上海運籌學(xué)會(huì )金融證券委員會(huì )等多項課題研究。