
用Spark和Python通過(guò)PySpark處理大數(shù)據(jù)培訓(xùn)
介紹
了解大數(shù)據(jù)
Spark概述
Python概述
PySpark概述
使用彈性分布式數(shù)據(jù)集框架分發(fā)數(shù)據(jù)
使用Spark API運(yùn)算符分布計(jì)算
設(shè)置Python和Spark
設(shè)置PySpark
針對(duì)Spark使用Amazon Web Services(AWS)EC2實(shí)例
設(shè)置數(shù)據(jù)塊
設(shè)置AWS EMR集群
學(xué)習(xí)Python編程的基礎(chǔ)知識(shí)
Python入門(mén)
使用Jupyter Notebook
使用變量和簡(jiǎn)單的數(shù)據(jù)類(lèi)型
使用列表
使用 if 語(yǔ)句
使用用戶(hù)輸入
處理while循環(huán)
實(shí)現(xiàn)函數(shù)
使用類(lèi)
處理文件和異常
處理項(xiàng)目、數(shù)據(jù)、API
學(xué)習(xí)Spark DataFrame的基礎(chǔ)知識(shí)
Spark DataFrames入門(mén)
用Spark實(shí)現(xiàn)基本操作
使用Groupby和聚合操作
使用時(shí)間戳和日期
進(jìn)行Spark DataFrame項(xiàng)目練習(xí)
了解用MLlib進(jìn)行機(jī)器學(xué)習(xí)
使用MLlib、Spark和Python進(jìn)行機(jī)器學(xué)習(xí)
了解回歸
學(xué)習(xí)線(xiàn)性回歸理論
實(shí)現(xiàn)回歸評(píng)估代碼
進(jìn)行線(xiàn)性回歸示例練習(xí)
學(xué)習(xí)Logistic回歸理論
實(shí)現(xiàn)一個(gè)Logistic回歸代碼
進(jìn)行Logistic回歸示例練習(xí)
了解隨機(jī)森林(Random Forests)和決策樹(shù)(Decision Trees)
學(xué)習(xí)樹(shù)方法論(Tree Methods Theory)
實(shí)現(xiàn)決策樹(shù)和隨機(jī)森林代碼
進(jìn)行隨機(jī)森林分類(lèi)示例練習(xí)
使用K均值聚類(lèi)
了解K均值聚類(lèi)理論
實(shí)現(xiàn)K均值聚類(lèi)代碼
進(jìn)行群集示例練習(xí)
使用推薦系統(tǒng)
實(shí)現(xiàn)自然語(yǔ)言處理
理解自然語(yǔ)言處理(NLP)
NLP工具概述
進(jìn)行NLP示例練習(xí)
在Python中用Spark進(jìn)行流式處理
用Spark進(jìn)行流式處理概述
Spark流數(shù)據(jù)處理(Spark Streaming)示例練習(xí)