Python機器學習算法實戰

課程編號：32145

課程價格：￥26000/天

課程時長：3 天

課程人氣：317

行業類別：行業通用

專業類別：大數據

授課講師：傅一航

課程說明
講師介紹
選擇同類課

【培訓對象】
IT系統部、大數據系統開發部、大數據建模等IT技術人員。

【培訓收益】

第一部分：機器學習基礎
1、機器學習簡介
2、機器學習的種類
監督學習/無監督學習/半監督學習/強化學習
批量學習和在線學習
基于實例與基于模型
3、機器學習的主要戰挑
數據量不足
數據質量差
無關特征
過擬合/擬合不足
4、機器學習任務
監督：分類、回歸
無監督：聚類、降維、關聯規則
5、機器學習基本過程
6、機器學習常用庫
第二部分：回歸算法實現
1、建模的本質，其實是一個最優化問題
2、回歸模型的基礎
3、基本概念：損失函數
4、線性回歸常用算法
普通最小二乘法OLS
梯度下降算法
牛頓法/擬牛頓法
5、最小二乘法
a)數學推導
b)OLS存在的問題
6、過擬合解決方法：正則化
嶺回歸（Ridge）
套索回歸Lasso
ElasticNet回歸
各種算法的適用場景
7、超大規模數據集的回歸模型：迭代算法
梯度概念
梯度下降/上升算法
批量梯度BGD/隨機梯度SGD/小批量梯度MBGD
學習率的影響
早期停止法
8、梯度算法的關鍵問題
9、牛頓法/擬牛頓法
泰勒公式(Taylor)
牛頓法(Newton)
擬牛頓法(Quasi-Newton)的優化
DFP/BFGS/L-BFGS
10、算法比較
第三部分：邏輯回歸算法
1、邏輯回歸基礎
2、LR的常用算法
最大似然估計法
梯度算法
牛頓法
3、最大似然估計法
似然函數/損失函數
數學推導
4、模型優化
迭代樣本的隨機選擇
變化的學習率
5、邏輯回歸+正則項
6、求解算法與懲罰項的關系
7、多元邏輯回歸處理
ovo
ovr
優缺點比較
8、邏輯回歸建模實戰
案例：用sklearn庫實現銀行貸款違約預測
案例：訂閱者用戶的典型特征（二元邏輯回歸）
案例：通信套餐的用戶畫像（多元邏輯回歸）
第四部分：決策樹算法
1、決策樹簡介
演練：識別銀行欠貨風險，提取欠貸者的特征
2、決策樹的三個關鍵問題
最優屬性選擇
熵、基尼系數
信息增益、信息增益率
屬性最佳劃分
多元劃分與二元劃分
連續變量最優劃分
決策樹修剪
剪枝原則
預剪枝與后剪枝
3、構建決策樹的算法
ID3、C4.5、C5.0
CART
4、決策樹的超參優化
5、決策樹的解讀
6、決策樹建模過程
案例：商場酸奶購買用戶特征提取
案例：客戶流失預警與客戶挽留
案例：識別拖欠銀行貨款者的特征，避免不良貨款
案例：識別電信詐騙者嘴臉，讓通信更安全
案例：電力竊漏用戶自動識別
第五部分：神經網絡算法
1、神經網絡簡介（ANN）
2、神經元基本原理
加法器
激活函數
3、神經網絡的結構
隱藏層數量
神經元個數
4、神經網絡的建立步驟
5、神經網絡的關鍵問題
6、BP算法實現
7、MLP多層神經網絡
8、學習率的設置
案例：評估銀行用戶拖欠貨款的概率
案例：神經網絡預測產品銷量
第六部分：線性判別算法
1、判別分析簡介
2、判別分析算法
中心和方差
類間散席Sb
類內散席Sw
3、特征值和特征向量
4、多分類LDA算法
5、算法實戰
案例：MBA學生錄取判別分析
案例：上市公司類別評估
第七部分：最近鄰算法（KNN）
1、KNN的基本原理
2、K近鄰的關鍵問題
距離公式
投票機制
3、KNN算法實現
Brute（蠻力計算）
Kd_tree（KD樹）
Ball_tre（球樹）
4、算法比較
第八部分：貝葉斯算法（NBN）
1、貝葉斯簡介
2、貝葉斯分類原理
先驗概率和后驗概率
條件概率和類概率
3、常見貝葉斯網絡
4、計算類別屬性的條件概率
5、估計連續屬性的條件概率
6、預測分類概率（計算概率）
7、拉普拉斯修正
案例：評估銀行用戶拖欠貨款的概率
第九部分：支持向量機算法（SVM）
1、支持向量機簡介
適用場景
2、支持向量機原理
支持向量
最大邊界超平面
3、線性不可分處理
松弛系數
4、非線性SVM分類
5、常用核函數
線性核函數
多項式核
高斯RBF核
核函數的選擇原則
6、SMO算法
第十部分：模型集成優化篇
1、模型的優化思想
2、集成模型的框架
Bagging
Boosting
Stacking
3、集成算法的關鍵過程
弱分類器如何構建
組合策略：多個弱學習器如何形成強學習器
4、Bagging集成算法
數據/屬性重抽樣
決策依據：少數服從多數
隨機森林RandomForest
5、Boosting集成算法
基于誤分數據建模
樣本選擇權重更新
決策依據：加權投票
AdaBoost模型
6、GBDT模型
7、XGBoost模型
8、LightGBM模型
第十一部分：聚類分析（客戶細分）實戰
1、聚類基本原理
2、K均值聚類算法
K均值算法
3、距離計算公式
閔可夫斯基距離(Minkowski Distance)
曼哈頓距離(Manhattan Distance)
歐氏距離(Euclidean Distance)
切比雪夫距離(Chebyshev Distance)
余弦距離(Cosine)
Pearson相似距離
馬哈拉諾比斯距離（Mahalanobis）
漢明距離(Hamming distance)
杰卡德相似系數(Jaccard similarity coefficient)
相對熵（K-L距離）
4、K均值算法的關鍵問題
初始中心的選取方式
最優K值的選取
5、聚類算法的評價方法
Elbow method（手肘法）
Calinski-Harabasz Index（CH準則法）
Silhouette Coefficient（輪廓系數法）
Gap Statistic（間隔統計量法）
Canopy算法
6、算法實戰
案例：使用SKLearn實現K均值聚類
第十二部分：關聯規則算法
1、關聯規則基本原理
2、常用關聯規則算法
Apriori算法
發現頻繁集
生成關聯規則
FP-Growth算法
構建FP樹
提取規則
3、算法實戰
案例：使用apriori庫實現關聯分析
案例：中醫證型關聯規則挖掘
第十三部分：協同過濾算法
1、協同過濾基本原理
2、協同過濾的兩各類型
基于用戶的協同過濾UserCF
基于物品的協同過濾ItemCF
3、相似度評估常用公式
4、UserCF算法實現
計算用戶間的興趣相似度
篩選前K個相似用戶
合并相似用戶購買過的物品集
剔除該用戶已經購買過的產品，得到候選物品集
計算該用戶對物品的喜歡程度，物品集排序
優先推薦前N個物品
5、ItemCF算法實現
計算物品間的相似度
篩選前K個喜歡的物品
合并與前K個物品相似的前L個物品集
剔除該用戶已經購買過的物品，得到候選物品集
計算該用戶到候選物品的喜愛程度，物品排序
優先推薦前N個物品
6、關于冷啟動問題
7、協同過濾算法比較

結束：課程總結與問題答疑。

今天高清视频免费播放动漫,天天爽夜爽免费精品视频,精品国产免费第一区二区,《爆乳女教师BD高清》

Python機器學習算法實戰