課程編號:32145
課程價格:¥26000/天
課程時長:3 天
課程人氣:317
行業類別:行業通用
專業類別:大數據
授課講師:傅一航
第一部分:機器學習基礎 1、機器學習簡介 2、機器學習的種類 監督學習/無監督學習/半監督學習/強化學習 批量學習和在線學習 基于實例與基于模型 3、機器學習的主要戰挑 數據量不足 數據質量差 無關特征 過擬合/擬合不足 4、機器學習任務 監督:分類、回歸 無監督:聚類、降維、關聯規則 5、機器學習基本過程 6、機器學習常用庫 第二部分:回歸算法實現 1、建模的本質,其實是一個最優化問題 2、回歸模型的基礎 3、基本概念:損失函數 4、線性回歸常用算法 普通最小二乘法OLS 梯度下降算法 牛頓法/擬牛頓法 5、最小二乘法 a)數學推導 b)OLS存在的問題 6、過擬合解決方法:正則化 嶺回歸(Ridge) 套索回歸Lasso ElasticNet回歸 各種算法的適用場景 7、超大規模數據集的回歸模型:迭代算法 梯度概念 梯度下降/上升算法 批量梯度BGD/隨機梯度SGD/小批量梯度MBGD 學習率的影響 早期停止法 8、梯度算法的關鍵問題 9、牛頓法/擬牛頓法 泰勒公式(Taylor) 牛頓法(Newton) 擬牛頓法(Quasi-Newton)的優化 DFP/BFGS/L-BFGS 10、算法比較 第三部分:邏輯回歸算法 1、邏輯回歸基礎 2、LR的常用算法 最大似然估計法 梯度算法 牛頓法 3、最大似然估計法 似然函數/損失函數 數學推導 4、模型優化 迭代樣本的隨機選擇 變化的學習率 5、邏輯回歸+正則項 6、求解算法與懲罰項的關系 7、多元邏輯回歸處理 ovo ovr 優缺點比較 8、邏輯回歸建模實戰 案例:用sklearn庫實現銀行貸款違約預測 案例:訂閱者用戶的典型特征(二元邏輯回歸) 案例:通信套餐的用戶畫像(多元邏輯回歸) 第四部分:決策樹算法 1、決策樹簡介 演練:識別銀行欠貨風險,提取欠貸者的特征 2、決策樹的三個關鍵問題 最優屬性選擇 熵、基尼系數 信息增益、信息增益率 屬性最佳劃分 多元劃分與二元劃分 連續變量最優劃分 決策樹修剪 剪枝原則 預剪枝與后剪枝 3、構建決策樹的算法 ID3、C4.5、C5.0 CART 4、決策樹的超參優化 5、決策樹的解讀 6、決策樹建模過程 案例:商場酸奶購買用戶特征提取 案例:客戶流失預警與客戶挽留 案例:識別拖欠銀行貨款者的特征,避免不良貨款 案例:識別電信詐騙者嘴臉,讓通信更安全 案例:電力竊漏用戶自動識別 第五部分:神經網絡算法 1、神經網絡簡介(ANN) 2、神經元基本原理 加法器 激活函數 3、神經網絡的結構 隱藏層數量 神經元個數 4、神經網絡的建立步驟 5、神經網絡的關鍵問題 6、BP算法實現 7、MLP多層神經網絡 8、學習率的設置 案例:評估銀行用戶拖欠貨款的概率 案例:神經網絡預測產品銷量 第六部分:線性判別算法 1、判別分析簡介 2、判別分析算法 中心和方差 類間散席Sb 類內散席Sw 3、特征值和特征向量 4、多分類LDA算法 5、算法實戰 案例:MBA學生錄取判別分析 案例:上市公司類別評估 第七部分:最近鄰算法(KNN) 1、KNN的基本原理 2、K近鄰的關鍵問題 距離公式 投票機制 3、KNN算法實現 Brute(蠻力計算) Kd_tree(KD樹) Ball_tre(球樹) 4、算法比較 第八部分:貝葉斯算法(NBN) 1、貝葉斯簡介 2、貝葉斯分類原理 先驗概率和后驗概率 條件概率和類概率 3、常見貝葉斯網絡 4、計算類別屬性的條件概率 5、估計連續屬性的條件概率 6、預測分類概率(計算概率) 7、拉普拉斯修正 案例:評估銀行用戶拖欠貨款的概率 第九部分:支持向量機算法(SVM) 1、支持向量機簡介 適用場景 2、支持向量機原理 支持向量 最大邊界超平面 3、線性不可分處理 松弛系數 4、非線性SVM分類 5、常用核函數 線性核函數 多項式核 高斯RBF核 核函數的選擇原則 6、SMO算法 第十部分:模型集成優化篇 1、模型的優化思想 2、集成模型的框架 Bagging Boosting Stacking 3、集成算法的關鍵過程 弱分類器如何構建 組合策略:多個弱學習器如何形成強學習器 4、Bagging集成算法 數據/屬性重抽樣 決策依據:少數服從多數 隨機森林RandomForest 5、Boosting集成算法 基于誤分數據建模 樣本選擇權重更新 決策依據:加權投票 AdaBoost模型 6、GBDT模型 7、XGBoost模型 8、LightGBM模型 第十一部分:聚類分析(客戶細分)實戰 1、聚類基本原理 2、K均值聚類算法 K均值算法 3、距離計算公式 閔可夫斯基距離(Minkowski Distance) 曼哈頓距離(Manhattan Distance) 歐氏距離(Euclidean Distance) 切比雪夫距離(Chebyshev Distance) 余弦距離(Cosine) Pearson相似距離 馬哈拉諾比斯距離(Mahalanobis) 漢明距離(Hamming distance) 杰卡德相似系數(Jaccard similarity coefficient) 相對熵(K-L距離) 4、K均值算法的關鍵問題 初始中心的選取方式 最優K值的選取 5、聚類算法的評價方法 Elbow method(手肘法) Calinski-Harabasz Index(CH準則法) Silhouette Coefficient(輪廓系數法) Gap Statistic(間隔統計量法) Canopy算法 6、算法實戰 案例:使用SKLearn實現K均值聚類 第十二部分:關聯規則算法 1、關聯規則基本原理 2、常用關聯規則算法 Apriori算法 發現頻繁集 生成關聯規則 FP-Growth算法 構建FP樹 提取規則 3、算法實戰 案例:使用apriori庫實現關聯分析 案例:中醫證型關聯規則挖掘 第十三部分:協同過濾算法 1、協同過濾基本原理 2、協同過濾的兩各類型 基于用戶的協同過濾UserCF 基于物品的協同過濾ItemCF 3、相似度評估常用公式 4、UserCF算法實現 計算用戶間的興趣相似度 篩選前K個相似用戶 合并相似用戶購買過的物品集 剔除該用戶已經購買過的產品,得到候選物品集 計算該用戶對物品的喜歡程度,物品集排序 優先推薦前N個物品 5、ItemCF算法實現 計算物品間的相似度 篩選前K個喜歡的物品 合并與前K個物品相似的前L個物品集 剔除該用戶已經購買過的物品,得到候選物品集 計算該用戶到候選物品的喜愛程度,物品排序 優先推薦前N個物品 6、關于冷啟動問題 7、協同過濾算法比較
結束:課程總結與問題答疑。
關于我們
行業優勢
核心產品
24小時熱線:0571-86155444
掃一掃,關注公眾號
管理培訓、管理培訓機構、管理培訓課程、管理培訓講師、領導力培訓、執行力培訓、溝通培訓、賦能培訓
版權所有 © 杭州匠道企業管理咨詢有限公司 浙ICP備18040702號-1