,,

課程大綱詳情

更多講師課程

所屬領域

財務法律 > 預算管理
適合行業

銀行證券行業航空客運行業汽車服務行業教育培訓行業其他
課程背景
課程目標

本課程專注于金融行業的風控模型，面向數據分析部等專門負責數據分析與建模的人士。通過本課程的學習，達到如下目的： 1、掌握數據建模的基本過程和步驟。 2、掌握數據建模前的屬性篩選的系統方法，為建模打下基礎。 3、掌握常用的分類預測模型，包括邏輯回歸、決策樹、神經網絡、判別分析等等，以及分類模型的優化。 4、掌握金融行業信用評分卡模型，構建信用評分模型。主要內容包括數據建模的過程和步驟，以及建模涉及到的分析方法、分析模型，以及模型優化等。本課程突出數據挖掘的實際應用，結合行業的典型應用特點，從實際問題入手，引出相關知識，進行大數據的收集與處理；探索數據之間的規律及關聯性，幫助學員掌握系統的數據預處理方法；介紹常用的模型，訓練模型，并優化模型，以達到最優分析結果。
課程時長

三天
適合對象

業務支撐、網絡中心、IT系統部、數據分析部等對業務數據分析有較高要求的相關專業人員。
課程大綱

數據建模基本過程
預測建模六步法
選擇模型：基于業務選擇恰當的數據模型
屬性篩選：選擇對目標變量有顯著影響的屬性來建模
訓練模型：采用合適的算法對模型進行訓練，尋找到最合適的模型參數
評估模型：進行評估模型的質量，判斷模型是否可用
優化模型：如果評估結果不理想，則需要對模型進行優化
應用模型：如果評估結果滿足要求，則可應用模型于業務場景
數據挖掘常用的模型
數值預測模型：回歸預測、時序預測等
分類預測模型：邏輯回歸、決策樹、神經網絡、支持向量機等
市場細分：聚類、RFM、PCA等
產品推薦：關聯分析、協同過濾等
產品優化：回歸、隨機效用等
產品定價：定價策略/最優定價等
屬性篩選/特征選擇/變量降維
基于變量本身特征
基于相關性判斷
因子合并（PCA等）
IV值篩選（評分卡使用）
基于信息增益判斷（決策樹使用）
模型評估
模型質量評估指標：R^2、正確率/查全率/查準率/特異性等
預測值評估指標：MAD、MSE/RMSE、MAPE、概率等
模型評估方法：留出法、K拆交叉驗證、自助法等
其它評估：過擬合評估
模型優化
優化模型：選擇新模型/修改模型
優化數據：新增顯著自變量
優化公式：采用新的計算公式
模型實現算法（暫略）
好模型是優化出來的
案例：通信客戶流失分析及預警模型
屬性篩選方法
問題：如何選擇合適的屬性來進行建模預測？
比如：價格是否可用于產品銷量的預測？套餐的合理性是否會影響客戶流失？在欺詐風險中有哪些數據會有異常表現？
屬性篩選/變量降維的常用方法
基于變量本身特征來選擇屬性
基于數據間的相關性來選擇屬性
基于因子合并（如PCA分析）實現變量的合并
利用IV值篩選
基于信息增益來選擇屬性
相關分析（衡量變量間的線性相關性）
問題：這兩個屬性是否會相互影響？影響程度大嗎？
相關分析簡介
相關分析的三個種類
簡單相關分析
偏相關分析
距離相關分析
相關系數的三種計算公式
Pearson相關系數
Spearman相關系數
Kendall相關系數
相關分析的假設檢驗
相關分析的四個基本步驟
演練：年齡和收入的相關分析
演練：營銷費用會影響銷售額嗎
演練：工作時間與收入有相關性嗎
演練：話費與網齡的相關分析
偏相關分析
偏相關原理：排除不可控因素后的兩變量的相關性
偏相關系數的計算公式
偏相關分析的適用場景
距離相關分析
方差分析(衡量類別變量與數據變量的相關性)
問題：哪些才是影響銷量的關鍵因素？
方差分析的應用場景
方差分析的三個種類
單因素方差分析
多因素方差分析
協方差分析
方差分析的原理
方差分析的四個步驟
解讀方差分析結果的兩個要點
演練：用戶收入對銀行欠貸的影響分析
演練：家庭人數對銀行欠貸的影響分析
演練：年齡大小對欠貸有影響嗎
演練：尋找影響貸款風險的關鍵因素
多因素方差分析原理
多因素方差分析的作用
多因素方差結果的解讀
演練：廣告形式、地區對銷量的影響因素分析（多因素）
協方差分析原理
協方差分析的適用場景
演練：飼料對生豬體重的影響分析（協方差分析）
列聯分析/卡方檢驗（兩類別變量的相關性分析）
交叉表與列聯表
卡方檢驗的原理
卡方檢驗的幾個計算公式
列聯表分析的適用場景
演練：不同的信用卡類型會有不同欠貸風險嗎
演練：有無住房對欠貸的影響分析
案例：行業/規模對風控的影響分析
相關性分析各種方法的適用場景
主成份分析（PCA）
因子分析的原理
因子個數如何選擇
如何解讀因子含義
案例：提取影響電信客戶流失的主成分分析
回歸預測模型篇
問題：如何預測產品的銷量/銷售金額？如果產品跟隨季節性變動，該如何預測？新產品上市，如果評估銷量上限及銷售增速？
常用的數值預測模型
回歸預測
時序預測
回歸預測/回歸分析
問題：如何預測未來的銷售量（定量分析）？
回歸分析的基本原理和應用場景
回歸分析的種類（一元/多元、線性/曲線）
得到回歸方程的四種常用方法
Excel函數
散點圖+趨勢線
線性回歸工具
規范求解
線性回歸分析的五個步驟
回歸方程結果的解讀要點
評估回歸模型質量的常用指標
評估預測值的準確度的常用指標
演練：散點圖找推廣費用與銷售額的關系（一元線性回歸）
演練：推廣費用、辦公費用與銷售額的關系（多元線性回歸）
演練：讓你的營銷費用預算更準確
演練：如何選擇最佳的回歸預測模型（曲線回歸）
帶分類變量的回歸預測
演練：汽車季度銷量預測
演練：工齡、性別與終端銷量的關系
演練：如何評估銷售目標與資源配置（營業廳）
自動篩選不顯著自變量
回歸預測模型優化篇
回歸分析的基本原理
三個基本概念：總變差、回歸變差、剩余變差
方程的顯著性檢驗：是否可以做回歸分析？
因素的顯著性檢驗：自變量是否可用？
擬合優度檢驗：回歸模型的質量評估？
理解標準誤差的含義：預測的準確性？
回歸模型優化思路：尋找最佳回歸擬合線
如何處理預測離群值（剔除離群值）
如何剔除非顯著因素（剔除不顯著因素）
如何進行非線性關系檢驗（增加非線性自變量）
如何進行相互作用檢驗（增加相互作用自變量）
如何進行多重共線性檢驗（剔除共線性自變量）
如何檢驗誤差項（修改因變量）
如何判斷模型過擬合（模型過擬合判斷）
案例：模型優化案例
規劃求解工具簡介
自定義回歸模型（如何利用規劃求解進行自定義模型）
案例：如何對餐廳客流量進行建模及模型優化
好模型都是優化出來的
分類預測模型
問題：如何評估客戶購買產品的可能性？或者說，影響客戶購買意向的產品關鍵特性是什么？
分類預測模型概述
常見分類預測模型
評估分類模型的常用指標
正確率、查全率/查準率、特異性等
邏輯回歸分析模型（LR）
問題：如果評估用戶是否購買產品的概率？
邏輯回歸模型原理及適用場景
邏輯回歸的種類
二項邏輯回歸
多項邏輯回歸
如何解讀邏輯回歸方程
帶分類自變量的邏輯回歸分析
多項邏輯回歸
案例：如何評估用戶是否會有違約風險（二項邏輯回歸）
案例：多品牌選擇模型分析（多項邏輯回歸）
決策樹分類（DT）
問題：如何提取客戶流失者、拖欠貨款者的特征？如何預測其流失的概率？
決策樹分類的原理
決策樹的三個關鍵問題
如何選擇最佳屬性來構建節點
如何分裂變量
如何修剪決策樹
選擇最優屬性
熵、基尼索引、分類錯誤
屬性劃分增益
如何分裂變量
多元劃分與二元劃分
連續變量離散化（最優劃分點）
修剪決策樹
剪枝原則
預剪枝與后剪枝
構建決策樹的四個算法
C5.0、CHAID、CART、QUEST
各種算法的比較
如何選擇最優分類模型？
案例：識別銀行欠貨風險，提取欠貨者的特征
案例：客戶流失預警與客戶挽留模型
人工神經網絡（ANN）
神經網絡概述
神經網絡基本原理
神經網絡的結構
神經網絡的建立步驟
神經網絡的關鍵問題
BP反向傳播網絡（MLP）
徑向基網絡（RBF）
案例：評估銀行用戶拖欠貨款的概率
判別分析（DA）
判別分析原理
距離判別法
典型判別法
貝葉斯判別法
案例：MBA學生錄取判別分析
案例：上市公司類別評估
最近鄰分類（KNN）
基本原理
關鍵問題
貝葉斯分類（NBN）
貝葉斯分類原理
計算類別屬性的條件概率
估計連續屬性的條件概率
貝葉斯網絡種類：TAN/馬爾科夫毯
預測分類概率（計算概率）
案例：評估銀行用戶拖欠貨款的概率
支持向量機（SVM）
SVM基本原理
線性可分問題：最大邊界超平面
線性不可分問題：特征空間的轉換
維空難與核函數
分類模型優化篇（集成方法）
分類模型的優化思路：利用弱分類器構建強分類模型
集成方法的基本原理
選取多個數據集，構建多個弱分類器
多個弱分類器投票決定
集成方法/元算法的種類
Bagging算法
Boosting算法
Bagging原理
如何選擇數據集
如何進行投票
隨機森林
Boosting的原理
AdaBoost算法流程
樣本選擇權重計算公式
分類器投票權重計算公式
銀行信用評分卡模型
信用評分卡模型簡介
評分卡的關鍵問題
信用評分卡建立過程
篩選重要屬性
數據集轉化
建立分類模型
計算屬性分值
確定審批閾值
篩選重要屬性
屬性分段
基本概念：WOE、IV
屬性重要性評估
數據集轉化
連續屬性最優分段
計算屬性取值的WOE
建立分類模型
訓練邏輯回歸模型
評估模型
得到字段系數
計算屬性分值
計算補償與刻度值
計算各字段得分
生成評分卡
確定審批閾值
畫K-S曲線
計算K-S值
獲取最優閾值
案例：構建銀行小額貸款的用戶信用模型
數據預處理篇（了解你的數據集）
數據預處理的主要任務
數據集成：多個數據集的合并
數據清理：異常值的處理
數據處理：數據篩選、數據精簡、數據平衡
變量處理：變量變換、變量派生、變量精簡
數據歸約：實現降維，避免維災難
數據集成
外部數據讀入：Txt/Excel/SPSS/Database
數據追加（添加數據）
變量合并（添加變量）
數據理解（異常數據處理）
取值范圍限定
重復值處理
無效值/錯誤值處理
缺失值處理
離群值/極端值處理
數據質量評估
數據準備：數據處理
數據篩選：數據抽樣/選擇（減少樣本數量）
數據精簡：數據分段/離散化（減少變量的取值個數）
數據平衡：正反樣本比例均衡
數據準備：變量處理
變量變換：原變量取值更新，比如標準化
變量派生：根據舊變量生成新的變量
變量精簡：降維，減少變量個數
數據降維
常用降維的方法
如何確定變量個數
特征選擇：選擇重要變量，剔除不重要的變量
從變量本身考慮
從輸入變量與目標變量的相關性考慮
對輸入變量進行合并
因子分析（主成分分析）
因子分析的原理
因子個數如何選擇
如何解讀因子含義
案例：提取影響電信客戶流失的主成分分析
數據探索性分析
常用統計指標分析
單變量：數值變量/分類變量
雙變量：交叉分析/相關性分析
多變量：特征選擇、因子分析
演練：描述性分析（頻數、描述、探索、分類匯總）
數據可視化
數據可視化：柱狀圖、條形圖、餅圖、折線圖、箱圖、散點圖等
圖形的表達及適用場景
演練：各種圖形繪制
數據建模實戰篇
電信業客戶流失預警和客戶挽留模型實戰
銀行欠貸風險預測模型實戰
銀行信用卡評分模型實戰
結束：課程總結與問題答疑。

課程標簽：財務法律、預算管理

相關課程

需求提交

您可以在這里提交您的培訓需求：
您的企業想培訓什么課題？有多少人參加？培訓人員層次？

提交培訓需求后我們會和您取得聯系，為您提供最適合您的培訓課程方案！

聯系吧
電話：0371-88903130
如遇占線或未接聽請撥打：0371-88903132
講師咨詢課程咨詢投訴舉報

熱門講師

在這與他們同行

李英豪
李泉峰
江瑩瑩
繆佩言
錢宏峰
劉燕老師

課程專題

九九精品视频在线观看-九九精品视频在线观看九九-九九精品在线观看-九九精品在线视频-在线观看 国产-在线观看91精品国产入口

九九精品视频在线观看-九九精品视频在线观看九九-九九精品在线观看-九九精品在线视频-在线观看国产-在线观看91精品国产入口