Python机器学习(算法篇)_傅一航_企业内训课程

Python机器学习(算法篇)

培训讲师：傅一航

讲师背景：
傅一航，华为系大数据专家。傅一航，男，计算机软件与理论硕士研究生（研究方向：数据挖掘、搜索引擎）。在华为工作十年，五篇国家专利，在华为工作期间获得华为数项奖项，曾在英国、日本、荷兰等国家做项目，对大数据有深入的研究。傅老师专注于大数据分析与详细>>

下载需求表打印本课程填写需求表在线咨询

课程咨询电话：

Python机器学习(算法篇)详细内容

Python机器学习(算法篇)

Python机器学习算法实战【课程目标】
本课程为高级课程，专注于机器学习算法，原理，以及算法实现及优化。
通过本课程的学习，达到如下目的：
熟悉常见的机器学习的算法。
掌握机器学习的算法原理，以及数据推导。
学会使用Python来实现机器学习算法，以及优化算法。
掌握scikit-learn扩展库来实现机器学习算法。
【授课时间】
3-5天时间
【授课对象】
IT系统部、大数据系统开发部、大数据建模等IT技术人员。
【学员要求】
本课程只讲算法实现，不涉及完整的数据建模和模型使用，所以要求学员之前已经掌握数据建模基础，熟悉建模过程。
每个学员自备一台便携机(必须)。
要求有Python开发基础，事先安装Python 3.9版本以上。
要求有基本的数据分析和数据挖掘的知识。
注：讲师现场提供开源的安装程序、扩展库，以及现场分析的数据源。
【授课方式】
机器学习任务 + 算法原理 + 数学推导 + Python实现
从任务出发，了解算法原理，以及数学推导过程，全过程演练操作，让学员在分析、分享、讲授、总结、自我实践过程中获得能力提升。
【课程大纲】
机器学习基础
机器学习简介
机器学习的种类
监督学习/无监督学习/半监督学习/强化学习
批量学习和在线学习
基于实例与基于模型
机器学习的主要战挑
数据量不足
数据质量差
无关特征
过拟合/拟合不足
机器学习任务
监督：分类、回归
无监督：聚类、降维、关联规则
机器学习基本过程
机器学习常用库
预测建模基础
数据建模六步法
选择模型：基于业务选择恰当的数据模型
属性筛选：选择对目标变量有显著影响的属性来建模
训练模型：采用合适的算法，寻找到最合适的模型参数
评估模型：进行评估模型的质量，判断模型是否可用
优化模型：如果评估结果不理想，则需要对模型进行优化
应用模型：如果评估结果满足要求，则可应用模型于业务场景
数据挖掘常用的模型
数值预测模型：回归预测、时序预测等
分类预测模型：逻辑回归、决策树、神经网络、支持向量机等
市场细分：聚类、RFM、PCA等
产品推荐：关联分析、协同过滤等
产品优化：回归、随机效用等
产品定价：定价策略/最优定价等
属性筛选/特征选择/变量降维
基于变量本身特征
基于相关性判断
因子合并（PCA等）
IV值筛选（评分卡使用）
基于信息增益判断（决策树使用）
训练模型及实现算法
模型原理
算法实现
模型评估
评估指标
评估方法
过拟合评估
模型优化
优化模型：选择新模型/修改模型
优化数据：新增显著自变量
优化公式：采用新的计算公式
模型应用
模型解读
模型部署
模型应用
好模型是优化出来的
特征工程处理
数据预处理的主要任务
数据集成：多个数据集的合并
数据清洗：异常值的处理
数据处理：数据筛选、数据精简、数据平衡
变量处理：变量变换、变量派生、变量精简
数据归约：实现降维，避免维灾难
数据集成
数据追加（添加数据）
变量合并（添加变量）
数据清洗（异常数据处理）
取值范围限定
重复值处理
无效值/错误值处理
缺失值处理
离群值/极端值处理
特征工程
变量变换：原变量取值更新，比如标准化
变量派生：根据旧变量生成新的变量
类型转换：数值型与类别型相互转换
特征选择：选择合适的自变量来建模
变量合并：多个变量合并，减少变量个数
变量变换
为什么要做变量变换？
函数转换：中心化、对数变换、平方根变换…
标准化转换：min-max、mean、max absolution、Z-score…
正则化转换：将数据缩放到单位范式(L1/L2变换)
正态化转换：将变量转换成正态分布(Box-Cox、Yeo-Johnson)
类型转换
数字化：将字符串转换成数字
离散化：将数值型转换成类别型
哑变量化：将类别型转换成数值型
特征选择
特征选择模式：Filter/Wrapper/Embedded
Filter特征选择：选择重要变量，剔除不重要的变量
从变量本身考虑：方差阈值法
从输入变量与目标变量的相关性考虑
变量合并
因子分析（FA）
因子分析的原理
因子个数如何选择
如何解读因子含义
主成分分析（PCA）
案例：提取影响电信客户流失的主成分分析
回归算法实现
建模的本质，其实是一个最优化问题
回归模型的基础
基本概念：损失函数
线性回归常用算法
普通最小二乘法OLS
梯度下降算法
牛顿法/拟牛顿法
最小二乘法
数学推导
OLS存在的问题
过拟合解决方法：正则化
岭回归（Ridge）
套索回归Lasso
ElasticNet回归
各种算法的适用场景
超大规模数据集的回归模型：迭代算法
梯度概念
梯度下降/上升算法
批量梯度BGD/随机梯度SGD/小批量梯度MBGD
学习率的影响
早期停止法
梯度算法的关键问题
牛顿法/拟牛顿法
泰勒公式(Taylor)
牛顿法(Newton)
拟牛顿法(Quasi-Newton)的优化
DFP/BFGS/L-BFGS
算法比较
逻辑回归算法
逻辑回归基础
LR的常用算法
最大似然估计法
梯度算法
牛顿法
最大似然估计法
似然函数/损失函数
数学推导
模型优化
迭代样本的随机选择
变化的学习率
逻辑回归+正则项
求解算法与惩罚项的关系
多元逻辑回归处理
ovoovr优缺点比较
逻辑回归建模实战
案例：用sklearn库实现银行贷款违约预测
案例：订阅者用户的典型特征（二元逻辑回归）
案例：通信套餐的用户画像（多元逻辑回归）
决策树算法
决策树简介
演练：识别银行欠货风险，提取欠贷者的特征
决策树的三个关键问题
最优属性选择
熵、基尼系数
信息增益、信息增益率
属性最佳划分
多元划分与二元划分
连续变量最优划分
决策树修剪
剪枝原则
预剪枝与后剪枝
构建决策树的算法
ID3、C4.5、C5.0
CART
决策树的超参优化
决策树的解读
决策树建模过程
案例：商场酸奶购买用户特征提取
案例：客户流失预警与客户挽留
案例：识别拖欠银行货款者的特征，避免不良货款
案例：识别电信诈骗者嘴脸，让通信更安全
案例：电力窃漏用户自动识别
神经网络算法
神经网络简介（ANN）
神经元基本原理
加法器
激活函数
神经网络的结构
隐藏层数量
神经元个数
神经网络的建立步骤
神经网络的关键问题
BP算法实现
MLP多层神经网络
学习率的设置
案例：评估银行用户拖欠货款的概率
案例：神经网络预测产品销量
线性判别算法
判别分析简介
判别分析算法
中心和方差
类间散席Sb
类内散席Sw特征值和特征向量
多分类LDA算法
算法实战
案例：MBA学生录取判别分析
案例：上市公司类别评估
最近邻算法（KNN）
KNN的基本原理
K近邻的关键问题
距离公式
投票机制
KNN算法实现
Brute（蛮力计算）
Kd_tree（KD树）
Ball_tre（球树）
算法比较
贝叶斯算法（NBN）
贝叶斯简介
贝叶斯分类原理
先验概率和后验概率
条件概率和类概率
常见贝叶斯网络
计算类别属性的条件概率
估计连续属性的条件概率
预测分类概率（计算概率）
拉普拉斯修正
案例：评估银行用户拖欠货款的概率
支持向量机算法（SVM）
支持向量机简介
适用场景
支持向量机原理
支持向量
最大边界超平面
线性不可分处理
松弛系数
非线性SVM分类
常用核函数
线性核函数
多项式核
高斯RBF核
核函数的选择原则
SMO算法
模型集成优化篇
模型的优化思想
集成模型的框架
Bagging
Boosting
Stacking
集成算法的关键过程
弱分类器如何构建
组合策略：多个弱学习器如何形成强学习器
Bagging集成算法
数据/属性重抽样
决策依据：少数服从多数
随机森林RandomForestBoosting集成算法
基于误分数据建模
样本选择权重更新
决策依据：加权投票
AdaBoost模型
GBDT模型
XGBoost模型
LightGBM模型
聚类分析（客户细分）实战
聚类基本原理
K均值聚类算法
K均值算法
距离计算公式
闵可夫斯基距离(Minkowski Distance)
曼哈顿距离(Manhattan Distance)
欧氏距离(Euclidean Distance)
切比雪夫距离(Chebyshev Distance)
余弦距离(Cosine)
Pearson相似距离
马哈拉诺比斯距离（Mahalanobis）
汉明距离(Hamming distance)
杰卡德相似系数(Jaccard similarity coefficient)
相对熵（K-L距离）
K均值算法的关键问题
初始中心的选取方式
最优K值的选取
聚类算法的评价方法
Elbow method（手肘法）
Calinski-Harabasz Index（CH准则法）
Silhouette Coefficient（轮廓系数法）
Gap Statistic（间隔统计量法）
Canopy算法
算法实战
案例：使用SKLearn实现K均值聚类
关联规则算法
关联规则基本原理
常用关联规则算法
Apriori算法
发现频繁集
生成关联规则
FP-Growth算法
构建FP树
提取规则
算法实战
案例：使用apriori库实现关联分析
案例：中医证型关联规则挖掘
协同过滤算法
协同过滤基本原理
协同过滤的两各类型
基于用户的协同过滤UserCF基于物品的协同过滤ItemCF相似度评估常用公式
UserCF算法实现
计算用户间的兴趣相似度
筛选前K个相似用户
合并相似用户购买过的物品集
剔除该用户已经购买过的产品，得到候选物品集
计算该用户对物品的喜欢程度，物品集排序
优先推荐前N个物品
ItemCF算法实现
计算物品间的相似度
筛选前K个喜欢的物品
合并与前K个物品相似的前L个物品集
剔除该用户已经购买过的物品，得到候选物品集
计算该用户到候选物品的喜爱程度，物品排序
优先推荐前N个物品
关于冷启动问题
协同过滤算法比较
结束：课程总结与问题答疑。

傅一航老师的其它课程

数据分析方法及生产运营实际应用 06.20

数据分析方法及生产运营实际应用【课程目标】本课程主要介绍数据分析在生产运营过程中的应用，适用于制造行业/保险行业的数据分析人员等。本课程的主要目的是，帮助学员了解大数据的本质，培养学员的数据意识和数据思维，掌握常用的统计分析方法和工具，以及生产、运营过程中的应用，并以概率的方式来进行决策，提升学员的数据分析及应用能力。本课程具体内容包括：数据决策逻辑，数据决

讲师：傅一航详情

数据建模及模型优化大赛辅导实战 06.20

大数据建模大赛辅导实战【课程目标】本课程主要面向专业人士的大数据建模竞赛辅导需求（假定学员已经完成Python建模及优化--回归篇/分类篇的学习）。通过本课程的学习，达到如下目的：熟悉大赛常用集成模型掌握模型优化常用措施，掌握超参优化策略掌握特征工程处理，以及对模型质量的影响掌握建模工程管道类(Pipeline,ColumnTransformer)的使用【授

讲师：傅一航详情

大数据时代下的精准营销（1天） 06.20

大数据时代的精准营销【课程目标】本课程从实际的市场营销问题出发，了解大数据在市场营销领域的价值以及应用。并对大数据分析与挖掘技术进行了介绍，通过从大量的市场营销数据中分析潜在的客户特征，挖掘客户行为特点，实现精准营销，帮助市场营销团队深入理解业务运作，支持业务策略制定以及营销决策。通过本课程的学习，达到如下目的：了解大数据营销内容，掌握大数据在营销中的应用。

讲师：傅一航详情

大数据时代下的精准营销（1天-金融行业） 06.20

讲师：傅一航详情

大数据思维与商业模式创新，赋能企业增长 06.20

大数据决策思维与商业模式创新，赋能企业增长【课程目标】本课程主要帮助大家理解大数据的基本概念，着重探索大数据的本质，理解大数据的核心价值，以及掌握实现大数据价值的三个关键环节，大数据解决业务问题的六个步骤，然后聚焦大数据的七大核心思维，最后，再用案例说明了大数据在各行业的应用场景。大数据思维，让决策更科学！让管理更高效！让营销更精准！通过本课程的学习，达到如

讲师：傅一航详情

大数据思维与数字化转型（2天） 06.20

大数据思维与应用创新【课程目标】本课程主要帮助大家理解大数据的基本概念，着重探索大数据的本质，理解大数据的核心价值，以及掌握实现大数据价值的三个关键环节，大数据解决业务问题的六个步骤，然后聚焦大数据的七大核心思维，最后，再用案例说明了大数据在各行业的应用场景。大数据思维，让决策更科学！让管理更高效！让营销更精准！通过本课程的学习，达到如下目的：了解大数据基本

讲师：傅一航详情

大数据思维与应用创新（1天） 06.20

讲师：傅一航详情

大数据思维与应用创新（1天-金融） 06.20

讲师：傅一航详情

大数据挖掘之SPSS工具入门与提高培训（2-4天） 06.20

大数据挖掘工具:SPSSStatistics入门与提高【课程目标】本课程为数据分析和挖掘的工具篇，本课程面向数据分析部等专门负责数据分析与挖掘的人士，专注大数据挖掘工具SPSSStatistics的培训。IBMSPSS工具是面向非专业人士的高级的分析工具（挖掘工具），它提供大量的分析方法和分析模型，能够解决更复杂的业务问题，比如影响因素分析、客户行为预测/精

讲师：傅一航详情

金融行业风险预测模型实战培训（2-3天） 06.20

金融行业风险预测模型实战【课程目标】本课程专注于金融行业的风控模型，面向数据分析部等专门负责数据分析与建模的人士。本课程的主要目的是，培养学员的大数据意识和大数据思维，掌握常用的数据分析方法和数据分析模型，并能够用于对客户行为作分析和预测，提升学员的数据分析综合能力。通过本课程的学习，达到如下目的：掌握数据分析和数据建模的基本过程和步骤掌握客户行为分析中常用

讲师：傅一航详情

发布内容，请点我！

关注微信公众号，请扫描下方二维码：

讲师申请/讲师自荐

企业内训分类

专栏人物更多

潘文富

王晓楠

下载排行