AI产品经理的入门必修课(2)——实战篇

导语:上一篇文章里简单介绍了AI产品经理需要具备的能力和对数据、算fǎ需要理解的程度;本篇计划介绍一下机器学xí的实际训练过程,来进一步的理解AI产品在曰常工作中需要关注的内容。我们一起来了解一下。

现简单的将训练liú程划分为:定位要解决的任务类型 -> 选择合适的算fǎ模型 -> 准备数据集 -> 训练模型 -> 调整参数 -> 模型评估及验收。

一、根据场景定位要解决的任务类型

结合不同的应用场景,机器学xí核心解决的任务类型可以简单归纳为分类问题、回归问题、聚类问题、时间序列问题。

1. 分类问题

原理:根据样本特征提前定义好数据的分类,把具有相同特征的数据点落到提前定义好的类别标签上完成分类。

特点:数据样本有标签。

应用场景:人脸识别、X邮件检测、图像识别、X评估…

2. 回归问题

原理:XX数据的表现,拟合成一个目标函数,X误差分析方fǎ去确定拟合后表现最好的函数。

特点:数据是相互X的点,且有对应标签。

应用场景:预估X增量、X增长、股票增长…

3. 聚类问题

原理:不需要提前去定义期望的数据需要怎样划分,根据样本特征的距离去决定分类,保持最小的组内相似。

特点:数据样本无标签,不需要提前去定义期望的数据需要怎样划分,根据样本特征的距离去决定分类,保持最小的组内相似。

应用场景:用户分X、商品聚类…

4. 时间序列问题

原理:与回归的逻辑相似,但对数据的要qiú不一样,数据按照时间顺序排列,根据相等间隔的时间段的数据表现规律去预估未来的表现。

特点:数据点之间彼此相关。

应用场景:需要进行周期性X类的场景。

二、选择合适的算fǎ模型

根据不同任务类型选择合适的算fǎ模型,如果要解决的是分类问题,即对应的要选择擅长处理分类问题的算fǎ模型,选择合适的模型可以提高数据训练的效率。

通常选择什么样的算fǎ是由算fǎ工程师主导的,产品经理只需要简单理解所解决的问题范围即可。

scikit-learn上支持的分类算fǎ:

  • 朴素贝叶斯分类器(Naive Bayes)
  • K近邻分类器(KNeighbors Classifier)
  • 决策树(Decision Tree)
  • 支持向量机(SVC)
  • 线性支持向量机(Linear SVC)
  • 随机梯度下降分类器(SGD Classifier)
  • 核估计(kernel approximation)
  • 集成分类器(EnsembleClassifiers)

要解决聚类的问题,如用户分X,可以选择聚类的算fǎ模型。

scikit-learn上支持的聚类算fǎ:

  • K均值(KMeans)
  • 谱聚类(Spectral Clustering)
  • GMM – 高斯混合模型
  • MeanShift
  • VBGMM
  • MiniBatch KMeans

如果要依赖趋势做数值X,如X量增长,可以选择回归算fǎ模型。

scikit-learn上支持的回归算fǎ:

  • 贝叶斯岭回归
  • Logistic回归
  • 支持向量机回归
  • 决策树回归
  • LASSO
  • 随机梯度下降回归(SGD Regressor)

三、准备数据集

准备数据集包hán了数据处理、特征提取、训练集、测试集的分gē。

1. 数据预处理

通常来说,我们收集上来的数据来源比较多,可能会存在一些问题,例如数据缺失、数据格式不一致、数据集分布不均匀、数据重复等问题,因此需要进行数据的预处理。

不同问题的处理方式:

  • 数据缺失:如果数据缺失占比不大,可以把有缺失的数据进行册刂除,若本身数据量级就不是很多,可以进行人工填补,通常经过经验填补或者均值填补。
  • 数据格式不X/量纲不X:进行格式转化,数据归一化处理。
  • 数据分布不均匀:可以根据样本分布特点进行随机重复采样,以补充数据量少的分布,但容易丢失重要特征。

2. 特征提取

在机器学xí的训练中,需要将X维度相关的数据进行向量转化,解决部分复杂问题时,如果维度较多在转化过程中很容易造成大量的计算资源的消耗,一般会先进行特征的提取,也就是常说的特征工程,来进行维度的简化。

常用的方fǎ是主成分分析,原理是将两个或几个X的特征组合到一起形成一个特征;X这种方式进行降维,使训练的维度减少,提高训练效率。

3. 训练集、测试集的分gē

在机器学xí模型训练之前,通常要进行数据的分gē,常用的有1/4分gē、1/10分gē,具体需要根据自己的数据样本量去chāi分。

AI产品经理的入门必修课(2)——实战篇

四、训练模型 & 调整参数

准备好数据集,确定了要使用的算fǎ,下一步要进行具体的模型训练;上一篇文章中我们提到机器学xí模型训练中经常遇到的两个问题,过拟合和欠拟合。

1. 过拟合

特点:在训练集上表现非常好,但是在测试数据或者验证数据上表现很差,说明模型缺失泛化能力。

原因:训练数据太少或者学xí后的模型过于复杂。

解决方fǎ:增加训练样本,或者减少数据维度,或者为模型添加一个正则项来扩大模型在训练上的误差。

2. 欠拟合

特点:在训练集上表现不好,在测试数据上表现也不好。

原因:维度较少拟合的函数不足以表达数据规律。

解决方fǎ:补充维度增加模型的复杂程度。

AI产品经理的入门必修课(2)——实战篇

图上是线性回归模型表现出的三种状态,中间图为模型训练好后该具备的样子;紫sè线为模型训练好后拟合出的函数,绿sè线为X数据该拟合出的函数,点X样本数据。

3. 参数调整

zhēn对调参的环节,一般会X交叉验证来确定最优参数。当然,一些对模型训练做的比较多的算fǎ大牛,也会根据自己的经验去指定参数进行算fǎ调优。

以KNN算fǎ为例:

最简单的方式:K=1、2、3,然后分别进行实验,对比结果,选择最优参数。

交叉验证:将一部分数据从训练集上分gē出来,从这小部分数据集中进行验证;例如下图,把训练集划分为5份,分别采用每一小份当作交叉实验的测试集,对比每一次实验的结果,去分别记录预估的准确率,最后选择准确率最高的参数作为模型最优参数。

这里需要注意分组实验只是为了确定最优参数,在参数确认后,还是需要将全部数据合并到一起进行模型训练,得到目标函数,很多人在调参的环节容易忽视此步骤。

AI产品经理的入门必修课(2)——实战篇

五、模型评估及验收

最常见的方fǎ是看模型的准确率,但模型整体准确率高,不X模型表现就好;因为在某些任务场景下,更多关注的是某个类别或者某个分布下的准确率,而非整体的准确率。

例如在图像识别的场景下,首先会去关注模型对于图像内容识别的召回率,所谓召回率就是在所有要检测的图片样本中,被X正确的个数,也叫做查全率;然后在去看模型的精准度,也就是所有X出的结果中,预估正确的个数。

二者的区别在于,前者关注的是在所有X样本中被正确检测的情况,后者关注的是X结果中被正确检测的情况,下表是分类问题的混淆矩阵。

AI产品经理的入门必修课(2)——实战篇

举例:数据样本中有猫和苟的图片,我们用图像识别来检测是猫的图片。

  • 真正例(TP):图片X结果是猫,X图片结果是猫;
  • 假正例(FP):图片X结果是猫,X图片结果是苟;
  • 真反例(TN):图片X结果是苟,X图片结果是苟;
  • 假返例(FN),图片X结果是苟,X图片结果是猫;

本次任务是“检测出猫”的图片,即使模型正确检测出苟,也不满足于我们当前的分析任务,因此基于任务而言,正确X出是苟的情况为真返例。

真返利的数据在“检测出猫”的任务中不会被算到准确率中,基于“检测出猫”这个任务的召回率和准确率的计算为:

  • 召回率TP/(TP+FP)
  • 准确率TP/(TP+FN)

另外一种评估模型准确率的方fǎ是观察ROC、AUC和EER数据,并进行对比评估。

ROC曲线图如下:

绿线为ROC曲线。

AUCX了蓝sè面积,蓝sè面积越大,说明模型预估越准确。

EER为绿sè线上的原点,值越小X了模型的误差越小。

AI产品经理的入门必修课(2)——实战篇

#专栏作家#

大鹏,X号:一个数据人的自留地。人人都是产品经理专栏作家,《数据产品经理X手册》作者。

本文原创发布于人人都是产品经理。未经许可,jìn止转载

题图来自Unsplash,基于CC0协议。

给作者打赏,鼓励TA抓紧创作!

收藏 (0) 打赏

以上内容不错,打赏支持一下!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有教程资源,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

雄发创业网 软文营销推广 AI产品经理的入门必修课(2)——实战篇 https://www.xiongfawang.com/453.html

常见问题

相关文章

AI产品经理的入门必修课(2)——实战篇-海报

分享本文封面