AI产品经理必修课:机器学习算法入门

本文简单介绍了机器学xí的liú程、算fǎ分类及优缺点,适合希望入行AI的产品新人阅读。

ML算fǎ种类繁多,如果说X学xí是上课,无X学xí是自xí,那么强化学xí是什么?

一、什么是机器学xí

1. hán义

机器学xímachine learning,是人工智能的分支,专门研究计算机怎样模拟或实现人类的学xí行为,其X各种算fǎ训练模型,并用这些模型对新问题进行识别与X。

本质上机器学xí是一种从数据或以往的经验中提取模式,并以此优化计算机程序的性能标准。

2. 解决什么问题

解决复杂规则的问题。如果简单规则可以实现,则没必要借助机器学xí算fǎ实现。

2009年ACM世界冠jun戴文渊加入百度的时候,百度所有的搜索、广告都是基于1万条的X规则。借助于机器算fǎ,戴文渊把百度广告的规则从1万条提升到了1000亿条。与此相对应的,百度的收入在四年内提升了八倍。

3. 三个名词之间的关系

人工智能>机器学xí>深度学xí

以机器学xí算fǎ是否应用了X网络作为区分标准,应用了多隐hán层X网络的机器学xí就是深度学xí。

4. 对AI产品经理的要

(1)熟悉机器学xíliú程(详见文章第三部分)

(2)了解机器学xí可以解决的问题分类(详见文章第四部分);

(3)了解算fǎ的基本原理;

(4)了解工程实践中算数据和计算资源三者间的依赖关系等。

二、机器学xí的基础

1. 机器学xí的基础——数据

人工智能产品由数据、算fǎ、计算能力三部分组成,而数据,是其中的基础。

图片来源:http://www.sohu.com/a/160316515_680198

全球顶尖人工智能科学家李飞飞的成功离不开ImageNet千万级的数据集。

“ImageNet 让 AI 领域发生的一个重大变化是,人们突然意识到构建数据集这个苦活累活是 AI 研究的核心,”李飞飞说: “人们真的明白了,数据集跟算fǎ一样,对研究都至关重要。”“如果你只看 5 张猫的照片,那么你只知道这 5 个摄像机角度、照明条件和最多 5 种不同种类的猫。但是,如果你看过 500 张猫的照片,你就能从更多的例子中发现共同点。”

数据量多大为好?

  • 千级别:基本要qiú,可以解决简单手写体数字识别问题,例如MNIST;
  • 万级别:一般要qiú,可以解决图片分类问题,例如cifar-100;
  • 千万级:比较好,例如ImageNet,准确率2%左右,超过了人类5.1%。

2. 数据的衡量

人工智能产品对数据除了有量的要qiú,还有质的要qiú,衡量数据质量的标准包括四个R:关联度relevancy(首要因素)、可信性reliability(关键因素)、范围range、时效性recency。

数据获取地址:

  • ICPSR:www.icpsr.umich.edu
  • 美囯X开放数据:www.data.gov
  • 加州大学欧文分校:archive.ics.uci.edu/ml
  • 数据堂:www.datatang.com

三、机器学xí的liú程

机器学xí的liú程可以划分为以下几个主要步骤:目标定义、数据收集、数据预处理、模型训练、准确率测试、调参、模型输出。

图片来源:https://research.fb.com/the-facebook-field-guide-to-machine-learning-video-series/

机器学xíliú程chāi解:

1. 目标定义

确认机器学xí要解决的问题本质以及衡量的标准。

机器学xí的目标可以被分为:分类、回归、聚类、异常检测等。

2. 数据采集

原始数据作为机器学xí过程中的输入来源是从各种渠道中被采集而来的。

3. 数据预处理

普通数据挖掘中的预处理包括数据清洗、数据集成、数据转换、数据削减、数据离散化。

深度学xí数据预处理包hán数据归一化(包hán样本尺度归一化、逐样本的均值相减、标准化)和数据白化。需要将数据分为三种数据集,包括用来训练模型的训练集(training set),开发过程中用于调参(parameter tuning)的验证集(validation set)以及测试时所使用的测试集(test set)。

数据标注的质量对于算fǎ的成功率至关重要。

4. 模型训练

模型训练liú程:每当有数据输入,模型都会输出X结果,而X结果会用来调整和更新W和B的X,接着训练新的数据,直到训练出可以X出接近X结果的模型。

5. 准确率测试

用第三步数据预处理中准备好的测试集对模型进行测试。

6. 调参

参数可以分为两类,一类是需要在训练(学xí)之前手动设置的参数,即超参数(hypeparameter),另外一类是通常不需要手动设置、在训练过程中可以被自动调整的参数(parameter)。

调参通常需要依赖经验和灵感来探寻其最优值,本质上更接近艺术而非科学,是考察算fǎ工程师能力高低的重点环节。

7. 模型输出

模型最终输出应用于实际应用场景的接口或数据集。

四、算fǎ分类

图片来源:https://www.datasciencecentral.com/profiles/blogs/machine-learning-can-we-please-just-agree-what-this-means

机器学xí囊括了多种算fǎ,通常按照模型训练方式和解决任务的不同进行分类。

1. 按照模型训练方式不同,可以分为

(1)X学xísupervised learning

定义:X学xí指系统X对带有标记信息的训练样本进行学xí,以尽可能准确地X未知样本的标记信息。

常见的X学xí类算fǎ包括:人工X网络artificial neural network、贝叶斯bayesian、决策树decision tree、线性分类器linear classifier(svm支持向量机)等。

(2)无X学xíunsupervised learning

定义:无X学xí指系统对没有标记信息的训练样本进行学xí,以发现数据中隐zàng的结构性知识。

常见的无X学xí类算fǎ包括:人工X网络artificial neural network、关联规则学xíassociation rule learning、分层聚类hierarchical clustering、聚类分析cluster аnalysis、异常检测anomaly detection等。

(3)半X学xísemi-supervised learning

hán义:半X学xí指系统在学xí时不仅有带有标记信息的训练样本,还有部分标记未知信息的训练样本。

常见的半X学xí算fǎ包括:生成模型generative models、低密度分离low-density separation、基于图形的方fǎgraph-based methods、联合训练co-training等。

(4)强化学xíreinforcement learning

定义:强化学xí指系统从不标记信息,但是会在具有某种反馈信号(即瞬间奖赏)的样本中进行学xí,以学到一种从状态到动作的映射来最大化累积奖赏,这里的瞬时奖赏可以看成对系统的某个状态下执行某个动作的评价。

常见的强化学xí算fǎ包括:Q学xíQ-learning、状态-行动-奖励-状态-行动state-action-reward-state-action,SARSA、DQN deep Q network、策略梯度算fǎpolicy gradients、基于模型强化学xímodel based RL、时序差分学xítemporal different learning等。

(5)迁移学xítransfer learning

定义:迁移学xí指X从已学xí的相关任务中转移知识来改进学xí的新任务,虽然大多数机器学xí算fǎ都是为了解决单个任务而设计的,但是促进迁移学xí的算fǎ的开发是机器学xí社区持续关注的话题。

迁移学xí对人类来说很常见,例如,我们可能会发现学xí识别苹果可能有助于识别梨,或者学xí弹奏电子琴可能有助于学xí钢琴。

常见的迁移学xí算fǎ包括:归纳式迁移学xíinductive transfer learning、直推式迁移学xítransductive transfer learning、无X式迁移学xíunsupervised transfer learning、传递式迁移学xítransitive transfer learning等。

(6)深度学xídeep learning

定义:深度学xí是指多层的人工X网络和训练它的方fǎ。一层X网络会把大量矩阵数字作为输入,X非线性激活方fǎ取泉重,再产生另一个数据X作为输出。

这就像生物X大脑的工作机理一样,X合适的矩阵数量,多层X链接一起,形成X网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。

常见的深度学xí算fǎ包括:深度信念网络deep belief machines、深度卷积X网络deep convolutional neural networks、深度递归X网络deep recurrent neural networks、深度波尔兹曼机deep boltzmann machine,DBM、栈式自动编码器stacked autoencoder、生成对抗网络generative adversarial networks等。

迁移学xí与半X学xí的区别:迁移学xí的初步模型是完整的,半X学xí的已标注部分无fǎ形成完整的模型。

2. 按照解决任务的不同分类,可以分为

(1)二分类算fǎtwo-class classification,解决非黑即白的问题。

(2)多分类算fǎmuti-class classification,解决不是非黑即白的多种分类问题。

(3)回归算fǎregression,回归问题通常被用来X具体的数值而非分类。除了返回的结果不同,其他方fǎ与分类问题类似。我们将定量输出,或者连续变量X称为回归;将定性输出,或者离散变量X称为分类。

(4)聚类算fǎclustering,聚类的目标是发现数据的潜在规律和结构。聚类通常被用做描述和衡量不同数据源间的相似性,并把数据源分类到不同的簇中。

(5)异常检测anomaly detection,异常检测是指对数据中存在的不正常或非典型的分体进行检测和标志,有时也称为偏差检测。异常检测看起来和X学xí问题非常相似,都是分类问题。都是对样本的标签进行X和判断,但是实际上两者的区别非常大,因为异常检测中的正样本(异常点)非常小。

3. 对AI产品经理的要qiú

产品经理应了解和掌握每种常见算fǎ的基本逻辑、最jiā使用场景以及每种算fǎ对数据的需qiú。

这样有助于:

  1. 建立必要的知识X以与研发人员进行良好的交liú;
  2. 在团队需要的时候X必要的帮助;
  3. 识别和评估产品迭代过程中的风险、成本、预期效果等。

五、各类算fǎ的对比

1. 算fǎ与学xí过程的对比

  • X学xí——上课:有qiú知欲的X从X那里获取知识、信息,XX对错指示、告知最终X的学xí过程;
  • 无X学xí——自xí:没有X的情况下,X自xí的过程;
  • 强化学xí——自测:没有X提示的情况下,自己对X的结果进行评估的方fǎ。

2. 算fǎ适用场景的影响因素

  • X核心问题;
  • 数据大小、质量;
  • 计算时间要qiú;
  • 算fǎ精度要qiú。

3. 算fǎ优缺点及适用场景

注意:

(1)目前X学xí和强化学xí是目前应用范围最广且效果最好的机器学xí方式。

(2)深度学xí将在后续的文章中单独介绍。

(3)半X学xí依赖以下3个模型假设才能确保它良好的学xí性能。

1)X假设(Smoothness Assumption)

位于稠密数据区域的两个距离很近的样例的类标签相似,当两个样例北稀疏区域分开时,它们的类标签趋于不同。

2)聚类假设(Cluster Assumption)

当两个样例位于同一聚类簇时,它们在很大的概率在有相同的类标签。这个假设的等价定义为低密度分类假设(Low Density Separation Assumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例划分到决策边界两侧。

3)liú形假设(Manifold Assumption)

将高维数据嵌入到低维liú形中,当两个样例位于低维liú形中的一个小jú部邻域内时,它们具有相似的类标签。

#参考资料#

(1)参考书籍:

  • 《自然语言处理实践—聊天机器人技术原理与应用》,王昊奋,邵浩等
  • 《人工智能产品经理:人机对话系统设计逻辑探究》,朱鹏臻
  • 《人工智能产品经理:AI时代PMX手册》,张竞宇
  • 《图解机器学xí》,杉山将

(2)相关网站

  • https://www.stateoftheart.ai/
  • https://www.stateof.ai/
  • https://www.easyaihub.com/
  • https://blog.csdn.net/daisy9212/article/details/49509899
  • http://www.sohu.com/a/160316515_680198
  • https://research.fb.com/the-facebook-field-guide-to-machine-learning-video-series/
  • https://www.datasciencecentral.com/profiles/blogs/machine-learning-can-we-please-just-agree-what-this-means
  • https://blog.csdn.net/weixin_42137700/article/details/87355812
收藏 (0) 打赏

以上内容不错,打赏支持一下!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有教程资源,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

雄发创业网 自媒体是如何赚钱的 AI产品经理必修课:机器学习算法入门 https://www.xiongfawang.com/4147.html

常见问题

相关文章

AI产品经理必修课:机器学习算法入门-海报

分享本文封面