产品经理如何快速测评新算法

编辑导语:如今随着X技术的不断发展,并且加之很多科技的不断进步,如今算fǎ也已经非常普及和成熟,产品经理在面对产品时会使用一些算fǎ的机制;本文作者分享了关于产品经理如何快速测评新算fǎ的思考,我们一起来了解一下。

一、前言

在人工智能已经成熟商业化的今天,我们的生活被各种算fǎ层层渗透,越来越多的产品无论是出于降本增效的目的,还是出于PRX的目的,都开始应用算fǎ。

面对算fǎ的应用,产品经理要应对的一个重要难题,就是对算fǎ效果进行测评,尤其是面对一个新算fǎ能力,测评会更加棘手。

为什么产品经理需要对算fǎ做测评呢?

对于自研算fǎ,仅有算fǎ研究员自测的实验室指标是不够的,X产品需要X自己的测评来判断算fǎ是否达到商用标准,同时也能与实验室指标形成对比,可以给算fǎ研究员作为重要参考;对于外采算fǎ,仅有供应商X的算fǎ精度报告也是不够的,我们更需要对多家供应商的算fǎ做测评,再结合X、shòu后X等因素综合决定采购合作的供应商。

按照本文X的框架,你可以“快速”完成对一个“新”算fǎ的测评。

二、算fǎ测评的基本原则

在进入测评框架的讲述前,要先明确算fǎ测评的四个基本原则,非常重要!

原则1:算fǎ能力一致

面对横向比较多个算fǎ优劣的测评,必须保证待测评算fǎ是解决同种问题或X同种功能的。

原则2:样本用例一致

同一个算fǎ,在不同样本测试集上的指标表现是存在差异的,所以无论我们的测评是横向比较多家算fǎ,还是纵向比较一家算fǎ的多个迭代版本,都必须保证采用的样本测试集和测试用例保持完全一致,这样得出的指标数值才有可比较的意义。

如果A算fǎ用a测试集,B算fǎ用b测试集,这样得出的指标数值是没有可比较性的,因为测试集不同。

原则3:执行方式一致

测评算fǎ的所有cāo作方式和环境必须保证完全一致。

原则4:评价指标一致

zhēn对同种算fǎ的测评,必须采用计算公式或统计口径完全一致的指标X。

三、算fǎ测评,拢共分几步

1. 第1步:明确算fǎ的能力范围

面对一个新算fǎ能力,首先要准确划定这个算fǎ的能力范围和边界。

所谓能力范围和边界,就是这个算fǎ能做什么不能做什么,这一点和X需qiú是强相关的;所以明确算fǎ能力范围,其实就是梳理X对算fǎ的需qiú,需qiú梳理完毕,算fǎ能力范围也就清晰明了了。

X对算fǎ的需qiú通常可来自于三个方面,一是Xfǎ规、二是客户需要、三是竞品分析;这里需要提示一点,如果X到“快速”,就必须在满足X需qiú的前提下,将能力范围最小化。

例如在笔者负责的X中,需要对用户上传的X照片中的X信息进行提取,同时还需要判断该X是原件/复印件/翻拍件。

X对X需qiú的梳理,我们已经得出了最小化的算fǎ能力范围——X光学字符识别、X原件类型识别。

在市场上成熟的OCR算fǎ厂商中,X的能力不仅仅是上述两种,还包括X反光提示、X真伪判断等等,但基于最小化原则,我们不需要追qiú全面测评,只需要关注X需要的能力。

2. 第2步:明确测评目的

测评的目的无非就是得出一个好坏的结论,也就是相互比较。从比较类型的维度划分,一般会分为横向比较和纵向比较,横向是zhēn对多个厂商的算fǎ,纵向是zhēn对同个算fǎ的多个版本。

这里有个小提示,所有的测评,都必须要有基线作为参考,否则测评是没X义的。简单来说,就是每次测评都必须是有两个或以上的结果且结果可比较。

算fǎ能力的体现,也就是算fǎ的能力类型,通常包括算fǎ精度、算fǎ性能、cāo作体验。

  • 算fǎ精度,是指在既定的测试集上,算fǎ对样本判断、分析、X的准确程度。
  • 算fǎ性能,是指在既定品牌型号的X器上,算fǎ对样本的处理速度。
  • cāo作体验,是指C端用户在设备上cāo作算fǎ应用的难易程度。

综上,测评目的可X对“比较类型”和“能力类型”的排列组合得出。

3. 第3步:明确测评的执行方式

测评的执行方式分为批量跑测和端到端测试。

批量跑测,是指X调用算fǎ模型的相关接口,将准备好的测试样本批量送入模型,并批量得到模型返回结果的测试方式。

端到端测试,是指模拟用户X使用场景,从用户设备端(X、PC等)传入测试样本,直到算fǎX端返回结果到用户设备端的测试方式。

zhēn对精度和性能的测评,我们建议采用批量跑测的执行方式,数据准、效率高;zhēn对cāo作体验的测评,一般只能X端到端的执行方式,才能准确还原Xcāo作场景。

4. 第4步:明确样本类型和用例

样本选取和用例设计是整个测评的核心,会直接影响测评结果是否能X、客观、全面的反映算fǎ能力。

不同算fǎ在样本选取和用例设计上千差万别,但有几个小方fǎ可以X给大家参考:

1)全面覆盖

根据X需qiú,样本和用例的设计要完整覆盖需要测评和需要被客观体现的算fǎ能力。如何做到完整全面的覆盖?可以采用最小颗粒chāi解方fǎ。

2)最小颗粒

根据X需qiú,将算fǎ能力chāi解到最小的颗粒度,逐一测评最小颗粒的原子能力。如何chāi解原子能力呢?这里有个小技巧,就是多问几个“为什么”,其实就是chāi解算fǎ训练原理,再根据X场景中实际会出现的情况,得出样本和用例。

以笔者上面提到的“X是否为原件的检测算fǎ”为例——

问:“为什么可以检测出图片中的X是否为原件?”

答:“因为这个算fǎ可以区分出复印件、翻拍件。”

问:“为什么可以区分出复印件?”

答:“X图片颜sè的判断。”

问:“为什么X颜sè就可以判定是复印件?”

答:“复印件有黑白复印件和彩sè复印件,黑白复印件可以直接Xsè值判定,而彩sè复印件的成像颜sè对比度一般比原件的对比度要低,且复印件的底sè背景绝大部分都是白sè。”

从上述的问答中,我们就可以chāi解出该算fǎ的样本和用例如下——

注:以上问答经过简化处理,方便理解。

3)单一变量

对算fǎ每个原子能力点的测评,可采用X变量fǎ,同时为了确保能有效反映每个原子能力的客观结果,每组样本和用例都要保证只有一个变量发生改变;因为在同一个用例中存在多个变量发生改变,我们很难区分算fǎ得出的测试集结果是由哪些变量引起的,不利于后期结果分析。

当然,如果有特殊需要,在能够明确区分变量影响的情况下,也可以采用多变量变化测试。

4)侧面转换

当X某些算fǎ能力我们无fǎ直接测评时,可采用转换fǎ,将无fǎ直接测评的能力转换为与该能力有直接关系且可测评的其他能力,从而侧面验证该算fǎ能力的效果。

5. 第5步:明确评价指标和计算公式

面对一个新算fǎ,最快了解这个算fǎ评价指标的方fǎ,就是“问”。自研算fǎ的,可以问算fǎ研究员;外采算fǎ的,可以问多家算fǎ供应商,综合选择评价指标。

1)算fǎ精度指标

精度指标因算fǎ而异,一般可分为两种类型:绝对指标和相对指标。

绝对指标通常就是准确率,是测试集算fǎ处理结果与测试集X结果差异的百分比计算,目前笔者X过的绝对指标有FAR、FRR、召回率、字符准确率。

相对指标是指设定一个基准算fǎ,锚定该算fǎ的绝对指标准确率为100%,计算其他算fǎ相对于这个基准算fǎ在指标上的差异,相对指标一般会采用均方根误差(标准误差)作为结果。

可以这么理解,统计绝对指标时,需要对测试集进行人工标注,即得到测试集真正的标准X;统计相对指标时,不需要对测试集进行标注,而是直接以基准算fǎ测试的结果为标准X。基于此我们可以得出一个小窍门,采用相对指标进行测评会更新快速,因为省去了人工标注的环节,但是测评结果会在客观性上存在一定偏差。

2)算fǎ性能指标

通常包括,并发、QPS、tūn吐量、耗时。

3)cāo作体验指标

通常包括,页面数、X数、转化率、可用率、转化率、cāo作时长。

指标制定还需注意一个小细节,就是要明确指标评判好坏的逻辑,而且尽量保证所有指标的好坏逻辑一致;例如有a、b、c三个指标,他们的评判逻辑是数值越高表示效果越好,而有d指标,评判逻辑是数值越低效果越好,这样对阅读者来说是非常不友好的。

6. 第6步:撰写测评报告

在执行完所有测试用例后,就要整理测试数据以及形成可阅读的测评报告。

以下是测评报告的章节框架,供大家参考:

1)测评背景和目标

描述发起该测评的项目背景,以及在这个背景下,该测评想要到达什么目的。

我们往往很容易忽略对背景的分析,其实这是不对的。深入了解项目背景,可以让我们准确理解项目的起因由来,从而有利于我们更准确的理解X和需qiú,能够更准确的划定各种事项边界。

试问,如果我们对一个项目为什么要做都没能理解到位,那如何能准确的评估需qiú呢?

2)X需qiú解读

需qiú的解读我们在第1步的描述中讲过,一般可来自于三个方面,一是Xfǎ规、二是客户需要、三是竞品分析;X这三个方面的分析,推导出需qiú功能。

3)竞品/供应商能力分析

对竞品的功能,或者对供应商的功能做全面的剖析。

4)测评方案描述

描述样本类型、用例设计、执行方式、评价指标(指标定义+评判逻辑)。

5)测评指标结果

展示经过统计后的各项指标数值,是测评结论的客观依据。

6)测评结论

zhēn对指标结果,给出总结性的结论,结论需要与测评目的(目标)相呼应。

认知浅薄,欢迎讨论。

收藏 (0) 打赏

以上内容不错,打赏支持一下!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有教程资源,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

雄发创业网 自媒体是如何赚钱的 产品经理如何快速测评新算法 https://www.xiongfawang.com/858.html

常见问题

相关文章

产品经理如何快速测评新算法-海报

分享本文封面