如何利用A,如何使用UX

原标题:案例分析:国外运动社交平台 Strava 爆红,这是它们的设计增长实验

本文源于A/B测试 by Google(免费课程)学习总结,共计22小时,本文仅是对课程第一节内容的学习总结,后续的课程中详细论述了学习如何选择和验证你的实验中所使用的指标,如何设计一个完整的A/B测试,如何科学的分析你的实验结果,感兴趣的朋友可以点击连接观看并深入学习,也希望大家可以一同学习并深入交流在实际工作中的A/B测试情况。

当我们描述事物探讨问题的时候,合理的量化能让人更容易理解,也让交流更顺畅。比如你要描述越南香菜泡面的难吃,吃一口吐5分钟比很难吃更到位,不是么?虽然数字并不足以描述整个故事,但是可以让你简单直接设身处地的明白胃部翻滚的状态。那么对于用户体验,能否量化呢?当然可以。

AB测试介绍

Strava 是一款专为运动爱好者设计的测速APP,同时也是当下爆红的运动达人社交平台。

Strava 公司总部位于美国旧金山,由 Mark Gainey 和 Michael Horvath 共同创立。截至2017年秋天,Strava 已累计获得7000万美元的投资。

本文作者 Paolo Ertreo(Strava 产品设计师)将结合实际案例,跟大家分享 Strava 是如何通过增长实验,在运动达人圈中逐渐扩大影响力的。

一、A/B 测试概述

A/B test概念:A/B测试是一种用于在线测试的常规方法,可用于测试新产品或新功能,需要设置两组用户,将其中一组设置为对照组,采用已有产品或功能,另一组采用新版产品或功能,通过对比分析上述用户做出的不同响应数据,确定哪个版本更好。

A/B test 适用场景:通过大范围的用户数据观察,如新功能界面中增加了内容,不同的外观,不同的按钮配色,都可以使用A/B测试,帮助产品持续优化。案例:google曾在用户界面中运行了42不同蓝色阴影,观察用户有什么反响。amazon做过测试,每个页面增加100毫秒延迟,收入会降低1%,google也得出类似结果。

A/B test 局限性:A/B测试不适合做全新体验的效果评估,因为全新的体验存在两个问题,比较基准是什么?数据对比需要多长时间才能看到效果?(面对低频服务-如租房,很难通过A/B测试看出推荐对于人们的行为影响)。

A/B test 练习题(评论区写下你的选项,回复给你正确答案):

1、在以下什么情况下你可以考虑A/B测试?

A:你想要知道你的电商网站是否完整,是否存在用户想要购买但是平台无法提供的商品

B:公司已经有了免费服务,但想要提供有其他功能的高级服务,需要客户升级或付费

C:假设一个网站提供电影推荐服务,通过新的算法对可能的建议进行排序

D:假设你想要改变基础架构的后台,会影响到页面加载速度和用户看到的显示结果

E:一个汽车销售网站,考虑做出改变,想知道改变是否更可能再次访问网站或者向他们的朋友推荐

F:假设一家公司想要更新他们的品牌形象,如主页的logo,改版后对用户行为产生哪些影响

G:假设你想改版移动应用首页,想要调整信息架构,观察对用户行为产生哪些影响

当A/B测试不适用时,可以通过用户操作日志检查或观察来分析,也可以通过随机的试验,进行前瞻性分析。也可以使用焦点小组,面对面沟通,问卷调查,用户评价分析等方法获得定性数据,补充A/B测试的定量测试结果。

实操案例设计:wap首页改版,wap首页作为导流落地页,主要功能为引导用户完成注册。

图片 1

什么是AB测试?

A/B Test 是一个用于在线测试的常规方法,用于测试新产品或新功能。

图片 2

二、A/B 测试度量选择

A/B测试前一定要设计合理的测试度量指标,通过审核核心指标判断不同测试版本的效果如何,如果需要测试首页改变对于用户注册带来的效果,可以使用独立访客点击率作为测试首页改变的度量值。

独立访客点击率=独立访客点击注册按钮数/独立访客登录首页数

实操案例设计:

独立访客注册按钮点击率=独立访客点击注册按钮数/独立访客登录着陆页数

独立访客注册完成率=独立访客注册完成数/独立方可登录着陆页数

尽管用户体验是定性地提高用户交互的品质和总体的满意度,但是它有必要进行量化,并对其进行度量。而用户体验的KPI (UX KPI) 就是用来干这个的。

如何操作

我们需要设置两组用户,一组设置为对照组,采用已有的产品或功能,另一组为实验组,采用新版产品或功能。
然后,找到上述两组用户做出的不同响应,确认哪个版本的功能更好。

在Strava,增长团队的目标是扩大这个世界上最活跃的运动员社群。

三、二项分布和置信区间

样本数不同,则结果的置信度会收到影响,第一组实验,独立访客点击注册按钮数=100,独立访客登录首页数=1000,这注册改版后的独立访客点击率=100/1000=10%,那么在做一组实验,如果独立访客点击注册按钮数=150,是否异常?可以利用统计学知识进行测算测试结果是否可信。

数据中经常会有特定的一些分布,帮我们了解数据变化规律,如正态分布,T分布,卡方分布等。我们关于首页点击情况符合二项分布。

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。--【源自百度百科】

二项分布需要满足以下条件:两种结果;实验彼此独立,不相互干扰;事件要遵循同一种分布。

平均概率:p=x/n

检验是否符合正态分布:n*p>5,n(1-p)>5

置信区间宽:m(误差幅度)=z(置信度)*SE(标准差);SE=√ ̄(p(1-p)/n)

μ±1.96标准误之间包含所有平均数的95%,

μ±2.58标准误之间包含所有平均数的99%

KPI是什么?

A/B Test 适用情况

存在明确的对照组和实验组,能够选择合适的指标评估此类改变,适合使用A/B Test。

  1. 我们可以通过A/B Test 对很大范围的事情进行测试,比如增加一些新功能,或界面中增加的内容,网站的不同外观等。
  2. 我们还可以将A/B Test用于十分复杂的改变,例如排名变动。
  3. 我们也可以针对不确定用户是否会注意到的改变进行测试,例如页面加载时间。

A/B Test 案例如下:

  1. Amazon首次开始做个性化推荐时,他们想看一下用户是否真的会购买更多商品,他们发现,由于个性化推荐,他们的收益有了显著增加。

  2. Linkedin测试了一个改变,尝试确定他们是否应显示新文章还是鼓励大家增加新联系人,这就是排名变动。

  3. 100ms的页面加载时间不是很多,但是 Google 和 Amazon 都运行了测试。Amazon 在2007年证实,每个页面增加 100ms 的延时,会导致收入降低 1%。对于Google,也得到了相似的结果。 你可以发现,平均来看,100ms 看起来并不多,但每增加 100ms 的延迟,人们查询的数量真的降低了。

这就是可以从 A/B Test中学到的东西。

为了实现这个目标,从新用户了解Strava,到他们第一次使用这个产品,我们的团队都要为他们的体验负责。我们的目的就是让用户相信,无论他们是谁,Strava都是帮助他们实现运动目标的正确选择。

四、统计显著性分析

假设检验或推断是统计学中的一个概念,以量化的方式,确定你的结果发生的概率。

首先我们需要一个零假设或者说基准,也就是对照组和实验组之间的概率没有区别,然后要考虑的是备择假设。要想确保结果具有统计显著性,那么需要计算结果是偶然出现的可能性。要计算这个概率,你需要先假设,如果实验没有效果结果会怎么样,这就是所谓的零假设,记为Ho,我们还需要假设如果实验有效,那结果会是怎样,这称为备择假设,记为HA。

合并标准误差(实验中观测差异是否具有统计显著性)

Xcont,Xexp;Ncont,Nexp;

Pexp=Xcont/Ncont;Pcont=Xcont/Ncont

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

H0:d=0,d~N(0,SEpool)

if d-1.96*SEpool>0 or d+1.96*SEpool<0,则可以拒绝零假设,认为差别具有统计显著性

从商业角度来说,2%的点击概率改变就具有实际显著性。

不同的实验观测样本数量,直接影响实验的有效性,那么如何设计科学的A/B测试呢?可以考虑使用下方工具,根据输入数值,自动计算合理的实验组和对照组的观察人数。

在线测算实验人数工具

工具说明

Significance level α:显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。显著性是对差异的程度而言的,程度不同说明引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是在进行假设检验时事先确定一个可允许的作为判断界限的小概率标准。

Statistical power 1−β:统计功效(statistical power )是指, 在假设检验中, 拒绝原假设后, 接受正确的替换假设的概率。我们知道,在假设检验中有α错误和β错误。α错误是弃真错误, β错误是取伪错误。取伪错误是指, 原假设为假,样本观测值没有落在拒绝域中,从而接受原假设的概率,及在原假设为假的情况下接受原假设的概率。由此可知, 统计功效等于1-β。

首先要设计实验,鉴于可以控制对照组和实验组的网页浏览量,我们必须要确定,为获取统计显著性的结果,最能获取统计显著性的结果,这称为统计功效。功效与规模呈负相关,你想要探索的改变越小,或者是你想要的结果置信度越高你需要运行的实验规模就越大,这就是对照组和实验组需要更多的网页浏览量,大家可以尝试在计算器中修改数据,观察实验样本数量,如修改最低可观测效果,修改基准转化率,修改统计功效,修改显著性水平。

KPI 的全称是Key Performance Indicators,也就是关键绩效指标,是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标。简而言之,就是用系统的方法量化衡量进步程度。

A/B Test 不适用的情况

  1. A/B Test 无法真实的告诉你是否遗漏了什么东西。
    例如:亚马逊想知道页面上是否有用户需要,但是他们还没有提供的商品。这种情况没办法用 A/B Test 来寻找答案。
  2. A/B Test 不适用与测试新的体验。
    例如:某 SaaS 公司已经有了免费服务,例如有待办事项列表。他们想提供带有其他功能的高级服务,如需使用高级服务,用户需要升级,创建登录账户,并探索新的功能。
    这种情况下,也不适合用 A/B Test 来寻找答案。
  3. A/B 不适用与需要很长时间才能验证的测试。
    例如:某租房网站,想测试促进用户推荐页面给好友有没有效果,但是这个效果检验需要很长时间,可能是一周,可能是半年,一年。因为租房并不是经常发生的。这种情况也不适合。

另外,当你测试新的体验时,你当前已有的那些用户,可能会觉得改变了他们的体验,这被称为改变厌恶症;
另一种情况是,他们觉得这些都是新的,然后尝试所有东西,这被称为新奇效应。

通过数据观察和研究,我们将团队的目标和具体的项目联系起来,然后通过实验不断检验我们提出的假设是否符合用户的实际使用情况,再不断迭代优化,逐步缩小与目标的差距。

五、案例实操分享

而用户来衡量用户体验的KPI就是我们所说的UX KPI。

对于不适用情况,补充技术

用户在你的网站上进行操作的日志,可以通过检查或观察分析日志,得出结论,是什么原因造成其行为的改变。
然后可能要沿着这个方向努力,然后设计实验,完成随机化和试验,进行前瞻性分析。

可以把两种技术结合来使用:
查看操作日志得出假设,运行A/B Test验证你的理论是否合理。

还有一些其他技术:

  1. 用户体验研究
  2. 焦点小组
  3. 调查
  4. 人为评价

A/B Test 可以给我们大量宽泛的定量数据,而上述技术可以给我们非常深入的定性数据作为A/B Test 的补充。

这些技术可以告诉我们该爬哪座山,也就是得出假设。

设计增长

5.1 实验设计背景

案例背景概述:wap首页改版,wap首页作为导流落地页,主要功能为引导用户完成注册。满足二项分布

计算最小实验样本:利用上图工具,我们将dmin定为2%,意思是新版本用户转化增加超过2%才有效,置信区间选择95%,经过计算最小实验样本数为3623人。

主要的UX KPI

设计A/B 测试

在网络世界中,当你做 A/B 测试时,要谨记的一件事是,确定用户是否会喜欢这个新产品或新功能;
所以在进行 A/B 测试时,你的目标是设计一个合理且能够给到你可复验的结果,让你能够很好地决定是否要发布一款产品或功能。

与任何产品设计师一样,增长设计师一定是良好用户体验与高商业价值的积极推动者,并且,他会始终力求在两个目标之间达成平衡,这样才能确保设计的产品既具备可用性,又拥有市场。

5.2 实验中需要用到的公式和评估标准

需要获取信息:

对照组原首页一定时间内独立访问用户数:Ncont,点击注册按钮的独立用户数:Xcont,最小显著性:dmin,置信度区间:95%时z=1.68。

观察组新版首页一定时间内独立访问用户数:Nexp,点击注册按钮的独立用户数:Xexp。

计算合并标准误差:

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

(d-m,d+m)

通过上诉公式套用,可以计算出d和m值,那么在什么情况下可以判定优化后是否具有实际显著性,全面推广改版呢?

如下图所示,当d>0时,d-m>dim我们说更新具有显著效果

当d<0时,d+m<-dim,我们可以得出结论,实验版本失败。

其他情况要么得出实验不具有统计显著性,要么需要进一步调整优化实验。

相比于更容易量化的销售、营销和财务上的KPI,用户体验的KPI稍有不同,因为交互和体验的效果更多是反映在人们的行为和态度上,而这些东西其实难于体现在数字上,而另一方面,通过持续的跟踪观察我们可以清晰地了解产品在易用性上的变化幅度。

A/B 测试的方法

一般来说,在科学领域,假设检验是确定创新的关键方法。
在A/B测试中,我们最想看到的是对照组和实验组返回一致的响应,让你能真正地决定试验的结构,确定实验组和对照组是否有很明显的行为改变。

增长设计师必须在项目中不断试验、摸索。我们一般会从一些小的设计着手,这样才能快速学习和检验假设。

5.3 数值案例分析

经测算我们得出如下数据:

Xcont=974,Ncont=10072,Xexp=1242,Nexp=9986,dmin=2%,置信区间选择95%,则z=1.96

Ppool=(Xcont+Xexp)/(Ncont+Nexp)=(974+1242)/(10072+9986)=0.111

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))=√ ̄(0.111*(1-0.111)*(1/10072+1/9986))=0.00445

d=Xexp/Nexp-Xcont/Ncont=1242/9986-974/10072=0.0289

m=z*SEpool=1.96*0.00445=0.0087

最小值d-m=0.0289-0.0087=0.0202,最大值d+m=0.0289+0.0087=0.0376,

因为:d>0,dmin<d-m

所以:实验结果具有统计显著性,同时增长超过2%,具有实际显著性,得出结论,新版首页对于注册有更好的转化效果,应该替代原版首页。

笔者正在深入学习A/B测试后面的课程,也希望大家可以一同学习并深入交流大家在实际工作中的A/B测试情况。

一张图看懂A/B测试

用户体验设计团队可能会通过定性和定量两大类KPI来评定用户体验。

选择和测量指标

在小范围的测试后,如果实验失败了,那就意味着这个失败的实验无法被推广到整个用户群体中。因此在设计时,我们会考虑如何合理分配有限的时间和资源。我们常常问自己:在用户体验中设计某个具体环节对实验结果有正面的又可衡量的影响吗?如果没有,我们会把这些环节的设计推迟到后期,等目前的实验成功后再做。这种方式确保了我们以最低成本的方式检验假设。

定量的用户体验KPI:

指标的作用

选择一个或多个指标是因为我们需要,明确如何判断实验组比对照组的好坏。

在决定如何定义指标之前,我们要考虑会用这些指标来做什么。
有两种指标:

  1. 不变指标
  2. 评估指标

在做实验的同时,我们还会讨论数据,因为我们非常清楚设计的好坏必须是可以衡量的。当然,除了数据之外,我们也会通过定性反馈来验证实验的结果。在大项目中,我们会开展用户访谈,获取定性数据;而在小项目中,我们在一开始就会做可用性测试来发现用户在使用过程中可能会遇到的问题。这些做法保证了我们的设计一直以数据为驱动,以用户为中心。

1、任务成功率

不变指标

用于不变量检查:这些指标在实验组和对照组中都不会更改。

例如:

  1. 如果运行一个实验组和一个对照组,对比项目总体是否相同。例如两组中用户数量是否相同;分布是否相同;是否具有可比较的各个国家的用户数量;或各个语言的用户数量;
  2. 目的:需要进行这些完整性检查,确保实验能够顺利实施。
  3. 通过这些不变指标,我们可以看到实验是否受到其他非需要因素的影响,是否会对于我们判断结果造成影响。

我们的设计流程 1. 提出假设

2、任务耗时

评估指标

用来评估实验效果的指标。通过该指标,比较实验组和对照组是否存在显著性差异,从而判断新功能是否最终被采纳。

通常,我们的增长团队会以小组为单位提出想要验证的假设,以及希望通过实验提升的业务指标。

3、搜索和导航的使用率

如何对指标进行定义?

  1. 要为一个指标想出一个高级概念,也就是一句话总结,让每个人都能理解这个指标。例如“活跃用户”或“点击概率”。
  2. 确定各个细节。例如你想测定活跃用户,那你如何定义活跃?哪些事件可以算为活跃?
  3. 进行单独数据测量之后,你需要将它们总结为一个指标,有点像概括或计数,可能是一个平均值,中位数等
  4. 总结后,就得到了一个完整的指标定义,可以进行完整性检验。
  5. 最后使用一个指标时,需要考虑这个指标是否普遍适用
  6. 对于评估指标,可以没有那么完美,但是适用于整套测试,能够用来对比;

这些指标是根据公司的整体目标而定的,可以定量,也可以定性,又或者是两者相结合。

4、用户报错率

困难指标

  1. 不能直接访问他们想要的数据,不知道怎么计算;
  2. 需要太长时间

需要避免。

我们的假设就像指引方向的北极星,使我们脚踏实地专注于实现KPI,并确保我们的设计开发工作在原定范围内进行。

5、系统可用性量表(SUS)

指标定义

定义 1(Cookie 概率):对于每个 <时间间隔>,点击的 Cookie 数量除以 Cookie 总数
定义 2(网页流量概率):<时间间隔> 内点击的网页浏览量除以网页浏览量总数
定义 3(比例):点击数除以网页浏览量总数

关于数据采集和指标定义:

  1. 在进行差异性计算之前,我们需要先弄清楚,数据采集和指标定义有没有问题;
  2. 需要将定义标准化
  3. 由于收集数据的技术很多,所以要确认使用了什么技术

需要考虑指标的敏感性和稳健性

  1. 设计实验

定性的用户体验KPI

敏感性和稳健性

  1. 能够捕捉到你所关心的更改的指标,这就是稳健性的概念。当不发生任何有趣的事情时,它不会发生太大改变
  2. 如何测量敏感性和稳健性?
    1. 使用实验或使用你已经有的实验;
      例如,在视频延迟示例中,我们可以实施一些简单的实验,我们可以提高视频的质量,在理论上,我们可以增加用户加载时间,我们可以看看你感兴趣的指标是否对这种情况做出响应
    2. 也可以使用A/A实验,看它们是否太敏感
      1. 在这个实验中,你不需要改变任何指标,只将能看到相同信息的人们进行比较,看看你的指标是否显示两者之间的差别
      2. 通过这个关键元素,你可以确保不会将一些实际上没有任何意义的东西认为是重要的
    3. 对你记录的回顾性分析
      1. 如果你没有数据,或做不了新的实验,回头看看你对你的网站做过的更改,看看你感兴趣的这些指标是否和这些更改一同发生了变化;
      2. 或者你可以只看指标历史,看看你是否能够找出主要更改的原因

在Starva,每个项目都对应我们试图改善的特定指标。简单的指标包括下载和注册率,更复杂和长期的指标则包括用户留存率或活动上传率。

1、被反馈的期望和业绩

如何计算指标差异性

我们需要弄清楚,是客观因素导致指标有了变化,还是改变以后让指标有了变化。例如,学习平台节假日流量会增加。

为了更严谨,我们需要为指标计算置信区间。

  1. 需要了解其分布情况
  2. 需要了解指标的方差和标准偏差

对于二项分布

  1. 标准偏差SE = sqrt(β(1-β)/ N)
  2. 置信区间宽度(误差范围)m = z*SE
  3. N越大,越趋近于正态分布

我们把每一次设计都当作一次实验,而实验的目的就是快速学习用户行为,并确认或推翻先前的假设。

2、总体满意度

案例

对于你选择作为评估指标的每个度量,假设有5000个cookie样本访问课程概述页面的情况下,分析估计一下其标准偏差(保留4位小数)
(注:请确保搞清楚每个对应5000次页面浏览的度量需要多少分析单位。)

基准值如下:

指标 基准值
每天访问课程概述页面的独立cookie 40000
每天点击“开始试用”的独立cookie 3200
报名参加免费试用的用户数量 660
点进概率 0.08
总转化率 0.20625
留存率 0.53
净转化率 0.1093125

从上面的表格可以看出,点进概率为0.08

故5000个样本的中,每天点击“开始试用”的独立cookie为 $50000.08 = 400.0 , 5000660/40000 = 82.5 $

则总转化率的标准偏差为:
$sqrt{(0.2063*(1-0.2063)/400)} = 0.0202324189112424 $

净转化率的标准偏差为:
$sqrt{(0.1093*(1-0.1093)/400)} = 0.0156007620006204 $

留存率的标准偏差为:
$sqrt{(0.53*0.47/82.5)} = 0.0549490121785091 $

为了说明这一点,我来举个例子—— Strava的活动标记功能(如下图)。

接下来我们看看每个KPI指标是如何进行测量的。

计算经验方差

分析变异性和经验变异性匹配的条件是 unit of analysis = unit of diversion。(分析单元 = 转移单元)

例如参照上述数据:

  1. 总转化率的分析单位是cookie,转移单位也是cookie,故总转化率的分析变异性和经验变异性匹配;
  2. 净转化率的分析单位是cookie,转移单位也是cookie,故净转化率的分析变异性和经验变异性也匹配;
  3. 留存率的分析单位是user-id,转移单位是cookie,故留存率的分析变异性和经验变异性不匹配,根据经验计算的变异性可能会远大于分析变异性。在这种情况下,应该为留存率收集变异的经验估计。

如果分析单元和转移单元不相等的情况下,在条件允许的情况下,我们可以为指标收集变异的经验估计。

经验方差的计算方法:

  1. 使用A/A实验
    1. 一个对照组A对比另外一个对照组A,实际上用户看到的东西是没有什么改变的,意味着你观察到的所有差异,都是潜在的差异性
    2. 可以使用A/A实验实际测试指标的敏感性和合理性,如果在A/A实验中,指标的差异性较大,可能在A/B测试时,敏感性太高
    3. 所以可以用A/A实验来测试差异性
    4. 运行更多的A/A测试,会有明显的边际效益递减
    5. 一个关键的经验法则就是:标准偏差与样本量的平方根成正比
  2. 做一个规模很大的A/A实验,在统计学中有种方法叫 bootstrap(自助法),你可以将很多的样本随机地划分为一堆小样本群,然后可以对这些随机地子集进行对比

计算经验分布的好处:

  1. 健全性检查

    1. 如果你已经对置信区间完成的分析计算,你可以检查A/A测试结果是否符合你的预期,这是一种完整性检查功能
    2. 如果你检查出不符合你的预期,表明你的计算出了错,可能你对数据分布的假设是无效的
  2. 计算置信区间

    1. 如果你想要对指标分布进行假设,但是不能分析估计方差,你可以通过实证预计方差,然后用你关于分布的假设,按照之前的方式计算置信区间
    2. 如果你不想对数据做出任何假设,你可以直接从A/A测试的结果中估计置信区间
    3. 假设置信区间为95%,实际有40组值,这去掉最小值和最大值,所得的范围即为置信区间

未完待续,请查看下一篇。

图片 3

1、任务成功率

备注:

任务成功率也被成为任务完成率,它指的是正确完成任务的用户所占的百分比。这可能是反映用户正确有效完成某些任务最常见的指标了,只要任务或者项目有明确的目标和终点,比如完成登记表、购买产品、等等,我们都可以对它的任务成功率进行量化测量。所以,在做数据搜集之前,我们首先要界定成功和完成是什么。

  • 初始版本(左图):用户可以从活动视图中邀请朋友
  • 后续升级版本(右图):用户可以添加其他Strava用户或无运动记录的朋友

图片 4

我们最初做这个改版实验时,就是想要验证这个假设:对于曾经和自己一起锻炼过但没有记录活动数据的小伙伴(也可能是还没加入Strava),Strava 用户有很高的意愿邀请Ta一起来记录。

尽管并没有详细指明用户为何会失败,但是这个KPI还是非常有用的。

为了验证这个假设,我们首先推出了一个简化的功能,让用户能通过活动详情表中的本地共享列表,邀请其他人加入Strava社群。

此外,记录用户一次成功(完成)的成功率也很重要,之后还需要记录随着时间推移,任务成功率在用户有了经验积累之后的变化过程。这个动态的数据变化可以反映出整个体系的可学习性如何,这也是反映整个用户体验设计的成功与否的重要指标。任务成功率越高,变化曲线约陡峭,用户体验越好。

图片 5

2、任务耗时

备注:用户界面和复制测试旨在增加功能使用频率和对外邀请次数

任务耗时通常指的是完成任务所需的时间。用户在完成整个项目或者任务所耗费的时间有多长,耗时多少分多少秒,都记录下来。更详细一点,用户在不同环节上分别耗时多少,总共耗时多少,这些时间数据可以用来分析,并且按照不同的需求来进行呈现,最常见的记录方式是每个项目的平均时长。

当我们的初始假设通过了验证(经过了多次复制和用户界面测试),我们就推出了一个更精致的版本:用户可以分享活动副本而不仅仅是发出邀请。接收副本的用户收到提示后,可将副本保存到个人档案,并进行个性化处理。

当你诊断问题的时候,这是一个颇为有用的指标。当你将不同迭代阶段的同一项目的任务耗时放在一起的时候,你就能清晰地看到整个动态过程,并且对于用户体验的变化有更为全面的了解。

紧接着,我们又推出了最新版本:用户除了邀请尚未加入Strava的朋友之外,还可以轻松添加其他Strava用户。

通常,任务耗时越短,用户体验越好。

  1. 进行实验

3、搜索和导航的使用率

实验设计完成后,我们就开始在一部分用户中进行了小范围的测试。

这也是用来评价信息架构和导航效率的重要指标。通常当用户通过导航找不到东西的时候,搜索引擎就是最后的选择了。

在A/B测试或多变量测试中,我们都会将实验组(新版本)和对照组(旧版本)进行对比。在正式发布新的用户体验或功能之前进行检验,能让我们将新功能隔离出来测试,在结果与预期有差距时对该功能进一步迭代优化。另外,我们可以选择不同语言(例如英语)进行测试,从而跳过本地化的测试步骤,进一步加快测试进程。

图片 6

图片 7

我们有很多不同的方法来跟踪相关的数据,我们可以设定一个评价信息架构可用性的任务,比如在某个电商网站寻找或者购买某个产品,看看有多少用户使用导航,多少使用搜索引擎。

备注:A/B测试的一个例子。我们的假设是,在应用程序加载后马上浮现注册窗口可以提高注册率,特别是通过Facebook。

4、用户报错率

当然,有些情况下,我们并没有将已有的用户体验环节作为对照组,比如当我们推出全新功能的时候。活动标记功能就是一个例子。

评价用户使用体验的时候,报错的比例是个非常实用的指标。用户在哪个环节报错,出现了什么样的错误,牵涉到什么功能或者什么产品,出错频率和比例如何,出错类型有哪些,以及整个产品的可用性到底咋样。错误和可用性之间有着密切的关系,甚至可以说两者是正相关的。

我们推出该功能的假设是:与普通邀请相比,让用户邀请和自己一起锻炼但没有记录运动行为的小伙伴,可以促进更多的“邀请行为”。这是一个新的功能,没有历史数据可以做对比。不过,我们可以将该功能与旧版的普通邀请功能进行比较,因为它们使用的KPI(新注册用户数)相同。

当我们说错误的时候,我们指的是用户犯的错误。以用户在任务栏输入网站网址这件事为例子,我们来说说报错率的算法。首先,我们需要明确地定义怎么操作算是错误,并界定部分错误算不算错误。

最终,在测试期间,与普通邀请功能相比,活动标记功能让发出的邀请数增长了五倍。

根据某项任务中用户犯错的数量、以及你的最终目的,报错率的计算方法有几种不同的方式。

图片 8

1、比如某个项目会有一种或者几种不同的错误,而你只想监测其中的一种,那么你的计算方法,可以是用用户犯一种错误的数量除以所有犯错的数量来计算报错率。

备注:对两个具有相同KPI(发出邀请次数、新注册用户数)的功能进行对比

图片 9

  1. 评估实验

2、如果某个任务有多种不同的错误,那么你想监测所有用户的平均犯错率,你可以用错误的操作数来除以所有操作数就可以算出来了。

我们会在实验独立运行一段时间(通常是两周),或者达到数据显著性之后回到实验本身,以小组为单位深入研究数据、分析结果。

图片 10

在某些情况下,达到数据显著性需要几个星期,甚至几个月,比如测试一些较少被用户使用的功能时。此时我们会选择A/B测试而不是多变量的测试,从而将用户的浏览或流量分布限制为双变量分布,这有助于我们加快学习进程。

5、系统可用性量表(SUS)

  1. 决定功能是否推广

SUS可能是用来评估单个用户使用某个产品的可用性的时候,最常见的指标了。但是这一项KPI是基于用户调研的,但是又不能仅仅基于统计数据。它需要用户参与,并且作为可用性测试的组成部分。通俗点说,SUS是一种用来量化定性数据的方法,比如用户体验的满意程度。SUS的评估体系采用的是5分制,将满意程度划分为10个不同的等级和对应的内容描述。

基于积累的认知,我们会再决定实验的新功能是否推广,成为用户体验的一部分。

参考这个模板,我相信你就能明白SUS是怎么运作的。

如果实验成功,假设被验证,那么,我们就会把新功能推广到整个用户群体中。如果实验失败,我们会在产品分析师的帮助下,对数据进行深入挖掘。产品分析师会分析实验结果不如预期的原因,为我们后续改进设计提供有用信息。当然,我们也会回顾最初的研究和可用性测试,希望从定性的角度,获取那些能够帮助我们准确理解定量数据的信息,从而更全面地把控整个项目。

定性的用户体验KPI

  1. 发挥量化数据的杠杆作用

一般说来,定性的信息更难搜集,但是相比于原始数据,它更有效也更有参考价值。所以,要获取定性的用户体验KPI,需要以调查的方式,同参与可用性测试的用户进行交流来获取,了解用户反馈信息的所处环境,来龙去脉。

在Strava,我们的方法不总是纯粹量化与科学的。

获取这些KPI相对更加耗时,也需要投入更多的精力,并且无法量化。

我们会进行早期用户研究,用定性方法验证我们的假设并收集一些早期的“信号”,这些“信号”能告诉我们目前的项目是否具备潜力驱动增长团队最关心的指标。如果没有,我们会考虑把项目所有权转交给其他团队,或者确保我们之后将工作精力集中在产品最有增长潜力的部分。如此一来,增长团队认为无效的假设,对于有不同商业目标的团队来说依然非常有价值。

结语

再举个例子吧。我们的增长团队从一个实验中了解到:与对照组相比,对手机页面展示内容的方式做一处特殊改动,能让用户邀请好友的次数翻倍。因此,当相关领域的团队着手更新产品时,他们充分利用了增长团队获得的定量数据和其他定性研究成果,让产品性能最大化。

UX KPI 是向整个团队、领导和股东展示产品效果的重要方式,并不需要极为专业的数据分析人员或者数据挖掘专家,就可以由UX团队自行完成分析,便于理解,易于消化。根据产品和服务类型的不同,团队可以跟踪不同的数据,随着需求随时设定新的测量指标,更加具体的KPI,这些会对整个用户体验设计有极大的帮助。

结论

以增长为导向的产品设计方法能确保你快速且有针对性地检验假设。你可以从想要检验的假设着手,确定实验想要改善的指标。记住,让设计尽可能简单,不断思考哪些功能和环节对目标指标有直接影响,并优先设计这些部分。没有直接影响的部分可以置后考虑,但注意不要以损伤用户体验的可用性或清晰度为代价(比如:避免设置用户陷阱)。

实验设计完成后,在一部分用户中开展实验。要保证测试群体足够大,才能让你在最短的时间内(比如两周)达到统计学上的显著性。如果你的用户群体不大,请选择A/B测试而不是多变量测试。你的最终目标应该是,以最快的速度和最经济的手段验证你的假设,然后把成功的实验功能推广到整个用户群体中,最大限度地优化产品表现。

原作者:Paolo Ertreo (Strava 产品设计师)

原文链接:

翻译:即能,公众号:即能学习

本文由 @即能 翻译发布于人人都是产品经理。未经许可,禁止转载

题图由作者提供返回搜狐,查看更多

责任编辑:

本文由必赢亚州手机网站发布于科学,转载请注明出处:如何利用A,如何使用UX

您可能还会对下面的文章感兴趣: