用户研究干货!量化用户研究
什么是用户研究?
对于一个如此简单的术语,“用户研究”对于不同的人意义也是不同的。对于用户研究中的“用户”,Edward Tufte(Bisbort,1999)有一句名言:“只有两个行业把他们的顾客称作用户:计算机设计(译者注:computer design)以及贩毒。”
本书关注的是前者的用户。这里的用户可以是一个付费顾客、内部员工、物理学家、呼叫中心处理员、汽车司机、手机拥有者或是任何试图去完成某个目标的人——尤其是那些涉及到软件、网站以及机器设备的目标。
这里的“研究”宽泛而又模糊——它是以其为核心的方法和专业人员融汇的结果。Schumacher(2010,p.6)提出了以下的定义:
用户研究是对于用户目标、需求和能力的系统研究,它的目的是为了给设计、架构或改进工具来帮助用户更好的工作和生活。
相比起这个词语的定义以及它包含的内容,我们更关心如何量化用户的行为,因为这涉及到可用性相关专业人士、设计师、产品经理、营销人员以及开发者。
用户研究中的数据
尽管“用户研究”这个说法最终可能会失宠,但是它其中产出的数据却不会。贯穿本书,我们将把重点放在可用性测试,使用一些来自可用性测试、用户调查、A/B测试以及实景调研的案例。之所以把重点放在可用性测试上,是有以下三点原因:
可用性测试依然是判别用户是否在完成任务的核心方法。
作者均执行过大量的可用性测试并对其有着很多论述。
可用性测试用到了许多其他用研方法所涉及到的指标。(比如到处都能看到的“完成率”)。
可用性测试
可用性有一个国际标准:ISO 9241 pt.11(ISO,1998),其中把可用性定义为:在具体的使用场景下,一个产品能帮助具体用户有效果、有效率并满意地达到一个具体目标的程度。尽管没有方法来衡量效果、效率以及满意度,一项09年针对将近100个总结性可用性测试的大型调查(Sauro和Lewis,2009)发现了执行测试的人一般能收集到的内容。大部分的测试包含了一些组合,这些组合包括:完成率、错误、任务时间、任务级别满意度(译者注:task-level satisfaction)、测试级别满意度(译者注:test-level satisfaction)、帮助途径以及可用性问题列表(一般包含频率和程度)。
总体上来说,有两种可用性测试:找到并解决可用性问题(形成性测试)(译者注:formative tests)和用指标描述一个应用的可用性(总结性测试)(译者注:summative tests)。这里的“形成性测试”和“总结性测试”两个术语来自教育界(Scriven,1967)用于描述学生学习水平测试时用到的类似方式(“形成性”——提供即时的反馈来改进学习方式以及“总结性”——评估学到的内容)。
大多数的可用性测试属于总结性的。它们通常是一个小样本量的定性活动,在其中问题描述以及设计建议是以数据的形式输出的。你的目标是发现尽可能多的问题并找到解决方案,但是这并不意味着没有定量什么事。你可以从频率、程度的角度量化问题,追踪哪些用户碰到了哪些问题,衡量一下他们完成任务花费的时间,判断一下他们是否成功的完成了任务。
通常来讲有两种典型的总结性测试:基准测试以及比较测试。基准可用性测试的目标是描述一个应用相对于一系列基准来说的可用程度。在基准测试里你可以提出一个界面中需要修复的问题并且它也提供了用于比较设计后改变的一条基线。
比较可用性测试,就像他的名字一样,这可以是比较同一个产品的不同版本,也可以是比较几个竞品。在比较测试中,同一个用户可以在所有的产品上尝试完成任务(主题下的设计),或者不同组的用户可以试验各个产品(主题间的设计)。
样本量
对于样本量有一种错误的观点认为必须越大越好,这样才可以让数据精确可使用并量化成可用数据。我们将在第6.7章中深入探讨这个问题,并且在本书中,我们都将展现给你如何在样本量小于10的情况下获得有效的数据结果。不要让你的样本量(哪怕你只有2到5个用户)阻碍你使用统计信息来量化数据并指导最终的设计方案。
代表性和随机性
和样本量能够扯上些关系应该算是样本的构成。对于一个小样本经常会有人担心它不够有代表性。样本量以及代表性其实是不同的概念。你可以建立一个数量只有5但是能够代表人群的样本,你也可以建立一个样本量高达1000但是并没有什么代表性的样本。有关这两个不同概念最著名的例子之一便是1936年《文学文摘》(译者注:Literary Digesst)做的关于总统候选人民意调查。这本杂志调查自己的读者倾向于投票给哪位候选人并收到了240万份结果,但是最后却预测错了大选结果。这里面问题不在于样本的大小而在于样本的代表性。而《文学文摘》收到回复的人群大多是高收入高学历人群——显然并不能够代表所有人。(详见wiki)
在用户研究中,无论数据是定量的还是定性的,最重要的一件事在于你测试的用户样本能够代表你所要针对的所有人。否则你的调研结果从逻辑上就不适用于你的目标人群。如果你用一个群体的样本来推断另一个不同的群体,那么再好的统计学都帮不上忙。如果你想要深入了解如何改进雪地鞋的设计,去调研5个极地探险者都要比调研1000个冲浪者来的好。在实践中,这就意味着如果你试图从不同的用户群里得出结论(比如,新用户和经验用户,或年长用户和年轻用户),你就该让样本很好的代表不同的用户群。
关于样本量和代表性存在困扰的一个原因在于,你的人群,比如说是由10个不同的组构成,而你的样本量是5,那么显然样本量不够来代表所有的组别。你就需要针对这制定合适的取样方法来保证从每个需要调研的组别中都取得样本——这个方法又叫“分层取样”(译者注:Stratified Sampling)。比如说,如果你有理由相信以下几点,则考虑从不同组取样:
在关键指标上不同组别之间有潜在的重要差别。(Dickens,1987)
组与组之间存在潜在交流。(Aykin and Aykin,1991)
在关键指标的变动性上,组与组之间不同。
不同组之间取样成本不一样。
Gordon和Langmaid推荐用一下方法来定义一个组(1988):
写下所有重要的变量。
如果需要的话,按优先级对变量排序。
设计一个理想的样本。
利用常识来合并组。
举例来说,假设你一开始有24个组,这些组都是基于6个人口统计地点、2种经历、2种性别的组合。你可能规划着(1)每组中都包含同样数量的40岁以上和以下的男性女性,(2)初学用户和经验用户分开,然后(3)弃用中间的那些用户。最后的规划需要从2个组里取样。而没有合并性别和年龄的规划则需要从8个组里取样。