交互设计:设计、运行和实验分析

我为了系统性地学习交互设计,在 Coursera 上学习了美国加州大学圣地亚哥分校的 Interaction Design,并顺利拿到了证书。课程是 Scott Klemmer 在 Stanford 任教时的一些总结和延伸。课程很是有趣,Klemmer 总是会从事物的本质开始讲起,比如为了引导学生学习如何设计尚未存在的产品,他会从鼠标和键盘的构造原理和发明历史讲起。

交互设计:设计、运行和实验分析

设计并不只是视觉上的美,1978 年诺贝尔经济学奖获得者赫伯特·西蒙定义的设计是将现存情形转变成想望情形为目标而构想行动方案,这也是我极其认可的设计的力量。

本文为第七课「设计、运行和实验分析」中的部分课堂笔记,如果感兴趣的话,可以去完整地上课,一些课后作业不仅是帮助巩固知识,还可以看到全球各地其他人的一些想法,这时候真的会有一种多元文化碰撞的感觉。

可乐争夺战

在 20 世纪 70 年代的一次实验中,为了探究到底可口可乐和百事可乐谁更好喝,被试在不被告知品牌的情况下,分别品尝可口可乐(装在写有 Q 的杯子中)和百事可乐(装在写有 M 的杯子中),结果表明,一半以上的被试报告他们喜欢百事可乐。

可口可乐回击该实验有问题,认为上述实验测试的不是被试对可乐的偏好,而是对字母的偏好,即因为喜欢字母 M 的人多于 Q 的人,所以选择百事可乐的人要多于选择可口可乐的人。可口可乐通过另一个实验证明了该观点,在实验中,当两个杯子都装有可口可乐时,大部分被试仍然说更喜欢杯子 M 中的可乐。

尽管第一次实验看上去言之凿凿,但可口可乐仍非常聪明地分辨出字母是一个混淆变量。在实际生活中,这类问题比想象中要常见得多,例如,近日 KnowYourself 发布了一条微博动态:

为什么拍照留念可以让我们更开心?最近,美国的研究者们发现,拍照留念可以增强我们对一个活动的享受程度,这很可能是因拍照增加了我们的“沉浸感”(Diehl et al., 2016)。研究团队共进行了九项研究,其中包括对参加巴士旅行的游客,参观博物馆的游客,和在农贸市场饭店用餐的顾客进行了调查。在每种情况下,研究人员都设置了实验组和对照组,即一组参与者被告知可以不能拍照,另一组不可以。之后,研究人员对不同场景中的人们的“体验愉悦度”进行了评估,他们发现,可以拍照的那一组明显比另一组要更开心愉悦,更享受自己,并更沉浸于体验中 (p=.033)。
研究人员称,虽然拍照可以让我们对快乐美好的记忆印象更加深刻,但拍照同时也能让加深糟糕的负面体验。

在仅阅读上文的前提下,我有理由怀疑,该实验的实验者认为自变量是「被试是否能拍照」,但是否「被试感到自己受到约束」是一个混淆变量呢?

Think different

你可以阅读原文链接,自己判断:
Taking photos will boost your enjoyment of experiences, researchers say – Research Digest
https://digest.bps.org.uk/2016/07/25/taking-photos-will-boost-your-enjoyment-of-experiences-researchers-say/

理解设计心理学实验的原理能够帮助我们更系统地思考。例如对于上述的可乐实验,仍然有很多模糊却重要的信息:

  • 可口可乐设计第二个实验,真的能够证明字母是混淆变量吗?会不会互换杯中的品类再进行一次实验更准确?
  • 第一次实验者是否选择蒙住被试眼睛进行实验,就能避免字母的影响了?
  • 这几次实验分别有几个被试?是否足够?这些被试都经常喝可乐吗?
  • 是否存在顺序效应?即前一杯喝过的可乐影响了被试对第二杯的味觉感受?
  • 每一杯的容量是否一致?温度呢?是否存在不同温度,用户分辨的结果不同?

实验思维对互联网行业同样有显著价值, 比如 AB testing。2017 年的 Google I/O 上,有一个不太起眼的小 session 讲的是 UI 文本的重要性,其中提到他们做了一个很小的测试,将功能的名字从原来的 「Book a room」,改成了「Check availablity」,别的什么都没动,就这么一个小小的文字改动,增加了 17% 的用户使用率。

实验方法是科学研究最重要的工具,它能够帮助我们揭示事物间的规律。在这篇文章中,我想和大家介绍设计心理学实验的流程和思路,这是我阅读了《如何做心理学实验》、《实验心理学·通过实例入门》等后的思考,需说明,本文并不试图囊括所有知识点,只作为一个学习大纲。

操作性定义变量

在实验中,主要变量分为自变量和因变量。自变量不依赖于被试行为,是实验中我们操纵的,最感兴趣的变量,因为所有实验的目的都是为了寻找自变量对行为的效应;因变量是那些用来测量被试行为的变量,因为它依赖于被试做了什么。

题目:研究电视暴力对儿童攻击行为的影响效应。
自变量:暴力节目。
因变量:儿童攻击行为。

然而,多暴力的节目算暴力节目?如果不对该暴力程度具体说明,其他实验者将很难重复实验。操作性定义即从具体的行为、特征、指标上对变量的操作进行描述,将抽象的概念转换成可观测、可检验的项目。我们可以将操作性定义想象成菜谱,一步步做就能复现出最后的菜,我非常讨厌一些菜谱写着「加少量盐」,我怎么知道少量是多少?这就是极其糟糕的操作性定义。

另一个例子是 UX Coffee 播客第 68 期节目《41 种蓝色》中,Riceman 和 Facebook 的数据科学家张胜杰有这样一段对话:

Riceman:我们知道在 Facebook 要衡量用户有多喜欢产品,会使用「用户使用时长」这样的指标。我想到一家做客服软件的公司,他们发现即使把该软件做的很好用高效,但这些客服真正的问题是每天都很抑郁,甚至会到厕所偷偷哭,如果这家公司希望提升客服的幸福感,你觉得用什么设计指标来测量会比较适合?

张胜杰:这是一个很有意思的数据科学家问题,假设我们观察到「幸福感低,员工会在厕所偷偷哭」这样一个现象,那么我们可以依据厕所里纸巾的更换速度来判断员工的幸福感。

Riceman:但如果用这个指标来测量,实际上和幸福感还是有很大距离的,直接发放问卷给这些客服,询问他们的心情等数据,会遇到什么问题吗?

张胜杰:肯定会遇到问题的,问卷收到的回复都是主观的,他们可能会迫于不想被老板知道而说假话。用户说的话和自己的行为有矛盾是非常常见的,这就是用户调查的数据和用户直接使用产品行为之间的差距,而我们更加相信用户怎么使用产品。回到测量幸福感这件事, 纸巾的更换速度就是一个可测量的行为数据,它反应的是客观的事实。

在操作性定义自变量和因变量后,我们还必须保证因变量是可信且有效的,它们分别由信度和效度体现。

信度(reliability)指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。从另一方面来说,信度就是指测量数据的可靠程度。以上述电视节目怎么算暴力为例,如果我们让 100 个人对电视节目的暴力程度打分,分值相近,则说明「该电视节目是暴力的」是可信的。

效度(validity)是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。以上述幸福感为例,如果我们判断用卫生纸的更换速度来测量客服的幸福感是准确有用的,则说明效度高。

交互设计:设计、运行和实验分析

被试间设计或被试内设计

题目:研究休息是否能提高学生成绩。
自变量:被试是否休息。
因变量:学生成绩。
被试数量:一组 10 人。
步骤:
A 组被试连续学习 2 小时且不休息。
B 组被试学习 2 小时,每半小时休息一次。

接下来的问题在于,A 组的 10 名被试和 B 组的10 名被试,是同一群人吗?如果不是同一群人,可能原本 A 组的学生成绩普遍优于 B 组,实验组之间有差异;而如果是同一群人,可能这 10 名被试做完 A 组的实验后,做 B 组的实验时我们必须更换学习材料,而学习材料的难度又会有差异。

第一种方法由于自变量至少是在两个被试之间进行操控的,因此被称之为被试间设计,第二种方法因为自变量是在一个被试身上操控的,因此被称之为被试内设计。

  • 被试间设计:一组 10 人,一共需要 20 人。
  • 被试内设计:一组 10 人,一共需要 10 人。

可以想象到,被试间设计的优点是被试只接受自变量一种水平的处理,因此其他水平的处理不会影响到被试的反应,但同时,需要的被试数量也更多,在遇到被试需要满足左撇子、飞行员等特定条件时,可能难以找到足够数量的被试。

被试内设计的最大好处是由被试个体差异造成的变异得到了最大幅度的减少,例如,如果一个跑鞋商想知道应该卖给男子百米短跑运动员钉长7mm的鞋还是13mm的鞋,选择同一组人员实验能够避免个体造成的差异。

然而,被试内设计存在一个巨大的缺点:一旦被试接受了自变量某个水平的处理之后,不可能再将被试变为接受处理前的状态。这种自变量的呈现顺序对因变量产生影响被称为顺序效应(order effect),例如在学习和记忆的研究中,我们不可能对被试说:「请忘记刚才让你记住的10个单词」。

为了将学习这样的顺序效应降低至最小,一种方法即是平衡,当使用平衡时,意味着承认存在潜在的顺序效应,也承认不能控制它或随机化将其排除,因此要试着将额外变量的影响平均分配到自变量的各个水平上,一般常见的平衡方式有ABBA 法和拉丁方设计(Latin Square)。

  • ABBA 法:用于两种水平的自变量,A 和 B 表示任意自变量的两种水平。
  • 拉丁方设计:用于两种水平以上的自变量,需保证每种水平出现在不同顺序位置上的次数相同,且被试人数是自变量水平数的整数倍。

交互设计:设计、运行和实验分析

题目:研究阅读计算机屏幕上 4 种字体的文本各需要多少时间。
自变量:字体。
自变量水平种类:Chicago、Courier、Geneva、Times。
因变量:阅读时间。

交互设计:设计、运行和实验分析

被试内设计和被试间设计各有优劣,多数实验者最终的共识是,选择的依据在于不可逆的状态是否对实验有影响。例如,在态度形成和某些记忆领域等,即使使用平衡方案,仍然无法避免非对称性转换之类的顺序效应,就无法使用被试内设计;而如果在暴力电视节目的案例中,显然让儿童重复接受暴力节目水平的处理是不合实际情况的,这时候我们更应该选择被试内设计。

交互设计:设计、运行和实验分析

单变量、因素实验和聚合序列实验

我们刚刚谈到的大多数案例,都是两水平单变量实验,它能够帮助实验者确定某个自变量是否值得研究——但也仅限于此,它无法得出自变量和因变量之间关系的具体模式。

题目:字体大小对阅读速度的影响。
自变量:字体大小。
自变量水平种类:12 号字体、10 号字体。
因变量:阅读速度。
实验步骤:被试分别阅读 12 号字体和 10 号字体的同难度文本,实验者统计阅读所需时间。
实验结论:使用 12 号字体比 10 号字体所需阅读时间更短。

但是完成该实验后,你不能说字体大小和阅读速度存在线性关系,许多心理学函数曲线存在天花板效应和地板效应,例如人的反应速度一定不可能低于0秒。在两水平实验中,不要将结果在实验水平范围之外进行内推或外推。

交互设计:设计、运行和实验分析

多水平能够帮助我们描述变量间的关系,但也意味需要更多的时间和精力,但更重要的是,现实世界远远不止一个单变量这么简单。

题目:研究存在领袖是否会影响群体决策速度。
自变量:有无领袖。
因变量:决策所需时间。
被试:小组规模 3 人一组。
实验结论:决策时间和有无领袖无关。

仅从该实验来看,实验结论无懈可击。然而如果我们将小组规模设为 20 人一组,又会发现,有领袖的小组决策所需时间少于无领袖的小组。

这暴露了单变量实验的缺点,在单变量实验中,我们选择一个自变量,然后控制其他变量保持一致。然而变量之间可能会发生交互作用,例如有无领袖对决策所需时间的影响依赖于小组规模的水平变化。实际上,反观上文提到的案例,我们提取出想要研究的某个自变量,将其他条件理想化成环境,是欠考虑的:

  • 字体是否影响阅读速度,会否依赖于读者的年龄?
  • 看暴力节目是否增加儿童的攻击性,会否依赖于他们看了多少?

我们重新规划一下上述的实验,除了加上小组规模的自变量外,我们还决定研究一下小组成员的性别对决策速度是否有影响,考虑到自变量的水平数,我们将这个实验设计称之为 2×3×4 的因素设计。

题目:研究存在领袖是否会影响群体决策速度。
自变量A:有无领袖。
自变量B:小组规模。
自变量C:小组成员性别。
因变量:决策所需时间。
实验结论:决策时间和有无领袖无关。

交互设计:设计、运行和实验分析

意识到变量间存在交互作用是至关重要的,这也意味着更深层理解世界的复杂性。当然,因素设计也并非十全十美,仍然存在一些缺点:

  • 耗时,随着想要研究的变量增多,需要的被试数量也迅速增加。
  • 难以对实验解释,一般因素设计的统计方法是方差分析,但方差分析要求符合正态分布,但直到实验完成后实验者才能知道是否符合。另外,我们刚刚提到的交互作用都是两维的,但还存在依赖于第三个因素、第四个因素等更多维度的情况,这也增加了对实验解释的难度。

一种改良的方法是聚合序列(Converging Series)设计,它指任何一种渐进地寻找问题的方法,而不是追求一下子解决问题。

一般来说,我们有一个待解决的应用问题,通过一系列较小的因素设计实验,一旦我们找到某个因素的最佳水平,就在接下来的实验中将这个因素作为控制变量。

题目:人们对粗俗词的识别时间是否长于非粗俗词。
自变量:是否是粗俗词。
因变量:识别时间。
实验设备:
· 速示仪(一种常用于显示视觉刺激的设备)
实验步骤:
1.实验者呈现四个单词,两个粗俗词,两个非粗俗词。
2.被试在认出词后,要立刻大声读出来。
实验结论:被试需要更多时间读出粗俗词。

假定我们拥有 4 种可以解释实验结果的假设,接下来我们需要做一系列实验聚焦到一个假设上,排除其余的假设:

  1. 词汇本身的特性会使非粗俗词更容易阅读;
  2. 知觉防御;
  3. 被试对 4 个词汇的识别程度相同,但不自觉抑制了对粗俗词的反应;
  4. 被试有意抑制对粗俗词的反应。

交互设计:设计、运行和实验分析

尽管上面的讨论的确有些理想化,例如我们有时不能仅通过一个实验就能排除某个假设,但仍然能够体现聚合序列的优点。在排除假设的过程中,随着对研究问题更加深入地了解,很可能会出现越来越多新的假设,但这仍是有价值的,这意味着潜在的假设比最初想象到的要多得多。

分析和解释实验数据

到这里,我们已经顺利设计了心理学实验,接下来需要分析实验数据。然而实际上,分析数据需要丰富的统计学知识,我并不试图在本文里概述常用的检验方式,我将通过《行为科学统计》中有关卡方检验的例子向你展示分析数据的过程。

Think different

假设检验:用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
卡方检验:一种用途很广的计数资料的假设检验方法,其根本思想就是比较理论频数和实际频数的吻合程度或拟合优度问题。
频数:即次数,对总数据按某种标准进行分组,统计出各个组内含个体的个数。
零假设:指进行统计检验时预先建立的假设。零假设成立时,有关统计量应服从已知的某种概率分布。

题目:研究学习成绩与儿童自尊间的关系。
自变量:儿童自尊。
因变量:学习成绩。
被试:150 个 10 岁儿童样本,频数分布如下图。
实验结论:决策时间和有无领袖无关。

交互设计:设计、运行和实验分析

步骤 1

提出假设,选择显著性水平。依照零假设,两个变量是独立的。

H0:在一般总体中,学习成绩与自尊之间不存在关系。

H1:在学习成绩与自尊之间存在一致的、可预测的关系。

步骤 2

确定自由度,并找出临界区域。独立性卡方检验的公式:df = (R-1)(C-1)。

该研究:df = (2-1) × (3-1) = 2, α=.05,查表可知卡方的临界值是 5.99。

步骤 3

确定期望频数,并计算卡方值。

列总和中:

  • 30/150 = 20% 的被试是高自尊。
  • 75/150 = 50% 的被试是中自尊。
  • 45/150 = 30% 的被试是低自尊。

将该比例代入每个组来得到期望频数。对于 60 个学习成绩高的类的学生,期望为:

  • 60 的 20% = 12 个学生有高自尊。
  • 60 的 50% = 30 个学生有中自尊。
  • 60 的 30% = 18 个学生有低自尊。

对于 90 个成绩低的学生,期望为:

  • 90 的 20% = 18 个学生有高自尊。
  • 90 的 50% = 45 个学生有中自尊。
  • 90 的 30% = 27 个学生有低自尊。

交互设计:设计、运行和实验分析

使用卡方来测量实际频数与期望频数之间的差异:

步骤 4

根据零假设与研究结果作出判定,得到的卡方值 8.22 超过了临界值 5.99,因此,拒绝零假设。

报告为结果显著。

交互设计:设计、运行和实验分析

实验结论:学习成绩与自尊之间存在显著关系。

尽管看上去运算过程非常复杂,但实际上我们可以通过统计软件帮助我们计算,如在 R 中,通过编程即可快速得到最后的数据:

交互设计:设计、运行和实验分析

library(readxl) # Load the library.
score

交互设计:设计、运行和实验分析

统计分析概览

参考资料

[1] 《如何做心理学实验》

[2] 《行为科学统计》:563-565.

[3] 《实验心理学·通过实例入门》:217-445.

[4] 《R 语言实战》

[5] UX Coffee 设计咖分享的 AB 测试案例:https://www.notion.so/2018-3-5-A-B-93e14cee1e8545608be4e268fe471c6a

[6] UX Coffee 设计咖-41 种蓝色:https://www.uxcoffee.com/episode/68

业界动态

做了3年新媒体,年入20万难吗?

2019-12-7 8:47:15

业界动态

8个值得学习的交互动效

2019-12-7 11:01:07

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索