饭饭TXT > 学习管理 > 《別毙了那只狗》作者:凯伦·布莱尔 【完结】 > 別斃了那隻狗.txt

  第一章 比

作者:凯伦·布莱尔 当前章节:15366 字 更新时间:2026-6-23 07:42

奖励更有效的 “增强原则”

(Reinforcement:.Better.than.Rewards.–.p.1).

「正增强物」是什么? (p.32)

(What.Is.a.Positive.Reinforcer?.–.p.1).

所谓「增强物」即任何与某项行为共同出现、通常会增加该行为发生频率的事物。请你牢记,它是优良训练的秘诀·

增强物可以分为两种:「正增强物」和「负增强物」。 「正增强物」指训练对象希望获得的事物,如食物、抚摸或称读;而「负增强物」则指训练对象希望走避的事物,如被猛击、皱眉的表情或不悦耳的声音,如上车后没系上安全带时一直哔哔作响的警告声即是负增强物。

只要是原本就会出现的行为,无论它多么罕见,都可以利用「正增强」加强这个行为。例如你召唤一只幼犬过来,当牠过来时便拍拍牠,即使日后没有对牠多作其它训练,牠被召回身边的可能性也会越来越高。假设你希望某人(子女、父母或情人)打电话给你,但他从来不打电话给你,那你是无计可施的,因为增强式训练的重点是:你无法增强 一个从不发生的行为。反过来说,如果他每次打电话给你时都相谈共欢,使这个「打电话给你」的行为获得正增强,他将来再打电话给你的可能性或许便会提高。(当然,假如你每次接到电话都予以「负增强」尽说些令人反感的话:「你为什么现在才打电话来?非得我打给你吗?你都不打来。」他会为了回避这种烦扰而不想打电话给你了;事实上,你的所作所为正是训练他别再打电话来。)

增强式训练最根本的原则便是针对行为给予正增强。在科学文献里,心理学家可能会这么说:「『行为方法』用来......」或者「这个问题利用『行为方法』而获得解决」。这通常意谓心理学家以正增强取代了原有方法,不过这并不暗示他们采取本书提及的所有正增强技巧,他们甚至司能并不知道这些技巧。

然而,改用正增强作法通常足以解决问题,至今它仍是协助解决尿床问题最有效的方法;早上起来时发现床单没湿,即立即给予称赞及拥抱。

在自己身上运用正增强原则也很有效。我以前是莎士比亚读书会的会员,在那里认识一位年近五十、热爱打回力球的华尔街律师。他无意间听到我与他人聊天时谈到了训练,他便聊起他在打回力球时会试试使用正增强,他原本习惯在出错时骂脏话,但现在会试着在打出好球时称赞自己。两个星期后我碰巧周见他,我问他:「回力球打得如何」?他的脸上浮现华尔街律师身上少见的惊奇欢愉的表情。

他告诉找:「起初我觉得自己真是个大傻瓜,因为每次打了好球就对自己说:『干得好!彼特,真有你的!』如果只有我一个人练习,我甚至还会拍拍自己的背。后来我开始打得越来越好,在回力球俱乐部的排名比以前升高了四级,把过去一些很难抢分的对手打得七零八落,而且我也获得了吏多乐趣,找不再大骂自己,赛后不会感到生气失望。打了一个坏球,那没什么好在意的,之后就能打出好球。我发现自己最爱看到对手犯错、生气、扔球拍,我知道这鹧举动对球赛毫无帮助,所以我只要微笑就好了……」

真是可长的对手啊!而他只不过改用了正增强而已。

增强物的性质是相对而不是绝对的。雨对鸭子来说是正增强物,但对猫来说却是负增强物,而对牛来说(至少在天候暖和的情况下)则无关紧要。吃饱后,食物不再是正增强物,而如果对方打定主意要惹你生气,那么再多的微笑和赞美(增强物)也无用武之地。因此为了达到增强的效果,增强物必须是对方想要的东西。

无论任何训练状况,有多种增强物可供选择将会很有帮助。在海洋世界的海生馆里,杀人鲸便有许多不同的增强物,包括鱼只(食物)、在不同身韵部位抚摸搔痒、社交关注及玩具等。在整个表演秀里,牠们永远不知道接下来哪一个行为将被增强,或者增强物将是什么,这些「意外惊喜」会让牠们觉得兴味盎然,有时候甚至可以进行整场表演仍用不到一般常用的鱼只增强物,在表演结束后才获得喂食。对训练者来说,不断变化增强物的种类也是一件极具挑战又有趣的半。

正增强也是送礼艺术的依据,当选中对收礼者具有增强作用的礼物时,对送礼者也是种增强作用且有助于人际关系。在美国的文化中,送礼这件事常由女性负责,我甚至还知道有个家庭由妈妈负责为全家人采买送给彼此的圣诞礼物:到了圣诞节清晨拆总物时,可笑的对话出现了:「喔!这个礼物是安送给比利的。」然而每个人都知道这份礼物和安一点关系也没有。坦白说,这种作法无法磨练孩子增强他人的技巧。

对正增强观察敏锐的男性会比其它男性占有更大优势。身为母亲的我就要求儿子们一定要懂得如何送礼,举例来说,在他们七岁和五岁时,有一次我带他们到一家昂贵的名店为妹妹挑选洋装。他们很喜欢躺在豪华舒适的椅子上,对妹妹试穿的每件衣服品头论足,他们的小妹也很喜欢这样,当然她握有锻后的决定权。多亏那次经验和其它类似练习机会;他们三人都学会了如何真心关切他人,为亲爱的人寻找有效正增强物也成了一种乐趣。

哪些是「负增强」? (p.35)

(Negative.Reinforcement.–.p.4).

增强物的作用是增加行为发生频率,但它不一定都是学习者想要的东西,避免不喜欢的东西也可能是种增强。实验室研究显示,如果改变行为可以让厌恶刺激(aversive stimuli)消失,这个厌您刺激即可增加该行为发生频率,这类刺激就称为「负增强物」(negative reinforcers),一种人类或动物会设法避免的刺激。

负增强物可能是极其轻微的厌恶刺激,例如讲冷笑话时朋友不屑地瞥你一眼,或冷气吹送过来的一阵凉风让你起来换个位置.而极剧烈的厌恶剌激,例如公开侮辱或电击,除了可以当作处罚之外,也可拿来作为负增强物;我们被老板责骂的经验或许极具处罚性质,但楚我们很快便学会,当爱骂人的老板站在前门时就从后门溜进公司上斑。

负增强物是指经由行为改变即能停止或避免的厌恶刺激,只要新行为一出现,厌恶刺激立即停止出现,因而强化了新行为。假设我坐在姑妈家的客厅里,像在自己家里一样把脚跨放在桌上,姑妈挑高一边眉毛表示不满,我便把脚放回地上,她的表情放松了,我也松了一口气。以这个例子来说,挑高的眉毛是一种厌恶刺激,具有负增强物的作用,我以新行为停止了这厌恶刺激,所以脚留在地上的行为将来可能再度发生,在我姑妈家里是如此,到了别人家里可能也会一样。

负增强物几乎能完成所有的训练,传统的训练方法多半就是这么做--当左边缰绳拉紧时,马儿只要向左转,拉扯嘴巴的讨厌压力即会减少,因此马儿学会了向左转;狮子退回台子上并待着不动,因为这么做才能避免被鞭子挥到,或有椅凳挡在面前。

然而,负增强并不同于处罚,两者的差别在哪儿呢?处罚是指在意图改变的行为发生后才产生的厌恶刺激,对该行为可能毫无影响,我在本书初版中写道:[没人知道成绩不佳而被修理的男孩将来的成绩会不会变好,但是他绝对不可能改变这张已带回家的成绩单。] 的确,当我们怀着意图进行处罚时,我们经常已错过时机太久,不过这还不是处罚和负增强真正不同的地方。

现代行为分析学者把任何停止行为的事件都视为处罚。幼儿把发夹插入插座时,妈妈用力一抓,把他的手拍开---这个行为停止了,但其它事情可能开始发生---幼儿关始哭、妈妈感到愧疚等等,不过把发夹插入插座的行为确实消失了,至少当时是如此,这就是处罚的作用。

心理学家史金纳(B.K. Skinner)更明确定义[处罚]可以是[某项行为导致喜欢事物消失的过程],或者也可以是[某项行为导致不喜欢事物发生的过程]。不论是哪种定义,处罚也许让当下发生的行为停止了,但是没有人可以预料以后会出现什么后果。我们已知增强物可以增强未来的行为,但无法预测处罚楚否能够导致行为改变。

妈妈抓住幼儿或用力打他的手(即使时间点抓得很准),这个作法是否保证他将来不会再度把东西插入插座呢?去问问任何一位家长,你就会明白现实情况往往是:家长把小东西收好,盖件墙上的插座或者用家具文件住插座。等幼儿长大,他们特别想这么做的冲动就会消失。

行为分析学者认为,增强或处罚都始一个由后果定义的[过程]。负增强物可以拿来进行有效训练,尽管使用厌恶刺激,训练过程仍可能相当无害。以下是个利用负增强训练骆马的好例子(感谢骆马专家吉姆·洛根[Jim Logan]提供此法)。骆马是种半驯化的动物,美国人把牠们当成宠物饲养,其它地区的人则饲养骆马群作为毛料来源.

骆马和马儿一样非常瞻怯害羞,除非自幼时常接触人类,否则人们很难靠近牠们,虽然利用食物增强的训练法对骆马效果极佳,但常牠们对人类过于惊惧而不敢接近取食时,这个方法也派不上用场,所以现今的骆马训练师作法是,利用响片作为讯号,告知骆马牠们的行为将获增强,但这时使用的初级增强物(或真正的增强物)是[移除负增强物(即厌恶刺激)]。

实际上,你等同对骆马说: “如果我走近到离你三十呎处,你可以保持站着不动吗?可以?很好,我按下响片就会转身离去。”、 “现在,如果我走到离你二十五呎处,你可以站着不动吗?可以? 很好,我按下响片就走。” 利用响片标定骆马站着不动的行为,并且利用[可怕人类的离开]作为增强物,有时在五平十分钟内即能靠近到能够触摸到牠的距离·骆马控制着整个局势,只要牠站着不动,牠就可以让人类走开! 所以牠继续站着不动。当人能摸了骆马几次之后才离开,这时便打破僵局了,这个人不再令牠感到害怕。现在饲料桶即可出场,沟通的对话转变为: “你站着不动时我可以摸模你吗?可以?按响片就赏你好吃的东西。” 这时骆马便进入获取[正增强物]的阶段,这些正增强物包括食物、搔痒和拍抚,而且牠正把站着不动的新行为做得很棒,而不是朝着别处逃命去。

利用离开(或好行为出现即不再施压)的作法就是所谓[通马语者](horse whisper)常利用的训练技巧,训马者在围起来的区域内与自由奔跑的马匹互动,在相当短的时问内使马匹脱胎换骨:野生的马儿从惊怕逃窜变得能够冷静接纳人类,甚至容许马鞍及人类骑乘,这种整体性的转变可说非常神奇。使用这些技巧的训练者虽然都习惯以某个声音或动作作为标定讯号(或制约增强物),但很少人真正意识到自己这么做,反而常用迷信说法解释这种现象。其实这种现象一点都不神奇,全是运用[操作制约]的结果。

虽然负增强很有效,但请牢记:每次使用负增强时,同时也使用了处罚。当拉紧左边缰绳,在马儿转向左以前,向前直走的行为即不断受到处罚。而且滥用负增强和厌恶刺激也可能导致莫瑞·西德门(Murray Sidman)博士所谓的[附带作用],也就是因处罚引起的不良副作用(请见第四章)。

抓准增强物出现的时间点/强化的时机 (p.39)

(Timing.of.Reinforcers.–.p.7).

前述已提过,增强物必须和想改变的行为一起出现。增强物出现的时问点本身就是讯息,它告知学习者你喜欢的行为究竟是什么,当动物试图学习的当下,增强物想传达的讯息会比增强物本身更重要。运动员或舞者受训时,教练喊出[对!]或[很好!]可立即标定当下的正确动作,给予对方确实需要的讯息,若等到回到史衣室才进行事后检讨,则无法产生作用。

增强时机过晚是训练生手最大的问题。例如当狗儿坐下来,在主人说出[好乖!]时,牠正好又回到站姿,这么一来,到底哪个行为被[好乖!]增强呢?是站着的行为! 每当你发现训练出现问题时,第一个该问自己的问题便是增强时机是否太晚,如果你在训练某人或动物时忙得无法分心留意,这时请人帮忙观察,看看自己增强的时机是否太迟,将会大有帮助。

我们增强他人的时机往往太晚,“亲爱的,你昨晚看起来美极了!” 这句话的效果与当下实时赞美的差别很大,迟来的增强甚至可能有适得其反的效果 ([怎么,我现在难道不美吗?]);然而对于为时已晚的补偿话,我们却常常寄以厚望。

过早给予增强也可能很没效率。美国布隆克斯动物园(Bronx Zoo)的管理员曾对大猩猩十分头疼,他们必须让牠进入户外栏舍才能打扫室内栏舍,但是牠考绌喜欢坐在进出口,力大无穷的牠可以挡住滑门,阻止门关上,当管理员把食物摆在户外或以香蕉诱引牠时,大猩猩不是不加理会就是抢了食物再赶在门关上前回去挡门。他们请了动物园里的一位训练师处理这个问题,这位训练师解释,[挥舞香蕉]及[丢入食物]是企图以[贿赂]来增强一个尚未发生的行为,但真正有效的解决办法是当大猩猩坐着挡门时不予理会,但是只要牠自己到户外时便给予食物奖励。问题就这么解决了!

家长有时也会误以为自己是鼓励小孩,事实上却太早给予增强([好孩子,就是这样,你“几乎”做对了!) , 因而可能增强了努力的行为,[努力]去做某事和[实际]做到某平是不同的,有时候小孩哭喊着「我做不到!」或许是事实,但是它也可能是努力行为受到过度增强的症状。一般而言,在行为出现前给予礼物、承诺、赞美或任何东西,完全无法增强这们行为,因为受到增强的是增强物出现当下的行为,也最可能是要求增强物的行为。

进行负增强训练的时机点也很重要。马儿学习到当左边缰绳拉紧时向左转,但是在牠左转后必须不再拉繁缰绳,这个停止拉扯的动作即为增强物。在上马后踢踢马腹,马匹往前走了,便不该再继续踢(除非你要牠跑快一点)。新手骑士常会不断踢马,彷佛得不断踩油门马儿才会跑,但对于马儿而言这个动作并不具讯息,因此马术学校里产生了“铁腹马”,无论骑马的人踢得多急,牠们仍以牛步行进。

同样反应也出现在常遭父母、老板或老师唠叨责骂的人,负增强物在期望结果达成时如果没有立刻消失,它将不会有增强作用,也不会传递任何讯息,唠叨责骂不但只成为名符其实的噪音,也是信息论(information theory)中谈到的[噪音]。

我观赏足球和棒球的电视转播赛时发现,球员被增强的时机点总是准确无误,这让我印象深刻。在球员跨过本垒达阵的同时,观众立即爆出欢呼声,而且一旦得分或确定输赢,仔细看看那些球员之问彼此热烈增强的动作。这对演员来说却相当不同,尤其是电影演员。即使是在舞台上演出,仍然得等到谢幕才能获得掌声,而电影演员除了偶尔从导演、摄影师或工作人员得到响应外,他们获得的增弦全都错过了时机,影迷信件和好的影评在数周或甚至好几个月后才会出现,这与洋基球场爆出轰天欢呼的情形比起来显得逊色无趣,他们工作起来可能特别缺乏成就感,即使有很不错的增强物,但获得的时机却总是「太迟」,也难怪常有一些明星近乎病态地喜欢谄媚奉承和追求刺激了。

增强物的大小 (p.42)

(Size.or.Reinforcer.–.p.10).

刚关始利用食物来增强的训练新手常搞不清楚食物增强物应该多大,答案是尽可能越小越好,增强物越小,动物能越快吃掉它,不但可以减少训练者等待的时问,而且每次练习时还可以增加增强物的使用次数,不会让动物一下子就吃饱吃腻了。一九七九年,我担任华盛顿特区的国立动物园(National Zoological Park In Washington, D.C.)的顾问,教导动物园员工使用正增强技巧。在训练课程上有位管理员抱怨自己的猫熊训练进展得太慢,我认为这不寻常,像猫熊这种贪心又活跃的大型动物以食物作为增强应该很容易训练,在我观察过一回训练后发现,这位管理员虽然已缓俊塑造出猫熊的动作,但是问题出在她每次给予大熊猫的增强物竟是一整根胡萝卜,猫熊好整以暇地享受每根胡箩卜,在管理员宝贵的十五分钟训练时间里牠只得到了三次增强物(而且牠也难免吃腻胡萝卜了),如果改成每次只给一片胡萝卜的话,情况将好得多。

一般来说,一小口增强物就足以让动物保持兴趣,对鸡而言是一两粒玉米,对猫来说是半公分的小肉块,对大象则是半颗苹果,如果是特别喜爱的食物,份量共至可以更少,例如喂给马儿-茶匙的谷子,美国国立动物园的管理员甚至只用葡萄干便训练北极熊做出许多有用的行为(例如依指令移动至另一个栏舍)。

训练的基本法则是,如果每天只训练一次,在满足每日给食份量的四分之一前,动物的训练反应都会很好,等训练结束后再给牠其余的份量。如果每天训练达到三至四次,你可以把平常份量分为约八十等份,每次训练用二十至三十份。八十份增强物似乎是任何动物维持学习兴趣的每日最高量(这或许是幻灯片匣是多只能放入八十张幻灯片的原因,因为每常讲师要求换第二个幻灯片匣时我总是会抱怨一下)。

行为的难易程度也与增强物的大小有关,我们在海洋生物世界的经验发现,要求鲸鱼表演笔直冲出水面二十二呎的高难度跳跃动作时,必须给予一条大青花鱼作为奖赏,如果只给平常增强用的两条小梭鱼,牠们会拒绝表演这个动作。

至于人类,增强物的大小虽然没有一定的定律,但是有时候工作越艰难,报酬将会越大,如果我们完成了艰难工作却未获得相对报酬时,我们肯定痛很不已。

意外的[大奖](p.44)

(Jackpot.–.p.11).

「大奖」(jackpots)是一个对动物或人类都极为有效的技巧。大奖是指非常大的增强物,万至可能比平常大上十倍,而且训练对象没料到它会出现。我曾在一家广告公司任职,公司除了有一般的圣诞派对,大案子结案或签下新客户时也会有非正式的庆祝活动,不过董事长还有个习惯,他每年总会举行-两次突如其来的惊喜派对,可能是在某天下午三、四点时,他会阔步行经每个办公室,大喊着要大家停下工作、关上电话总机,接踵而至的是外烩服务人员、乐师、调酒员、香槟、熏鲑鱼和所有派对应有的东西。这些全为我们而来,而且没有特殊理由,这对五十名员工来说完全是出乎意外的大奖,我认为这对提升高昂的工作情绪有极大影响。

大奖也可以用来标定「突破性的意外进步」,以我认识的一名训马师为例,当年轻马儿首度完成一项困难动作时,他随即从马背跃下,除去马鞍和马勒,然后放牠在场地里任意奔跑 --给予完全的自由便是一个大奖,而这么做似乎把新行为保留下来。

然而,遇到动物不听话、害怕或抗拒而完全不出现好行为时,偶尔给一次大奖也可能有效改善动物的反应。我们曾在海洋生物世界进行一些由美国海军资助的研究,作法是增强海豚的新反应,但不增强过去训练过的旧有行为,研究对象是一只极少出现新反应、名为[胡]的温驯海豚,如果牠出现反应却未获增强,牠就会变得不动。后来有次训练时,牠持续二十分钟没有出现反应,训练师在这时候丢给牠两条鱼奖励牠这个「没有反应的行为」,[胡]似乎被这个慷慨大礼吓了一跳,再度变得活跃起来,很快出现一个可被增强的动作,后来的几次训练因而出现了真正进展。

我也曾亲身体会过这只海豚的经验。在我十五岁时,骑马课是我最大的人生乐事,每张骑马券可上十次课,但我每个月零用钱只够买一张。当时我与父亲菲利普·威利(Philip Wylie)及继母瑞琪(Ricky)同住,虽然他们对我很好,但正处于青少年叛逆期的我,总是一副刻薄残忍、暴躁易怒的态度。有天晚上这两位慈爱又总明的家长告诉我,他们对我的行为感到忍无可忍,所以他们决定要嘉奖我: 他们送给我一张全新的骑马券,这是他们其中一人不辞辛劳地到马场购买的。 哇! 我完全没资格收下这样的人奖! 我记得我当下洗心革面,多年后在我撰写本书时,继母瑞琪确认这段记忆的确属实。

我并不完全了解这种不劳而获的大奖为什么具有如此突然又效果深远的作用,我只知道那张额外的骑马券实时解放我心中的压抑和憎恨,我猜这便是那只海豚的感受。或许将来有人会拿它作为博士研究论文,向我们解释原由。

制约增强物 (p.46)

(Conditioned.Reinforcers.–.p.13).

当动物出现你希望鼓励的行为时,你司能根本无法即刻给予增强物,尤其使用食物增强时更是如此。以训练海豚跳跃为例,当牠跃入空中时我不可能马上拿鱼喂牠,这么一来每次奖励牠跳跃而赏牠鱼儿吃的时问势必延误。但事实上,久而久之海豚终究还是会把跳跃动作和吃鱼联想在一块儿,于是跳跃动作还是会增加,只是关键在于牠无法得知我到底是喜欢牠跳跃的哪一点,是高度?弧度?还是水花四溅的入水动作?于是牠必须跳跃许多次,才能找到我心中期望的跳跃动作是什么。遇到这种状况时,我们便可以利用「制约增强物」(conditioned reinforcers)。

「制约增强物」是指一个原本不具意义的讯号(可能是声音、光线或动作),刻意让它在增强物出现之前或出现期间出现。现代海豚训练师都利用警用哨笛作为制约增强物,海豚即使在水底也可听到哨音,而且训练师还可以空出双手比手势及喂鱼。我时常使用一种发出响声的便宜派对玩具训练其它动物,这些玩具只要一压就会发出喀达喀达声,或者我也会特别选用某个称赞用语,当成制约增强物之用,例如使用「乖狗狗!」或「乖马儿!」学校老师常使用「那很不错唷!」和「非常好!」等具有形式意义且谨慎运用的赞美也出于此理,学童总是会迫不及待把事情做完,等着听到这启赞美。

日常生活中的制约增强物不胜枚举,诸如我们总是喜欢听到电话铃响或看到被信塞得满满的信箱,即便接到的电话大都很无趣或者信箱里多半是垃圾信,因为我们从过去多次经验学习到,电话铃响或信件与好的事情具有关连性。我们喜欢圣诞节音乐,讨厌牙医诊所的气味,我们在周遭摆设一些东西(照片、盘子或奖杯),不是因为它们美观或实用,而是因为它们能让我们回忆起快乐时光或亲爱的人,这些东西都是制约增强物。

讲求实效的正增强动物训练几乎都应该先从建立制约增强物开始,在正式展开训练前,趁动物尚未刻意出现行为,先教导牠制约增强物的重要性,作法是让这个「制约增强物」与食物、拍抚或其它真正的增强物产生联结,随后你可以在动物身上看出牠们是否已经理解这是你示意「很好!」的讯号,通常牠们接收到制约增强物时会表现出停格一下的反应,然后开始寻找真正的增强物。有了制约增强物,你将拥有一个能够真正与动物沟通的方式,告知牠你到底喜欢牠的哪一点行为,所以不必当怪医杜立德也能与动物「交谈」,利用这种「习得」的增强物你将会惊讶自己可以对动物「说」出许多讯息。

制约增强物的威力极大,我曾见过饱足的海洋哺乳动物为了获取制约增强物仍持续工作,马儿和狗儿持续工作一小时以上只为了得到少许的初级增强物,人类当然也会为了钱不停工作,说穿了「钱」就是一种制约增强物,是用来买东西的代换品,而钱赚得根本花不完的人甚至特别爱赚钱,他们对这个制约增强物已沉迷得无法自拔。

可以联结到多种初级增强物的制约增强物将更具威力。举例来说,动物在训练时可能不想要食物,但如果同一个声音增强物曾被刻意联结到喝水或其它乐趣,这个增强物将仍具效用,而且会更有效。我家猫咪听见「好乖!」时就会看见晚餐出现、被人拍抚、得以进出门口或领取表演把戏的奖赏,于是我现在便可以轻易利用「好乖!」增强牠们跳下餐桌的行为,而不必给予真正的增强物。然而,金钱之所以具有极大增强作用,或许正是因为它几乎可以与所有东西作联结,是一种联结甚广的制约增强物。

制约增强物一旦建立起来了,便必须谨慎的使用它,以免减低了它的效用。帮我骑乘我家韦尔斯小型马的孩子很快便学会,只有在他们想增强马儿行为时才可以说「乖马儿!」,若只是单纯想表达对马儿的喜爱,只要不使用这三个字,他们对着马儿说得天花乱坠都没有关系。某天他们看见一名新来的孩子抚摸马儿脸颊时边说:「你是乖马儿!」其中三个孩子立即包围质问她:「妳为什么对牠这么说?牠又没做什么!」同理,我们应该给予子女(配偶、父母、情人或朋友)很多的爱与关注,不需要在他们出现特定行为才给予,但我们确实应该慎用赞美,把赞美当成制约增强物,实际出现好行为时才赞美,即便是幼童,人们对于虚情假意或无意义的赞美都会很快感到厌恶,因而不再具有任何增强作用。

响片训练 (p.49)

(Click!.–.p.15).

海洋哺乳动物训练师通常以哨音作为制约增强物,用来训练鲸豚、海豹和北极熊。凯勒·布瑞兰(Keller Breland)首度在六○年代将这个训练概念引进海洋哺乳动物园和美国军用海豚训练,他曾是制约心理学家史金纳博士的研究生,他把哨音称作「中介刺激」(Bridging stimulus),因为它除了告知海豚即将获得一条鱼之外,也成了海豚「在池中央跳跃」(被增强的行为)和「游到池旁领赏」两个动作之间的中介联结。

行为分析的文献承认制约增强物具有这两个作用,不过它还有更多作用等候发现。到了90年代,越来越多动物训练师开始使用操作制约、塑形法、正增强和制约增强物,也有越来越多的民众开始这么做,由狗儿饲主引领风潮(请见第六章),由于狗儿饲主使用的制约增强物是种内含金属簧片的塑料响片,他们便称这种训练为「响片训练」,而称自己为「响片训练者」。

响片训练者使用的响片除了是制约增强物,以及介于「赚取」和「实际获得」食物之闲的刺激外,它还具有多种未获研究的功能。首先最重要的功能是奥登·林兹(Ogden Lindsley)博士所称的「事件标定器」(event marker)作用,响片让训练对象明确知道被增强的行为是什么,它甚至把主控权交到训练对象的身上,过了一阵子之后训练对象不再只是重复行为,而是显露出意愿:「嘿!我使你按下响片了!你看看,我再做一次!」响片训练者把这种转变称为「灯泡亮了」比喻浑然开窍、豁然开朗的时刻,不管对训练者或训练对象都具有极大的增强效果。

爱伦·瑞丝(Ellen Reese)博士向我指出,响片训练者使用的制约增强物也是一个代表「完毕了!」的终结讯号,诚如训练师盖瑞·威尔克斯(Gary Bateson)所言:「响片终结了行为」吃块热狗奖赏。

哲学家葛雷格里·贝特森(Gregory Bateson)在海洋生物世界任职数年,他主张操作制约只不过是一个用来与外星生物沟通的系统,它的确可以拿来这么用。标定讯号的另一个主要功能是用来沟通特定讯息,训练师史帝夫·怀特(Steve Wilkes)警官告诉我,他曾叫他的巡逻德国牧羊大搜寻某个被丢在六呎高树丛顶端的对象,那只狗在地面搜寻很久但徒劳无功,然后当牠碰巧把头抬高时,史帝夫按下了响片,那只狗立刻转而嗅闻头部高度的空气,警觉到目标对象的气味,然候开始往区域内较高的地方搜寻气味,甚至以后脚站立起来嗅闻,于是在史帝夫没有再度出手协助下,牠找到了对象位置,猛跳到树丛顶取得了这项对象。

「继续加油!」 (p.51)

(The.“Keep.Going”.Signal.–.p.17).

以刚刚史帝夫在和他的狗沟通时的例子来看,他们之间的沟通有另一个特点,史帝夫的响片声并不是作为一个终结讯号,而是一个「继续加油!」的讯号,由于狗儿尚未发现目标对象,响片的适时出现不但是增强了往上方嗅闻的行为,也让狗儿继续出现搜寻的行为。我在本书初版中曾写道,我们可以多次使用制约增强物但不给予真正的增强物,直到最后再给予即可。我之所以这么说是因为,有时候在训练海洋生物世界的海豚出现长时性行为或连锁行为时会这么做,但是我当初写书时并没有意识到,我们事实上使用了(至少)两种的制约增强物(或标定讯号)一种是正常音量的哨音,代表「这就对了!食物随后就到,过去那边取食,完毕了!」另一种则是较轻的哨音,代表「这就对了,但是还没达到目标!」

我在九○年代曾与许多响片训练新手共事,训犬书籍作家摩根.史贝克特(Morgan Spector)称这些人为「跨域训练者」(crossover trainers),指精通处罚式训练,但正试图改用塑形法和正增强的人。当时我发现他们都很愿意按响片,但却极不愿意给食,甚至到了已经让响片意义不复存在的地步。对此我必须强调,唯有遵循「按一次响片,给一次零食」的通则才能教会人们如何有效塑造行为。

不过,在许多现实状况中,有些「过渡性的增强刺激」可能非常好用,如同上述史帝夫与巡逻犬的例子所示,另择一个增强刺激,并藉由这个刺激告知训练对象「那就对了,继续加油!」是个解决方法。「继续加油!」的讯号并不需要直接联结初级增强物,只要在响片终结声出现之前插入这个讯号即可,学习者很快就可以理解到,它只是一个引领至最终增强物的讯号。

接下来你便可以好好运用这个「过渡性的增强刺激」,在连锁行为当中利用它作为蕴含讯息的标定讯号,不必让进行中的行为停下来;举例来说,敏捷赛中狗儿进行障碍竞速,主人必须在狗儿迅速移动之下指示牠下一个障碍是什么,我曾见过狗儿在达成某项障碍后,表现出不知所措的样子,彷佛没听清楚指示,不知该穿入隧道还是跨栏,牠的头在两项障碍之问来回摆动着,当狗儿朝跨栏望过去,主人大喊「没错!」时,狗儿才立刻跑向正确的障碍项目。

如同最终才出现的响片声一样,这种过渡性的讯号可以是任何刺激(响片、哨音、大喊一声或挥一下手),但要注意的是,这个刺激并不能只是怀抱希望的鼓励或加油打气(这么做可能使动物分心或不小心增强其它行为),它也必须是一种意义明确、精确使用的制约增强物。

习得厌恶刺激 (p.53)

(Conditioned.Aversive.Signlas.–.p.18).

及时发出的「习得正面讯号」是告知接收者「你现在的行为很好,将为你带来好处,所以多出现这个行为吧!」,而你也可以建立「习得厌恶刺激」(conditioned aversive signals,或称为「惩罚物」【punisher】),它告诉接收者的讯息是「你现在的行为不好,你要是不停止这个行为的话,不好的事就会验生。」

习得厌恶刺激比起威胁史为有效,有些动物 -- 我想到的是猫咪 -- 对于大喊大叫和责骂没有反应,不过我有一位朋友有次却意外治好了她家猫咪爱抓沙发的毛病,事实是因为她大喊出的「不!」变成了习得厌恶刺激。有天她在厨房里失手掉落一个铸铜大托盘,正好就掉在猫咪身旁,而当托盘掉下时,她大喊「不!」,下一秒托盘即落地发出巨响,猫味被吓得跳起来,全身毛都竖了起来。之后当猫味抓沙发时,主人一喊「不!」,猫咪便看来一副惊惧样,立即停止动作,在重复两次之后这个行为便永远消失了。

训斥是生活中必要存在的一部分,以正增强作为教导的主要工具,这并不代表必要时不能说「不!」(例如幼儿拿东西戳入插座时),然而,一些训练者拿这种现实状况为例认为无论什么状况,教导时经常作「纠正」是很合理的,事实上他们犯了两个错:第一、他们似乎认为纠正的好处和正增强一样多,却没考虑到它对学习者产生的其它影响(请见第四章「处罚」)。第二、他们使用训斥和处罚,但并未建立警告讯号(即习得厌恶刺激)。

要让「不!」产生效果的诀窍在于必须让它成为制约负增强物(conditioned negative reinforcer),举例来说,如果你觉得有必要使用P字链(收缩链),你便应该在狗儿犯错的同时说出「不!」,然后在拉扯链子之前稍等一会儿,给牠机会修正行为以避免处罚。如果你只是直接拉扯P字链但没给牠警告,这个拉扯的动作就只是纯粹沦为处罚,将无可预期它对未来行为的影响,而且这个处罚的累积效应可能会影响狗儿的工作饮望。另一个常犯错误是,当狗儿回到位置上时依然继续猛扯链子,这使牠的两个行为都受到处罚。

如果纠正式训练方法缺乏了制约负增强物,实际用到厌恶刺激的机会将会增加,也将使学习速度变慢。有时候传统训练师为了获得可靠稳定的行为,必须比应用增强训练的训练师多花费许多时间进行训练,也许花上数个月或甚至数年以上,这不只是因为他们所依赖的处罚方式会让行为消失,也因为他们使用处罚时缺少了制约负增强物,必须重复训练之后,动物才能归纳出牠们应该出现的行为。

近来有一类特殊的制约负增强物颇受训犬人士欢迎,这种「无奖励标定(确定)讯号」通常是以平淡语气说出「错!」这个字,概念是当狗儿表现不同行为试图猜测你想要什么时,你可以利用一个表示「那个行为不会得到增强」的讯号告诉牠哪些行为没用。

根据史金纳博士对「处罚」的定义 - 把动物想要的事物取走,这表示当「错!」这个字代表动物将无法获得增强物时,它无可避免地成为一个习得厌恶刺激,而它是否也因提供讯息而变得具有增强作用呢?我在训犬界里看过一些「错!」可派上用场的特殊情况,如果你的狗已经知道很多塑型完成的行为和指示讯号--也就是说,牠对训练极富经验--你便可以利用「错!」这个口令作为要牠改变行为的讯号,意思是:「省省力气,那么做没用,试试别的。」

要让这个作法奏效必须符合以下条件: 训练对象过去为了获得响片声而变化行为或主动尝试新行为时常获得增强的经验。使用这种必须巧妙运用的讯号时之所以出现问题,通常是因为人们把它用在没有经验、不明白人们想要什么的狗儿身上,这时人们很容易把这个讯号比照P字链使用:叫狗儿坐下,牠没坐下,立刻喊:「错!」如果这个讯号确实带有「不会获得增强物」的意义,那么「没有坐下」的行为即遭到处罚。但是这并不代表坐下的行为现在即将发生,事实上它的后果很可能与其它处罚一样无可预料,狗儿可能完全不再反应并低头怯怯地偷偷溜走,或者牠会放弃你,开始自己寻求增强物,因而出现不当行为,例如吠叫、暴冲、嗅闻地面或抓痒,把注意力移到他处。

无法预料的奖励更具吸引力/变化的强化 (p.56)

(Schedules.of.Reinforcement.–.p.20).

有个广为流传的错误观念是,当开始以正增强训练某个行为时,便必须在训练对象的余生里一直使用正增强物,如果不这么做,这个行为将会消失。这个说法并不正确,事实上只有在学习的阶段才需要持续使用增强物。你可能会经常称赞幼儿使用马桶的行为,但是一旦这个行为完成学习,它将自行获得增强。我们应该常常给予初学者增强物,例如教小孩骑自行车时可能需要不断告诉他:「那就对了,现在骑稳,你做到了,很好!」如果当他学会骑车而你却仍不断称赞他,这时你就很蠢了(小孩也会以为你发神经了)。

为了使学成的行为维持一定的可靠程度,非但没有必要每次都增强这个行为,而且极为重要的是,不可以经常增强这个行为,而要改为偶尔增强,而且是随机性(无法预测)的增强。

心理学家称这种增强方式为「变化性增强时制」(variable schedule of reinforcement),它维持行为的效果比起持续性、可预测的增强方式更好。一位心理学家曾跟我这么解释:假设你的新车总是很容易岭动,某天当你坐上车后把车钥匙一转,它却没发动,你可能会再试着发动几次,但是你很快就会判断这辆车出了问题而打电话给修车厂,由于转动车钥匙的行为没有立即带来期待的增强结果,这个转动钥匙岭动车子的行为很快便会消失。相反地,如果这是台老旧的破车,几乎很少在第一次就发动,而且通常还得花很久时间发动,这时候你便可能花上半个小时不断试图启动,因为这个转动车钥匙的行为长期以来一直受到变化性增强,因而能稳定维持着这个行为。

如果海豚每次跳跃都一定有鱼吃,牠跳跃的动作将很快变得马虎敷衍,过得去就好,然后要是不给鱼了,海豚跳跃的动作很快就会消失。不过,如果在牠学会跳跃就有鱼吃的概念后,我现在开始只增强第一次跳跃、第三次跳跃,接着便随机增强牠的跳跃动作,这个行为就会稳定维持下来,当动物没获得奖励时,牠们反而会更常跳跃,期盼下次中奖的机会,而且跳跃时甚至可能变得更有活力。如此一来,我便能够选择增强较具活力的跳跃动作。

利用变化性增强时制可以塑造出较佳的表现。不过即使是专业动物训练师,有些人仍法善用变化时制的正增强方法,它对许多人似乎都是个特别难以理解与接受的概念,我们都知道当错误行为停止时,我们就不必再继续处罚,可是我们往往无法理解为何没有必要继续奖励好的行为或甚至不应该这么做。这其实是因为我们想以正增强训练出进退有礼的良好行为时,我们自己也不太确定应该怎么做。

变化性增强时制的威力正是赌博的本质,要是每次投一块硬币到吃角子老虎里就会有十块硬币掉出来,你很快就会丧失兴趣,虽然你的钱会越来越多,但是这种方式实在很无趣。人们之所以爱玩吃角子老虎正是因为他们无法预料将出现什么:可能空空如也、可能掉下一些钱、也可能掉下很多钱。我们不在这里讨论为什么有些人会沉迷赌博,而有些人能够拍拍袖子走人,不过对于那些好赌成瘾的人来说,变化性增强的作用就是让他们上瘾的原因。

变化性增强出现的时间间隔越长,它所维持行为的效果就越强,不过如果你想设法消除某项行为,把时间间隔拉长的变化性增强就对你很不利。所有未获增强的行为都有自行消失的倾向,但是如果它不时获得增挂,尽管只是偶发事件 -- 抽根烟、喝杯酒或者对不断唠叨或哀求的人梢事让步 -- 这个行为不仅不会消失,事实上它可能反而被这种间隔拉长的变化性增强时制维持得更好,这就是为什么已经戒烟的人若偶尔偷偷抽根烟,在一天内即可能又变回大烟枪。

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体大小
适中 偏大 超大
保存设置
恢复默认
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
首 页 < 上一章 章节列表 下一章 > 尾 页