本文微信首发于“语言学radio”
估计在国内托福这个圈子里,不超过3个人像我这样天天读论文、洗数据、优化算法引擎。另外两个这么投入研发的应该快被ETS诏安了。
这篇解析报告是上一篇,在 3 个月之内准备托福,想要达到 100+,有哪些方法建议?”的姊妹篇。翻阅论文是孤独的,分析数据是枯燥的,验证算法是耗时的,模型迭代是抽象的,一篇文章自己扣一个月也是合情合理的。
人的安全感来自于:对预期可控。托福口语考生的安全感来自于,对评分方法一清二楚,对评分原则了如指掌、对练习预期心知肚明。
和托福阅读、听力的客观评分不同,口语、写作都有主观评分参与,其牵扯到的人工费用很高,这无疑增加了ETS的运营成本。
很多同学会说托福报名费很高的!但目前考试报名费的1900+元,并不是ETS都拿走了,实际上要分一部分给国内教育考试管理部门、组织考试的学校考场、考试的推广费用,剩下拿到ETS手里的真不多了。随着考生的数量愈加扩大,人工判分的需求量自然暴增,无疑:机评代替人评是大势所趋,技术服务于需求。
从2006年开始,ETS推广iBT考试以来,一直把机评引擎的开发放在战略重点,每年都有各种论文和数据研究发表在世界级核心期刊上。2006年开始之初,机评引擎处于数据搜集期,2010年以后人评、机评校对过渡期,直到现在机评为主、人评为辅的应用期,ETS已经走过了十多年的自然语言识别研发路。
传统的口语的评分要经历三次人工:
1. 先由第一位rater判一个初始分(4分制原始分)
2. 再由第二位rater判一个校对分(4分制原始分)
3. 如果第二位和第一位的判分差在1分以内(4分制)则二者取平均换算成30分制的成绩Scaled Score
4. 如果第二位和第一位的判分差超过1分,则由第三位rater(administration老大级)进行终判。
可想而知ETS的人工投入成本之高,单靠那点报名费真的是捉襟见肘,技术服务于需求——机评势在必行:
1. ETS总部的SpeechRater引擎(不是给合作机构共享的阉割版)机评判分(4分制原始分)
2. 由人工按照10%的比例抽检
机评的应用使得人工成本骤减。很多同学会觉得自己被ETS的官方Rater评分是不是更占便宜,实际未必,因为人工判分工作负荷大,体力和脑力都是巨大挑战,很可能同一个rater在不同时间段打分会因为身体状况而有波动。
但机评就不会出现人工打分因工作量巨大而导致打分不稳定的问题。总之,无论你现在接不接受机评,ETS都坚信:人工智能机评——真香!
那问题来了,机评和人评的误差是多少,机评靠谱吗?
SpeechRater是世界上应用最广泛的英语口语测评系统之一,从2006年开始就内嵌在托福评分系统中(当时刚启动iBT考试,机评的主要任务先要喂数据),因为ETS自己就是测试模型的设计人,所以SpeechRater针对托福口语做了特别优化。
虽然市面上大家也能看到很多自称能给托福口语打分的APP或ETS合作授权版本,但趋于算法迭代版本和数据样本量的限制,顶多能对语速和输出量进行评估,还远远无法达到SpeechRater总部机评对托福答题进行质量鉴定的能力。
ETS在经过了2006-2015年整10年的数据积累,并经过人工打分校对不断优化机评打分容差,尤其伴随着2015年内嵌入神经网络学习托福口语复议,机评准确度已经达到82%以上。而且机评稳定性要远远高于人评,人总是有情绪的:短期内大量评分,体能损耗,情绪波动会影响评分的公允,对考生和测试系统的完善都不利。
所以,我们可以这样理解,机评介入后,即便你申请口语复议,也可能维持原判,甚至减分(人工复议会对答题逻辑内容要求更苛刻),即便机评的第一遍打分,你被打低了一分,复议确认机评校对,也就任务单项提高一分。举例:
比如口语6道题,小明分别得分:2, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.5分(4分制原始分),换算口语19分。
如果小明申请复议,Task 1提了1分(4分制原始分),小明分别得分:3, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.66分(4分制原始分),换算口语20分(原始分的换算如下图)。
也就是千辛万苦复议过后的小明从19分提了1分到20分。算一笔账,有这个闲工夫复议较真,还不如仔细研究一下评分规则和机评算法结构,让机评给我们的口语分打高点更省心。
ETS口语评分的规则是根据Lyle F. Bachman 和Adrian S. Palmer在Language Testing in Practice——Designing and Developing Useful Language Tests论文中的要点为测试模型设计基础:衡量Communicative competence的Rubric dimensions包括:
Fluency输出流利, Pronunciation发音正确, Prosody声韵, Vocabulary Range口语词汇量, Sophistication句型复杂度, Grammatical Accuracy and Complexity语法正确和复杂度, Content内容丰富, Aspects of Discourse辩论推理。
因为ETS设计的托福测试模型受众并非是语言专业人群,所以上述规则被精简为:Fluency, Pronunciation, Prosody, Vocabulary Usage, Grammatical Expression, and Content. 由此归类为托福口语评分的三大规则:
1. Delivery传递表达:
(1)口齿清晰(日常说话舌头懒很吃亏)
(2)答题连贯(超过3秒卡壳就算不连贯)
(3)发音准确(元音、辅音的唇齿舌配合到位,ETS不奢求你像native speaker一样地道)
(4)节奏自然(不要忽快忽慢,背忘词了很尴尬)
(5)语音语调(有抑扬顿挫切忌语调平平)
注:这部分的训练方法,《清北托福备考联盟慕课——口语篇》(腾讯教育、B站公开课均可搜)中有提供;另外一篇知乎的答题在 3 个月之内准备托福,想要达到 100+数据模型报告中我也有列出了免费学习资源。
2. Language Use语言应用:
(1)语汇使用恰当多样(先恰当再多样)
(2)句型灵活搭配(状定同位语分词运用自如)
(3)语法无误(中国同学常犯单复数、冠词、主谓时态等问题)
注:到底怎样的词汇输出才能达到要求,我们还是以ETS的发表论文数据为参考,下表中ETS给出了独立任务和综合任务的Good Level满分级别的数据统计(下图红框)。
满分独立任务答题实际输出词100词就足够拿到满分;满分综合任务答题实际输出词约138词就足够拿到满分。在这些满分口语答题中,82%都是GSL 1K(General Service List)级别的基础词汇,而GSL 2K级别的高级词汇仅占4%-5%。
GSL 1K词表参考:
3. Development论述拓展:
(1)观点明确回应题目(机评可以鉴别是否跑题)
(2)例证拓展细节丰富(通过神经网络学习,机评可以通过采样对比判断内容拓展是否达标)
(3)答题时间分配合理(如果答完一看还差5秒才到时间,就是时间分配不合理;当然允许超时,前提是已经足够论述,即便超时也无大防碍)
注:这部分的训练方法,《清北托福备考联盟慕课——口语篇》中有提供(腾讯教育、B站公开课均可搜);对于综合任务的笔记训练方法,可以在托福听力的练习过程中一起练快速笔记复述,不一定只抓着口语练笔记,要充分榨干每一套题的练习潜力。
从左到右的模组说明
1. Spoken Response,首先接收考场里的音频信号。我们答题的音频并不是平时听歌曲的CD音质,而是采样率较低的电话音质,所以这对我们答题时的环境有一定的要求。
比如特别吵杂(旁边一堆人激励哇啦使劲喊着答题),或者答题人喜欢挨着话筒非常近喷麦(气流的传导声),都会影响音频信号的上传质量。所以,国内的同学们要注意考场文明答题,大声喊着答题不但对别的同学造成噪音干扰,而且自己的麦克风收音也会因喷麦爆掉。
2. ASR(Automatic Speech Recognition),然后进行第一步音频信号识别。在Signal Processing中,那些口齿不清晰、发音不标准的音频都会被标记为识别失败,这就跟写作系统的e-rater原理一样,一句话如果主谓宾单词都拼错了,机器只能判定本句作废;
同理:因为口语发音不到位导致引擎无法识别发音信号,即便答了100个词,也可能因为识别不出而判定某句作废。目前SpeechRater的引擎辩音识别度能够达到95%以上的准确识别率,可以完全替代人工24小时不间断地投入工作。
3. Feature Generator
这分为两项,一项是Scoring Features,就是把识别出来的语音信号按照评分原则逐项评级;同步进行的是Similarity Features,就是作弊查重。
ETS喂了很多数据给这个“作弊查重”模组,尤其对于大陆同学广为流传的:“20G30G 托福资料网盘转发”或者“某金80题”等烂遍街的转发材料,ETS都可以直接把这些朋友圈满天飞的内容导入模组,查重属实自动判定0分也不再给与复议资格。
趋于本文的篇幅和读者受众是考生为主,这里就不再赘述晦涩的Feature Computation Modules迭代。
4. Filtering Model,这是在SpeechRater的历次升级中,提升最显著的模组,用于过滤掉无效答题内容:non-scorable (NS) responses。可以理解为,考生自认为有用的内容,但实际上蛋用没有。
对于国内同学来说,最常见的比如:中文作答,唱一首歌,背一段新概念第三册短文,亦或是在自己的答题中加入自认为很“洋气”的词,诸如:Well…, You know…, when we are talking about…, I believe this is a thought provoking question… 这些不知道是谁教给你的但实际上会被Filter Model模组直接过滤掉的信息,根本不会进入Scoring Model,对提分蛋用没有。
5. Scoring Model
在经过了对不清晰发音信号、无效答题信息、查重抄袭嫌疑的一系列数据过滤后,能够进入到打分模型的肯定不是同学们在答题时自己感觉的那样:我感觉挺好啊,我说的很流利啊,我语速不错啊托福口语复议,我答完了啊。
趋于本文的篇幅和读者受众是考生为主,这里不再赘述Multiple Regression Scoring Model的迭代,只需提醒一点,借助人工智能在这两年的突飞猛进,SpeechRater评分的人工校对准确率从73%提高到了82%。
尤其是Delivery和Language Use两项在配备了Filtering Model的深度学习后,可以准确判定70%的考生被刷在23分以下了:如果你的分数在22分及以下,大可不必操心复议提分,因为你已经没有资格享受人工判分的机会了,人工也听不懂这娃到底在嘟哝些啥。
1. 哪个数据处理环节把考生分数拉开了上断崖式差距?从ETS公布的数据来看,西方国家的口语成绩普遍高于东方国家,并不是语速快或者说得多,而是机评采样中西方人的Delivery和Language Use两项评级明显占优——西方同学发音大都清晰、流畅、语法正确率非常高。所以三大评分规则中的前两项都明显占优,自然口语评分就秒杀东亚的同学了。
2. 网上流传的各种很“洋气”的答题段子有用吗?在SpeechRater的初期发展中只能关注发音和流利度的测定,的确在没有加入Filtering Model的深度学习前比较弱鸡。但现在借助于DEEP Neural Networks和Graphics Processing Units,辅助于人工抽检已经有越来越高的鉴别率了,查到就是0分。想靠烂遍朋友圈的“20G资料”和所谓“XX金模板”照抄伎俩万万不要再有了。
3. “有人说”托福成绩会压分,是真的吗?先问自己三个问题:你是何方神圣让ETS特别关照你?SpeechRater跟你结过梁子有仇吗?“有些人”是“哪些人”,贴过115+的成绩单吗?这个“有些人”“网上说”“据相关人士透露”的说辞,大都来自于这一群体:考试过百很难,自己永远没错,世界跟他有仇,随处散发负能量。
附:一位托福口语高分案例研究。在《清北托福备考联盟慕课——口语篇》的讲义附件材料里,有一位高二的女生,一战口语21经过82天的量化备考,二战口语27。我们一起详细记录了整个备考过程每一天的量化指标统计和分析。高分案例摆出数据,科学备考事半功倍。
如果你觉得这样的知乎文章有帮助,请不要吝惜点赞哟!
附录Ref List:
Automated Scoring of Spontaneous Speech Using SpeechRaterSM v1.0, Xiaoming Xi, Derrick Higgins, Klaus Zechner, and David M. Williamson November 2008 ETS RR-08-62
SpeechRater™: A Construct-Driven Approach to Scoring Spontaneous Non-Native Speech, Klaus Zechner, Derrick Higgins, Xiaoming Xi Educational Testing Service Princeton, NJ, USA
Monitoring the Performance of Human and Automated Scores for Spoken Responses, Wang, Zhen; Zechner, Klaus; Sun, Yu, Language Testing, v35 n1 p101-120, 2018
Combining Human and Automated Scores for the Improved Assessment of Non-Native Speech, Yoon, Su-Youn; Zechner, Klaus, Speech Communication, v93 p43-52, Oct 2017
Comparative Evaluation of Automated Scoring of Syntactic Competence of Non-native Speakers,Zechner, Klaus; Yoon, Su-Youn; Bhat, Suma; Leong, Chee Wee, Computers in Human Behavior, p1-11, 2017
Automated Scoring Across Different Modalities, Loukina, Anastassia; Cahill, Aoife, Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications, San Diego, CA, June 16, 2016, p130-135
Feature Selection for Automated Speech Scoring, Loukina, Anastassia; Zechner, Klaus; Chen, Lei; Heilman, Michael, Proceedings of the 2015 Tenth Workshop on Innovative Use of NLP for Building Educational Applications, Denver, CO, June 4, 2015, p12-19.
Automatic Detection of Plagiarized Spoken Responses, Evanini, Keelan; Wang, Xinhao, Proceedings of the Ninth Workshop on Innovative Use of NLP for Building Educational Applications, 2014, p22–27.
Self-Adaptive DNN for Improving Spoken Language Proficiency Assessment, Qian, Yao; Wang, Xinhao; Evanini, Keelan; Suendermann-Oeft, David, INTERSPEECH 2016. 17th Annual Conference of the International Speech Communication Association, San Francisco, Sept 8 – 12, 2016, p3122-3126
Similarity-Based Non-Scorable Response Detection for Automated Speech Scoring, Yoon, Su-Youn; Xie, ShaSha, Proceedings of the Ninth Workshop on Innovative Use of NLP for Building Educational Applications, Baltimore, MD, Jun 26, 2014, p116-123
Automatic assessment of syntactic complexity for spontaneous speech scoring, Bhat, Suma; Yoon, Su-Youn, Speech Communication, v67 p42-57, Mar 2015