研究文章|开放访问
Joachim Neumann,斯蒂芬妮Simmrodt,Ulrich Gergs那 “在药理学阶层使用先习牙型书面测试大大提高了医学院在最终书面总结测试中的表现“,教育研究国际那 卷。2020.那 文章ID.6273806那 8. 页面那 2020.。 https://doi.org/10.1155/2020/6273806
在药理学阶层使用先习牙型书面测试大大提高了医学院在最终书面总结测试中的表现
摘要
我们希望在药理学课程中测试大学医学生的进展。正式教学被称为全班学生的讲座。我们在一项基本药理学课程之前和之后和第三年医学生的多项选择(MC)问题(单一最佳选择)的非常相同的书面测试。初步的自愿测试(包含30个MC问题)被占合格学生的79%(N = 147), a week before pharmacology lectures had started. Defining a passing grade of 60% of right answers, only 2% of the students passed the test. The range was between 5 and 21 points. The final, now obligatory, written test at the end of the course (one week after the last lecture in pharmacology) was taken by all students in the semester (N = 179) and was passed by 95%, of students, again defined by the same passing score. Here, the points obtained ranged from 12 to 29. Over the time of the semester, the attendance in the lectures dropped dramatically to less than 10% of the students. Hence, progress tests are useful, but they hardly measure the gain in knowledge through attendance in the pharmacology lecture (the intervention); they also measure other sources of knowledge, such as textbook reading or memorizing only the initial questions and looking up the answers.
1.介绍
评估在教育中获得的知识是一项持续的任务[1].一种可能是使用各种形式的进度测试。这在世界上许多医学院和不同国家的医学教育中以不同的方式进行了。为了达到这个目的,目前通常会进行多项选择题测试,而不是口头测试。MC考试相对于口语考试的优势在于其可靠性和客观性高,可以标准化,在短时间内测试大班,测试广博的知识。最后,由于计算机可以对测试进行评分和评估,提供诸如难度指数、歧视指数、可靠性、干扰因素的强度、测试歧视和其他心理测量参数等信息,因此它们具有成本效益。2那3.].通常,在一个学期结束时只给出一个MC测试,用于教授某个主题,例如,如果他们选择了这样的话,那么可以参加基础药理学的讲座。从该决定的最终MC测试中,这并不一定是明显的,在该测试结果中有多少测量知识来自讲座或以前的知识。但是,我们想知道先前的知识(学期开始)或外面的工作讲座出席的工作占学期审查结束时的成功。我们假设知识的增加完全是由于学期期间的讲座。
2.相关的研究
其他人试图通过在完成课程之前,期间或之后进行相同的测试来评估医学教育的知识的收益[4.那5.].在其他情况下,重复测试而不学习对于知识保留比在没有测试的情况下更有用[6.].在学习前进行测试可能会有好处,例如激励学生在参加讲座或课程之前进行准备,并可能使学生意识到他们特殊的知识差距(在[7.])。在预测试知识的即使失败检索可以促进从讲座[后续学习8.那11.].
为了排除学生只是背诵了预试题的正确答案而通过期末考试的可能性,我们没有把预试题的题目发给学生。此外,第一个测试让学生们没有意识到第二次测试会提供与前一个测试相同的问题。此外,我们还包括了一组控制测试的学生,他们在期末考试中得到了同样的问题,但在预测试中看不到这些问题。
我们的研究假设是给予两次相同的MC试验(在教学时期之前预先测试,在教学时期之后的最终测试)将是评估药理学讲座成功的适当方式,至少对于那些学生来说参加了讲座。
3.方法论
3.1。研究方法
初步的自愿书面测试(预测试),以显示(在本案例中)药理学中的学术成就包含30个多项选择(= MC)问题,具有60%的级别(见图1).该MC反映的问题随后的演讲中学习目标。通常情况下,每个讲座两个问题构建。内容涵盖基础和系统的药理作用,如药效学,药代动力学,自主药理学,抗心律失常药,药物降低血压和抗生素。择优奖励积分在期末考试动机的学生奖励采取初步测试,以提高他们的成绩。在过去的几年中,我们给预测试(比本研究不同的问题)并没有提供像加分奖励,但我们有低参与率(符合条件的学生的10-20%),性能差:学生后来告诉我们,他们没有采取考试认真回答了许多问题随机[12.].
(一种)
(b)
课程结束时的总结测试包含了与前测试相同的MC问题(图)1).学生们坐在教室里,被空座位隔开,由老师监督。准备了四个版本的笔试,只是问题和答案的顺序不同。
之前在药理学课程结束后参加同样要求的测试,但没有预测试的学生作为对照组(图)1).在队列1(对照组)中,基线由219名学生组成。在队列2(研究组)中,147名学生参加了自愿预测,179名学生参加了预测和要求的测试。队列3包括37名有资格参加预测试但只选择参加最终测试的学生。相比之下,只有5名学生参加了前测,但没有参加期末考试。
两组学生的听课情况(每周听课一次,总共听课11次)都受到了监控:学生被要求填写纸质考勤表。
3.2.数据分析
用Excel 2010计算均值的算术平均值和标准差。使用SPSS 25建立相关性(Spearman相关)和参数或非参数检验[11.].概率值(值少于0.05被认为是显着的。
3.3.数据可用性
感兴趣的读者可以从任何作者那里获得所有电子格式的数据(原始数据和统计分析)。
3.4。评估结果
为了建立药理学基础课程后测试结果的基线分布函数(图)1,上车道),书面,强制性检查是给予医学生的1个。在队列1(对照组)中,219名,共219名可能参与学生坐在考试(96%的学生)。达到的平均点(算术平均值和SEM)为20.29±0.27,其中70名是男性和149名女学生。这两个人都达到了类似的观点,即19.9±0.46和20.4±0.42点( ).根据斯皮尔曼的研究,在对照组中,听课次数与听课后的期末考试分数之间没有相关性(图)2那 ).
在自愿前测(图3.),在随后的新生组(队列2前测试),184名可能的学生中有147人参与(该队列的80%的学生)。平均得分为11.5±0.23分,其中男性65分,女性82分,再次得分相似,分别为11.9±0.38分和11.1±0.28分( ).点的分布如图所示3.。占据60%作为经过的级别(18分),只有三个坐在考试的147人中,将通过(2%)。最低等级为5分(随后没有参加期末考试的学生)。达到的点范围在5到21点之间。这表明实际上没有关于这些学生的基本药理学的知识,这些学生将被预期,因为它们仅在接下来的几周内暴露于基本药理学的讲座。同一考试再次给予这些学生(图3.)(队列2预测试+强制性测试),现在学生达到25.8±0.31点(图4.).使用学生T.-test,讲座后考试(期末考试)的平均成绩比入学考试更好(图)3.与图4.那 ).在队列2(预测试+强制性测试)的所有参与者中,62名学生是男性,80名学生是女性,这再次达到了可比的结果(分别为25.4±0.49和26.2±0.41点 ).占据60%作为通过级别(18分),多达142名参与者的参与者(95%)。最低等级为12分(一名学生),最高等级为29分(21名学生)。同样在这项研究队列中,在讲座后的讲座的出勤率与讲座中取得的积分没有显着的相关性(根据Spearman)(图4.那 ).图中达到了平均点4.高于图2(Mann-Whitney ).此外,点图达到4.高于图3.(Mann-Whitney ).
尚未参与预先预测试的学生(仅限三个,强制性测试)达到25.3±0.55的平均点(图5.),其中男性10例,女性27例,得分分别为23.5±1.39和26.04±0.52分。如果将60%作为及格分数(18分),那么37名参与者中多达36人(97%)将通过考试。最低年级15分(1人),最高年级29分(3人)。
有趣的是,有一名学生在第一次(预试)到第二次(强制期末)考试中,分数从13分下降到12分。相比之下,最高的进步(一个学生)是从6到29分。有三名学生从8分提高到29分,还有一名学生进步最差,从7分提高到13分。所有可能参加考试的学生在课程结束时都要参加最后的强制性考试(N = 179) and was passed by 94.97% (range of points obtained was 12 to 29).
由于课程,这可能被解释为知识的增益,而且由于学生的问题(然而从未正式释放)的议案,也是(与学生的非正式谈判)。
参加初试和未参加初试的学生在期末考试分数上的差异令人感兴趣。这些组分别绘制成图5.和6.。单面T.以及做了一个值为0.032,表示显著性。此外,没有明显的性别差异,这是令人欣慰的(数据未显示)。在图中7.,将各组(队列1、2、3)的分布函数进行组合,以便于组间比较。
在临床药理学的强制性考试中(这门课程是在第六和第七学期向同一医科学生讲授的,见图1),我们有机会从第5学期开始跟踪第2队列(前测试+强制性期末考试)的147名学生。除了147名学生外,还有27名学生(原来的37名学生)只参加了强制性的笔试(期末考试:图)6.,队列3)。在群组4(147个群组2名学生)的子组中,获得的平均点为16.02±0.278。男学生和女学生分别达到了类似的点,即16.54±0.426和16.99±0.368点。范围在7到25点之间。
如果在第7学期末进行的强制考试中,以60%的合格率(18分)计算,213人中只有74人(34.74%)通过了考试。在我们的第4组中,如果把60%作为及格分数,147名学生中只有47人(19名男性和28名女性)及格(31.97%)。平均得分为:16.15±0.287分,其中男54分,女85分,分别为16.69±0.425分和17.01±0.391分。范围在8点到24点之间。如上所述,我们在第七学期跟踪了37名只完成了必考的学生中的27名(最终测试:图)6.,队列3)第五学期。这27名学生已达到以下均值:15.89±0.820,其中8名是男性,19名是女性,达到类似的点,14.5±1.647和15.89±0.951点。范围在7到25点之间。在图中8.,对每个队列给予研究武器(群组)通过和失败的学生的百分比和每个队列给出了相应数量的学生的百分比。灰色背景突出显示的预测试组(群组2),并且义务考试由虚线矩形表示,以便于将学生分配给研究组(图8.).
此外,我们试图将基础药理学考试(第五学期)的结果与学生的期末考试(德国范围的委员会考试,笔试,MC,包括所有临床医学主题,包括基础和临床药理学:= M2考试)的结果联系起来。我们获得了114名学生的数据。学生们在2016年4月或2016年10月参加M2考试,最高可获得319分,最高可获得317分。在96名(210 ~ 295人)参加预试和期末考试的学生中,男41人的平均分为257.17±3.054分,女55人的平均分为256.29±2.780分。在药理学入门课程的期末考试中,在随后的临床药理学课程中(斯皮尔曼相关, ),和德国的最终国家考试(称为“M2-考试”,Spearman相关, ).
4.讨论
除了使用MC测试进行总结考试,许多医学院也使用MC问题进行形成性考试。如果学习者的行为来自外部条件,可以理解为可观察的改变,可以理解为可观察的改变[12.].有趣的是,知识的检索可能会影响后来的保留。如果所有知识得到测试,那么知识的保留更好,与未坐在任何考试的小组相比(测试效果:用于审查,见[13.那14.])。例如,在美国的一个八年级科学课堂上,在课程的最终考试中达到了更好的分数,前提是在之前进行了测试:92%的先前Quizzy MC问题被正确回答,与MC问题相比没有以前测试过[15.].然而,这项研究不是在医学生;考试是在线的,因此可能会进行操纵(学生可能会在其中文发出正确的答案)。
然而,人们可能会使用测试,以提高具有重要的临床事实保留,于我们而言重要的临床药物,例如,其适应症,禁忌症,以及相关的药动学参数。虽然测试效果在人工心理实验室环境已经清楚地表明,关键是要知道这个测试的影响是否也存在于在这项研究中药学医学生当前的医学课程。It has been argued that in real life, medical students also learn outside the classrooms (e.g., during ward rounds and their clerkships), they are exposed to pharmacological knowledge in other lectures and courses (internal medicine, dermatology, etc.), and they do homework on their own or in groups, and get reading assignments or at least suggested papers or textbook chapters in pharmacology (compare [16.])。
评估知识获取进展的一种行之有效的方法是使用进度测试(通常采用电子形式[17.那18.],如在荷兰[多中心的试验19.在德国[20.])。一些作者得出结论,进展测试可能是对可能需要特别注意的学生的早期识别,并且进步测试可能是自学家的有用工具[21.那22.].在这些进步测试中,与我们的研究相比,在医学院的整个学期在整个学期中不断考虑典型的决赛委员会考试问题。临床医学的所有特色都经过测试,有大量的问题(问题银行)可用,并且没有问题是两次问题。
别人给予多次相同的问题,以评估在临床检查而不是在药理学[能力5.].这些同事每年两次用同样的47个MC问题对32名学生进行测试,以评估药剂科学生(而非医科学生)在药物治疗学上的学习成绩的持续性[4.].此外,他们的主要目标是比较基于团队的学习和讲座[4.].
加拿大的同事最近发表了一项与我们相似但环境不同的研究[7.].他们测试了之前的(在线)MC测试是否在随后的研讨会(教育干预)中增强了儿科医生的知识保留。7.].他们的对照组没有接受以前的MC测试。研讨会结束后,两组人(在网上)都被问及同样的主持人问题[7.].事实证明,如果预先预先完成,则留下更好(以MC测试在MC测试中测量)[7.].这是对我们结果的令人鼓舞的相似之处。但是,他们测试了认证的儿科医生;因此,预期某些先前的知识(图2在 [7.].此外,更有动力儿科医生打算讲习班;因此,有可能是参与者(的选择偏差只有308人参加,62%186,愿意参加研究[7.])。因此,他们的结果肯定比动机较弱的参与者(可能包括我们的学生)要好。与本研究不同的是,在前测和前测中只进行了5次MC测试不同的在知识测验期间进行的能力测验[7.].
值得欣慰的是,参加了前测的学生在期末考试中表现得更好(图)4.)比未参加预试的学生(图2).然而,这种解释显然并没有得到数据的充分支持,因为在第二学期没有参加前测的学生表现得更好(图)6.)比学生在上学期(图2).因此,我们可以简单地得出这样的结论:那些喜欢自学的学生并没有从预测试中获得多少收获(对比数据)4.和6.).
我们想竭尽全力与相当多的参与者(每学期147-219名学生)有可能与其他参与者数量较低的研究,其中相同的测试是两次相同的测试和平均点的改善被视为教学干预效果的证据。例如,临床学生在重症监护旋转中获得了同样的问题,最初和四周后,32名参与者在基线(65.7)的考试点增加了4.6分[23.].
有人可能会问,我们怎么知道控制组是有效的控制组,而不是一群总体表现较差的学生。有人可能会说,如果不把学生随机分配到实验组和控制组,就有必要以其他方式确认控制组在所有相关背景变量上与实验组相匹配。诚然,这是我们研究的一个局限性。然而,我们注意到对照组在临床药理学课程结束后(第七学期末)的笔试中获得的平均分数与研究队列没有统计学差异。这反驳了一种假设,即与研究队列相比,一般学术较弱的学生群体被用作控制队列。此外,有人可能会问,为什么上课出勤率与期末考试无关。诚然,这让我们感到惊讶:我们曾预期二者之间存在很强的正相关性。然而,来自几个国家的许多同事私下里也提到了类似的发现:随着时间的推移,医学院学生上课的出勤率(他们不被强迫参加世界上大多数大学的课程)急剧下降。学生们通常用争分夺秒的时间需求来解释这一点,比如为即将到来的考试学习。
此外,有人可能会说,既然参加预测的人和没有参加预测的人在期末总结测试中的表现差别很小,那么进行预测有什么好处呢?这显然质疑了预测试的有效性。解决这个问题的一种方法可能是在随后的研究中通过额外的问卷调查来评估学生是否认为前测试在主观上有帮助(有助于更好地理解讲课内容、教材或为之后的测试做准备)。如果有报道说学生有强烈的愿望保留这一pretest,这应该值得考虑,因为在大多数学院,学生满意度在课程发展中起着重要的作用。否则,我们将不再使用预测试,因为它绑定了资源。
4.1。未来的工作
在未来,由于对我们资源需求较低的原因,我们打算使用本研究的基本格式进行在线测试作为预测试。对于最终书面考试的最终书面考试中,这将是有趣的,看它是否会导致更糟糕,类似或更好的结果而不是书面预测。此外,如果一个人会重复目前的调查,那么了解我们在测试条件下的信息学生在真正使用的情况下提供信息。人们可以在学习工具和习惯上提供开放的问卷,将这些学习习惯与最终测试相关联:然后将预测结果用作最终测试结果的贡献因素。
5.总结
总之,给相同的MC问题两次来测试中间的干预可能高估了干预对知识获取的影响。据我们所知,这是第一次在药理学的医学生中进行这种研究。
6.结论
进展的测试中,由前测和最终测试的,是测量在医学学生知识增益是有用的,但它们很难单独测量通过出勤在知识的增益,例如,药理学基础讲座(干预);他们还测量新知识其他来源,如课本阅读,或只记住了最初的问题。
数据可用性
所有原始数据都以电子形式提供。
的利益冲突
作者声明他们没有利益冲突。
作者的贡献
J. N.设计了研究。S. S.和U. G.进行了研究。S. S.,J.N和U. G.分析了数据。U. G.和J. N.写了这篇论文。
致谢
作者承认PD博士Alp Alp Alp Alp Alp Alp(心理学研究所)与设计,统计测试和对研究的解释的支持。作者感谢州医疗审查员(LandesprüfungsamtHalle),特别是Frau Roscher,用于使我们提供数据。作者承认德国研究基金会(DFG)提供资金计划开放式发布的财务支持。这项工作没有收到任何外部资金。所有内部资金都是通过国有的马丁·路德大学哈勒 - 维滕伯格。
参考文献
- A. Krouska, C. Troussas, M. Virvou,和C. K. Fragkakis,“在编程语言的在线辅导中应用斯金纳条件反射塑造技能表现”,在第九届信息、情报、系统和应用国际会议论文集,pp.1-5,Zakynthos,希腊,2018年7月。视图:出版商网站|谷歌学术
- D. Bauer,M. Holzer,V.Kopp和M. R.Fischer,“Pick-N多项选择考试:评分算法的比较”在健康科学教育进展,卷。16,不。2,pp。211-221,2011。视图:出版商网站|谷歌学术
- L. W.T.Schuwirth,D. E.Ballmore,E. Mom,F.Van Den Wildenberg,H.E.J.H. Stoffers,以及C.P.M.Van der Vleuten,“如何编写评估问题解决方案的短暂案例,”医学老师,卷。21,不。2,pp。144-150,1999。视图:出版商网站|谷歌学术
- B. Bleske,T. Remington,T.Wents,K.Klein,J. Tingen和M. Dorsch,“长期学习成果的团队学习和讲义格式的随机交叉比较”药店,卷。6,不。3,p。81,2018。视图:出版商网站|谷歌学术
- R. G. Williams,D. Klamen,T.Clark,S.T. Hingle,G. M. Rull和J. Daniels,“物理发现在医学学校 - 纵向数据分析中进行了进展测试”欧洲医学教育协会的诉讼程序,卷。177,p。4J1,巴塞尔,瑞士,2018年。视图:谷歌学术
- D. P.拉森,A.C.巴特勒和H. L.洛蒂格III,“重复测试改善保留相对于反复研究长期的随机对照试验中,”医学教育,卷。43,不。12,pp。1174-1181,2009。视图:出版商网站|谷歌学术
- M. Feldman, O. Fernando, M. Wan, M. A. Martimianakis, K. Kulasegaram,《测试测试增强的继续医学教育》,学习医学,卷。93,没有。11S,PP。S30-S36,2018。视图:出版商网站|谷歌学术
- L. E. Grzeskowiak,A. E. Thomas,J.至,E. Reeve和A. J. Phillips,“使用受众响应系统加强继续教育活动:一个单一盲目对照试验”杂志继续教育的保健专业,卷。35,不。1,pp。38-45,2015。视图:出版商网站|谷歌学术
- L. E. Richland,N. Kornell和L. S.Kao,“预示效果:不成功的检索试图增强学习?”实验心理学杂志:应用,第15卷,第5期。3, pp. 243-257, 2009。视图:出版商网站|谷歌学术
- A. Melzer, U. Gergs, J. Lukas, J. Neumann,《多项选择题考试中的评分量表测量:药理学的试点研究》,教育研究国际文章编号8615746,12页,2018。视图:出版商网站|谷歌学术
- A.领域,使用IBM SPSS统计信息发现统计信息, SAGE edge,伦敦,英国,2018。
- A. Krouska,C. Troussas和M.Virvou,“计算机化自适应评估,基于修订的盛开分类法,”使用累计学习活动“基于知识的软件工程:2018。JCKBSE 2018.智能创新,系统和技术,M.Virvou,F. Kumeno和K. Oikonomou,EDS。,Vol。108,PP。250-258,Springer,Cham,瑞士,2019年。视图:谷歌学术
- H.L.Roediger和J. D. Karpicke,“测试记忆力的力量:基本研究和对教育实践的影响,”关于心理科学的透视, vol. 1, no. 13,页181-210,2006。视图:出版商网站|谷歌学术
- H.L.Roediger和J. D. Karpicke,“测试增强学习”心理科学,卷。17,不。3,pp。249-255,2006。视图:出版商网站|谷歌学术
- M.A.Candaniel,K.M. Wildman和J. L. Anderson,“使用测验”在基于网络的类中提高总结评估性能:实验研究,“记忆与认知应用研究杂志, vol. 1, no. 11,第18-26页,2012。视图:出版商网站|谷歌学术
- K. B.麦克德莫特,P. K.阿加瓦尔,L. D'安东尼奥,H. L.洛蒂格和M. A.丹尼尔,“无论是多项选择题和简答题竞猜加强初中和高中课程后的考试成绩,”实验心理学杂志:应用,卷。20,没有。1,第3-21,2014。视图:出版商网站|谷歌学术
- C. Bremers,A Krouska和M. Virvou,“使用用于学习的分析来预测学习者的认知状态,并提供量身定制的学习途径和评估多模块模型”,在机器学习模式。智能系统参考图书馆,M. Virvou,E. Alepis,G. Tsihrintzis和L.耆那编,第158,第9-22,施普林格,瑞士Cham,2019。视图:谷歌学术
- C. Troussas,A Krouska和M. Virvou,“MACE:为适应领域知识并生成个性化的建议移动人工会话实体”国际人工智能工具杂志第28卷第2期04、条款ID 1940005, 2019。视图:出版商网站|谷歌学术
- R. A. Tio, B. Schutte, A. A. Meiboom等,《医学的进步测试:荷兰的经验》医学教育的观点,卷。5,不。1,pp。51-55,2016。视图:出版商网站|谷歌学术
- J.阿里亚斯,H. Schenkat,S. Finsterer和M.西蒙,“学生师徒基于使用结合的总结性过程和形成性进展的测试结果,一个学生纵向视图结构化选择的表现,”在欧洲医学教育协会的诉讼程序,赫尔辛基,芬兰,2017年。视图:谷歌学术
- R.加格农和C. Bourdy,“进度测试,以确定医疗学生潜在的学习困难和加拿大认证考试预测分数,”在在欧洲2016年协会医学教育论文集,卷。262,巴塞罗那,西班牙,2016年。视图:谷歌学术
- A. Krouska, C. Troussas,和M. Virvou,“基于社交网络的学习系统使用基于iso的新框架的文献综述”,智能决策技术,卷。13,不。1,pp。23-39,2019。视图:出版商网站|谷歌学术
- D.皮格特,R. Brydges, A. Goffi, C. Lee, B. Mema,和C. Walsh,“危重病临床推理亚专科住院医师的能力评估:支持脚本一致性测试的有效性证据”,在欧洲医学教育协会的诉讼程序,卷。177,p。3I7,巴塞尔,瑞士,2018。视图:谷歌学术
版权
版权所有©2020约阿希姆·诺伊曼等人。这是分布下的开放式访问文章创意公共归因许可证,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。