TY - Jour A2 - 罗诺·奥尔塔斯,大卫奥 - 王,余奥 - 太阳,yine Au - Ma,Zuchang Au - Gao,Lisheng Au - Xu,杨Py - 2020 DA - 2020/09/09 Ti-命名实体识别在使用预先预订模型中的中文医学文献SP - 8812754 VL - 2020 AB - 医学文献包含有价值的知识,例如特定疾病的临床症状,诊断和治疗。命名实体识别(ner)是从非结构化文本中提取此知识并将其作为知识图表(kg)提出的初始步骤。然而,先前的ner方法经常遭受小规模的人类标记的训练数据。此外,从中国医学文献中提取知识是一个更复杂的任务,因为汉字之间没有分段。最近,预先预订模型,从大规模未标记的Corpora获得了现有语义知识,已经为各种自然语言处理(NLP)任务实现了最先进的结果。然而,预先升温模型的能力尚未充分利用,以及除伯特在中文医学文献中的特定领域之外的其他预介绍模型的应用也是兴趣的。在本文中,我们使用预先润廓模型提高了中文医学文献中的术。首先,我们通过用掩码语言模型(MLM)用同义词替换培训中的单词来提出一种数据增强方法,这是预先训练任务。然后,我们认为ner作为预先预测模型的下游任务,并转移预先预测期间获得的先前语义知识。 Finally, we conduct experiments to compare the performances of six pretraining models (BERT, BERT-WWM, BERT-WWM-EXT, ERNIE, ERNIE-tiny, and RoBERTa) in recognizing named entities from Chinese medical literature. The effects of feature extraction and fine-tuning, as well as different downstream model structures, are also explored. Experimental results demonstrate that the method of data augmentation we proposed can obtain meaningful improvements in the performance of recognition. Besides, RoBERTa-CRF achieves the highest F与以前的方法和其他预介绍模型相比,1分。SN - 1058-9244 UR - https://doi.org/10.1155/2020/8812754 Do - 10.1155 / 2020/8812754 JF - 科学编程PB - Hindawi Kw - ER -