记一次不同Ner实体命名模型实际生产效果对比

1、数据准备

训练数据:医疗影像经过OCR识别后,得到的纯文本数据,且已经过专业标准人员标注。

测试数据:与训练数据同源,8:2的比例切分后得到。

验证数据:经过本人逐条核验,共150条,非连续实体有50条,嵌套和普通实体有100条。

2、模型准备

2.1标注方法:bio ,模型:bert,框架:tensorflow

基于BERT预训练的中文命名实体识别TensorFlow实现

2.2标注方法:globalpointor(多头标注) ,模型:bert,框架:keras

详细可参见:

GlobalPointer:用统一的方式处理嵌套和非嵌套NER

2.3标注方法:堆栈 ,模型bert, 框架:tensorflow

[论文笔记]一种高效基于转移的不连续命名实体识别模型

2.4标注方法:positon, 模型W2NER  框架:PYTORCH

Unified Named Entity Recognition as Word-Word Relation Classification

3、测试结果

校验指标:预测实体集合为A,真实实体集合为B

校验准确率:A∩B / B        (即召回率:预测正确的实体个数占实际实体个数的比例)

三种NER方法的实测效果
150条混合数据100条嵌套普通数据50条非连续真实场景(20%非连续、80%嵌套普通)
bert0.663        0.8540.370.7572
globalpointor0.710.881 0.4470.7942
W2NER0.7920.9390.6200.8752