记一次不同Ner实体命名模型实际生产效果对比
1、数据准备
训练数据:医疗影像经过OCR识别后,得到的纯文本数据,且已经过专业标准人员标注。
测试数据:与训练数据同源,8:2的比例切分后得到。
验证数据:经过本人逐条核验,共150条,非连续实体有50条,嵌套和普通实体有100条。
2、模型准备
2.1标注方法:bio ,模型:bert,框架:tensorflow
基于BERT预训练的中文命名实体识别TensorFlow实现
2.2标注方法:globalpointor(多头标注) ,模型:bert,框架:keras
详细可参见:
GlobalPointer:用统一的方式处理嵌套和非嵌套NER
2.3标注方法:堆栈 ,模型bert, 框架:tensorflow
[论文笔记]一种高效基于转移的不连续命名实体识别模型
2.4标注方法:positon, 模型W2NER 框架:PYTORCH
Unified Named Entity Recognition as Word-Word Relation Classification
3、测试结果
校验指标:预测实体集合为A,真实实体集合为B
校验准确率:A∩B / B (即召回率:预测正确的实体个数占实际实体个数的比例)
| 150条混合数据 | 100条嵌套普通数据 | 50条非连续 | 真实场景(20%非连续、80%嵌套普通) | |
| bert | 0.663 | 0.854 | 0.37 | 0.7572 |
| globalpointor | 0.71 | 0.881 | 0.447 | 0.7942 |
| W2NER | 0.792 | 0.939 | 0.620 | 0.8752 |