记一次不同Ner实体命名模型实际生产效果对比

1、数据准备

训练数据：医疗影像经过OCR识别后，得到的纯文本数据，且已经过专业标准人员标注。

测试数据：与训练数据同源，8:2的比例切分后得到。

验证数据：经过本人逐条核验，共150条，非连续实体有50条，嵌套和普通实体有100条。

详细可参见：

2.4标注方法：positon, 模型W2NER 框架：PYTORCH

校验指标：预测实体集合为A,真实实体集合为B

校验准确率：A∩B / B (即召回率：预测正确的实体个数占实际实体个数的比例)