本文提出了一个面向生产的实体解析评估框架,该框架在没有传统真实数据的情况下操作。我们通过结合持续监测、领域约束和合成数据生成,解决了在没有真实数据的生产环境中评估实体解析质量的挑战。实验表明,该系统具有很高的精准度(0.99)。然而,召回率较低(0.41),许多真实匹配被遗漏,导致F度量为0.58。我们的方法结合了字符串相似度函数优化、自适应阻塞键设计和领域约束验证,以提高召回率,同时保持高精准度。该框架已在每天处理数百万实体记录的大规模生产环境中得到验证,显示出了对工业实体解析系统的实际适用性。
Korajcevic等人(周四)研究了这个问题。