“吾与点”古籍智能处理系统

  • 原型系统访问地址 :   https://wyd.pkudh.xyz/
  • 标签 :   古籍整理、人工智能、自动句读、自动标点、专名识别

介绍

       传统的古籍整理通过选定某一代表性版本作为底本,通过与其他版本的对勘校订底本文字,同时施以现代标点,标示书名、人名、地名、朝代名,旨在提供一个文字准确,标点可靠,方便阅读的排印文本。“吾与点古籍智能整理平台”应用深度学习技术在大规模古汉语标记语料上实现了自动句读、命名实体识别等基本古籍整理功能。目前提供公开测试的有自动句读和命名实体识别功能。自动标点、自动分词、自动关系识别等高级功能将会陆续开放测试。
       自动句读系统是基于深度学习的预训练语言模型实现的,利用互联网上公开的古籍文本库训练得到。系统能够处理各类古籍文本,包括经史子集四部典籍以及佛藏,道藏,通俗小说等。无论是先秦典籍还是明清小说,目前模型在混合类文本测试集上的句读平均准确率(F1值)超过94%,达到了实用标准。“吾与点”自动句读系统具有极高的处理速率和响应速率,经测试,API接口处理5万字耗时10秒左右。
       命名实体自动识别系统功能旨在从非结构化的输入文本中识别出各类专有名词。在实际的应用场景中,可以按照不同的业务需求识别出特定的实体,比如在古代历史文献中要识别地理、年号、职官、著述等常规命名实体。“吾与点”采用BERT+BiLSTM+CRF模型,在大规模增量训练的BERT模型基础上,应用迁移学习实现古籍命名实体识别。经测试,现有模型在与训练语料同类型的测试语料上,其准确率(F1)达到98.5%。在《尚书》、《春秋》等先秦上古语料上对人名、地名的泛化准确率(F1)分别达到87%和82%。上述的准确率水平,表明当前基于预训练模型的深度学习方法在中华古籍文本上的句读和专有名词识别已经取得与专业人员相媲美的表现,准确率的进一步提升完全取决于标记语料的质量和覆盖率。

团队成员

  指导教师:王军、苏祺、杨浩
  模型研发:唐雪梅,严承希
  数据处理:陈雨航,岳铁琪,邓泽琨,季佳雯,李山雨
  前端开发:黄恒博
  后端开发:孟令勇
  Logo设计:李若屹
  界面设计:梁利敏,汪博涵,李文琦,孙蕴珂

技术支持

  元引科技有限公司

成果发表

· Yan, C., Su, Q., & Wang, J. (2020). MoGCN: mixture of gated convolutional neural network for named entity recognition of Chinese historical texts. IEEE Access, (08), 181629-181639. doi:0.1109/ACCESS.20 20.3026535.
· Yan, C., Wang, J. (2020). Exploiting Hybrid Subword Information for Chinese Historical Named Entity Recognition. In 2020 IEEE International Conference on Big Data (Big Data).
· 唐雪梅, 苏祺, 王军, 陈雨航, 杨浩. 基于预训练语言模型的繁体古文句读研究.第二十届中国计算语言学大会.