简介

文本分析是指利用自然语言处理技术,对待处理的文本数据以自动或半自动的方式进行分词、词性标注、命名实体(常见有人名、地名、机构名)识别、关系抽取、主题建模等,从而挖掘并展示文本中的潜在特征和语义信息。

典型项目

工具 & 教程

可能用到的中文资源

  • 领域词典,如中国历史年表。
  • 相关结构化主题数据库,如中国历代人物传记资料库(CBDB)等。
  • 数字化典籍文本数据库,如中文哲学电子书计划(CTEXT)、汉籍数据库(Kanripo)、中华电子佛典数据库(CBETA)等。

相关阅读

  • 公众号零壹lab中的推文:文本挖掘(一)、文本挖掘(二)