当前位置：首页 > 应用软件 > CIPP中文分词工具

CIPP中文分词工具

相关软件

软件简介

　　CIPP中文信息处理平台，中文自动分词、全文检索、统计工具。

　　本工具的研制得到以下项目的资助：

　　南京师范大学十五211重点学科建设项目“语言信息处理与分领域语言研究的现代化” 。

　　该系统具有中文自动分词、全文检索、统计等基本功能。

CIPP中文分词工具

　　具体内容如下。

　　1. 中文自动分词

　　1）可以对给定的中文文本进行自动分词、一级语音分词和二级语音分词标记。

　　2）支持大批量文本的自动分词和语音分词标签处理，并可处理各级子文件夹下的文件。

　　3）根据需要分割和标记的文本的类别，可以添加用户自定义的字典，进一步提高词语分割和标记的准确性。

　　4）用户可以对系统词典进行扩展，添加、删除、查看系统词典，并将系统词典输出为TXT文本编辑，然后转换为系统的电子词典。

　　5）支持人名、地名、机构名称等未注册词的识别，支持基于GBK字符集的简体和繁体文字的处理。

　　2. 全文检索

　　1）对给定的大批量文本可以分别建立基于词、字、词和语篇的三个索引库。

　　2）打开相应的索引库后，可以对字符串、词串、字和语篇串进行全文检索。

　　3）可显示检索结果的来源，点击后可自动打开相应的文本，供具体参考。

　　4）支持语言属性的全文检索，可以控制检索字符串的搭配和范围。

　　5）可以控制搜索结果中关键词串前后显示的字数，并将结果中的查询关键词串以红色或蓝色显示。

　　3. 统计数据

　　1）可以对大批量的文本进行词频和字频统计，并可以处理各级子文件夹下的文件。

　　2）对于统计结果，提供基于字码表、频率、拼音、部首的排序和显示。

　　3）可以对指定文件夹和子文件夹下的所有TXT文本文件进行词频统计（对于未分词的文本，可以在自动分词的同时进行词频统计，也可以对已分词和人工校对的文本进行词频统计）。

　　4）词频统计对象不是基于词汇表中的单词，而是统计单词分割结果中的所有单词。

　　5）统计和检索结果可以被编辑并保存为TXT或RTF格式的文件。

　　注意： *本系统处理的文件只能是TXT文本格式！

　　*自动分词、全文检索、统计处理的文本都在该文件夹下，所以处理后的文本应放在该文件夹下。

下载地址