CIPP中文信息处理平台,中文自动分词、全文检索、统计工具。
本工具的研制得到以下项目的资助:
南京师范大学十五211重点学科建设项目“语言信息处理与分领域语言研究的现代化” 。
该系统具有中文自动分词、全文检索、统计等基本功能。
具体内容如下。
1. 中文自动分词
1)可以对给定的中文文本进行自动分词、一级语音分词和二级语音分词标记。
2) 支持大批量文本的自动分词和语音分词标签处理,并可处理各级子文件夹下的文件。
3) 根据需要分割和标记的文本的类别,可以添加用户自定义的字典,进一步提高词语分割和标记的准确性。
4) 用户可以对系统词典进行扩展,添加、删除、查看系统词典,并将系统词典输出为TXT文本编辑,然后转换为系统的电子词典。
5)支持人名、地名、机构名称等未注册词的识别,支持基于GBK字符集的简体和繁体文字的处理。
2. 全文检索
1)对给定的大批量文本可以分别建立基于词、字、词和语篇的三个索引库。
2) 打开相应的索引库后,可以对字符串、词串、字和语篇串进行全文检索。
3)可显示检索结果的来源,点击后可自动打开相应的文本,供具体参考。
4)支持语言属性的全文检索,可以控制检索字符串的搭配和范围。
5)可以控制搜索结果中关键词串前后显示的字数,并将结果中的查询关键词串以红色或蓝色显示。
3. 统计数据
1) 可以对大批量的文本进行词频和字频统计,并可以处理各级子文件夹下的文件。
2)对于统计结果,提供基于字码表、频率、拼音、部首的排序和显示。
3) 可以对指定文件夹和子文件夹下的所有TXT文本文件进行词频统计(对于未分词的文本,可以在自动分词的同时进行词频统计,也可以对已分词和人工校对的文本进行词频统计)。
4) 词频统计对象不是基于词汇表中的单词,而是统计单词分割结果中的所有单词。
5)统计和检索结果可以被编辑并保存为TXT或RTF格式的文件。
注意: *本系统处理的文件只能是TXT文本格式!
*自动分词、全文检索、统计处理的文本都在该文件夹下,所以处理后的文本应放在该文件夹下。