驱动无忧:电脑及外设驱动免费下载

最新更新软件 | 热门软件资源 | 推荐软件

当前位置:首页 > 应用软件 > CIPP中文分词工具

CIPP中文分词工具

  • 适用平台:winXP/|win7/|win10
  • 软件语言:简体中文
  • 软件类型:应用软件
  • 软件授权:共享版
  • 软件大小:3.38 MB
  • 资源等级:
  • 更新日期:2022-03-15
  • 软件标签:
相关软件
    软件简介

      CIPP中文信息处理平台,中文自动分词、全文检索、统计工具。

      本工具的研制得到以下项目的资助:

      南京师范大学十五211重点学科建设项目“语言信息处理与分领域语言研究的现代化” 。

      该系统具有中文自动分词、全文检索、统计等基本功能。

    CIPP中文分词工具

      具体内容如下。

      1. 中文自动分词

      1)可以对给定的中文文本进行自动分词、一级语音分词和二级语音分词标记。

      2) 支持大批量文本的自动分词和语音分词标签处理,并可处理各级子文件夹下的文件。

      3) 根据需要分割和标记的文本的类别,可以添加用户自定义的字典,进一步提高词语分割和标记的准确性。

      4) 用户可以对系统词典进行扩展,添加、删除、查看系统词典,并将系统词典输出为TXT文本编辑,然后转换为系统的电子词典。

      5)支持人名、地名、机构名称等未注册词的识别,支持基于GBK字符集的简体和繁体文字的处理。

      2. 全文检索

      1)对给定的大批量文本可以分别建立基于词、字、词和语篇的三个索引库。

      2) 打开相应的索引库后,可以对字符串、词串、字和语篇串进行全文检索。

      3)可显示检索结果的来源,点击后可自动打开相应的文本,供具体参考。

      4)支持语言属性的全文检索,可以控制检索字符串的搭配和范围。

      5)可以控制搜索结果中关键词串前后显示的字数,并将结果中的查询关键词串以红色或蓝色显示。

      3. 统计数据

      1) 可以对大批量的文本进行词频和字频统计,并可以处理各级子文件夹下的文件。

      2)对于统计结果,提供基于字码表、频率、拼音、部首的排序和显示。

      3) 可以对指定文件夹和子文件夹下的所有TXT文本文件进行词频统计(对于未分词的文本,可以在自动分词的同时进行词频统计,也可以对已分词和人工校对的文本进行词频统计)。

      4) 词频统计对象不是基于词汇表中的单词,而是统计单词分割结果中的所有单词。

      5)统计和检索结果可以被编辑并保存为TXT或RTF格式的文件。

      注意: *本系统处理的文件只能是TXT文本格式!

      *自动分词、全文检索、统计处理的文本都在该文件夹下,所以处理后的文本应放在该文件夹下。

    下载说明
    • 为了获得最高的下载速度,请使用快车Flashget或者迅雷等工具来下载本站的资源。
    • 为保证资源完整性,本站资源均用WINRAR压缩软件进行打包,使用前请先用WINRAR进行解压缩。
    • 如果你在本站搜索不到你想要的资源,请给我们发邮件,我们收到后将在第一时间添加上!
    • 本站资源均收集于互联网,如果某一资源侵犯你的权益,请来信告之,我们将及时进行删除处理!