跳转到内容

英文维基 | 中文维基 | 日文维基 | 草榴社区

文本分割:修订间差异

维基百科,自由的百科全书
删除的内容 添加的内容
LNDDYL留言 | 贡献
添加{{G1=IT|NoteTA|G1=IT}}标记到条目
InternetArchiveBot留言 | 贡献
补救1个来源,并将0个来源标记为失效。 #IABot (v1.5.1)
第17行: 第17行:
==外部連結==
==外部連結==
*[http://ckipsvr.iis.sinica.edu.tw/ 中央研究院資訊科學所詞庫小組的中文斷詞系統]
*[http://ckipsvr.iis.sinica.edu.tw/ 中央研究院資訊科學所詞庫小組的中文斷詞系統]
*[http://www.zhihuita.org/service/zh.tokenizer 基于机器学习的智慧塔中文分词系统]
*[https://archive.is/20130705181751/http://www.zhihuita.org/service/zh.tokenizer 基于机器学习的智慧塔中文分词系统]


[[Category:自然语言处理]]
[[Category:自然语言处理]]

2017年9月9日 (六) 07:34的版本

中文自动分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。

现有方法

  • 基于词典的匹配
    • 前向最大匹配
    • 后向最大匹配
  • 基于字的标注
    • 最大熵模型
    • 条件随机场模型
    • 感知器模型
  • 其它方法
    • 与词性标注结合
    • 与句法分析结合

外部連結