NLTK 入门(详细使用见官网:http://www.nltk.org/)
选择需要的包安装,建议默认路径下载,全部包安装大概需要 2G 内存
测试安装是否成功
1.文本切分成语句
2.文本切分成语句(大批量句子切分、特定语言句子切分)
3. 分词方法
- 方法1:TreebankWordTokenizer 依据 Penn Treebank 语料库的约定,通过分离缩略词来实现切分
- 方法2:PunktWordTokenizer 通过分离标点来实现切分的,每一个单词都会被保留
- 其他分词方法 :RegexpTokenizer、WhitespaceTokenizer、BlanklineTokenizer 等
4. 频率分布 nltk.probability.FreqDist
5. 条件频率分布 nltk.probability.ConditionalFreqDist
6.nltk.text.Text()类用于对文本进行初级的统计与分析
7. nltk.corpus 自带语料库
8. 语料库操作
9. 提取词干
提取词干:词干提取可以被定义为一个通过去除单词中的词缀以获取词干的过程。
以单词 raining 为例,词干提取器通过从 raining 中去除词缀来返回其词根或词干 rain。为了提高信息检索的准确性,搜索引擎大多会使用词干提取来获取词干并将其存储为索引词。
- 方法 1:在 NLTK 中使用 PorterStemmer 类进行词干
- 方法 2:LancasterStemmer 类在 NLTK 中用于实现 Lancaster 词干提取算法
- n 方法 3:在 NLTK 中,我们通过使用 RegexpStemmer 类也可以构建属于我们自己的词干提取器。它的工作原理是通过接收一个字符串,并在找到其匹配的单词时删除该单词的前缀或后缀
10. 词性标注
词性标注:词性标注是一个对句中的每个标识符分配词类(例如名词、动词、形容词等)标记的过程。在 NLTK 中,词性标注器存在于 nltk.tag 包中并被 TaggerIbase 类所继承
1.消除标点符号(中英文)
2. 文本的大小写转换
3.处理停止词(英文)
以上就是本篇文章【Python NLTK 入门教程】的全部内容了,欢迎阅览 ! 文章地址:http://fhzcwj.xhstdz.com/news/5123.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 物流园资讯移动站 http://fhzcwj.xhstdz.com/mobile/ , 查看更多