博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第2章 文本的歧义及其清理...
阅读量:6875 次
发布时间:2019-06-26

本文共 521 字,大约阅读时间需要 1 分钟。

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第2章 文本的歧义及其清理

NLTK基础教程——用NLTK和Python库构建机器学习应用

在上一章中,我们为Python以及NLTK库的学习开了一个不错的头,带你初步了解了一下如何针对一些文本资料进行一些有意义的EDA。我们用非常粗糙和简单的方式将预处理部分的所有工作都做了一遍。在本章,我们将具体来讨论标识化处理、词干提取、词形还原(lemmatization)以及停用词移除等这些预处理步骤。这些话题将会涉及NLTK中所有用于处理文本歧义的工具。届时,我们将会讨论现代NLP应用中会用到的所有预处理步骤,以及实现其中某些任务的不同方法,并说明我们通常该做什么、不该做什么。总而言之,我们会为你提供关于这些工具的足够信息,以便你可以自行决定在自己的应用程序中使用怎么样的预处理工具。我们希望读者在阅读完本章之后,可以掌握以下内容。

所有与数据歧义相关的情况,并能运用NLTK处理它们。

文本清理的重要性以及我们可以用NLTK实现什么样的常见任务。

转载地址:http://ojmfl.baihongyu.com/

你可能感兴趣的文章
egg(114)--egg之订单详情
查看>>
关于区块链那些事(用Python3体现)
查看>>
我从编程教室毕业
查看>>
使用 webpack 4 和 Babel 7 构建 React 应用及如何引入 Material Design
查看>>
Laravel+Dingo/Api 自定义响应
查看>>
【PHP 每日函数】第 01 周期
查看>>
SpiderData 2019年2月18日 DApp数据排行榜
查看>>
第十二天-《企业应用架构模式》-对象-关系结构模式
查看>>
这40款优质APP大合集,总有一个适合你!
查看>>
从理论到实践 全面理解HTTP/2
查看>>
JavaScript五十问——对比来说CSS的Grid与FlexBox(上篇)
查看>>
使用音频转换器怎么转换电影的格式?
查看>>
35. Search Insert Position
查看>>
webpack—url-loader 解决项目中图片打包路径问题
查看>>
thinkphp源码分析(四)—错误及异常处理篇
查看>>
Vue实现类似Spring官网图片滑动效果
查看>>
前嗅ForeSpider教程:数据浏览与可视化
查看>>
js 读取 input[type=file] 内容,直接显示文本 | 图片
查看>>
软件开发学习的5大技巧,你知道吗?
查看>>
每日两道前端面试题20190226
查看>>