标签:stemming

  • 如何使用Stemmer或Lemmatizer阻止特定单词 - java

    时间:2020-8-8

    我目前正在尝试阻止一个大型语料库(大约80万个句子)。我已经设法阻止了最基本的一个。现在的问题是,我只想词干一个特定的单词,例如,仅当引理是原始单词的子字符串时,此方法才适用。例如,单词apples的后缀是apple和's'。但是,如果不是子字符串,它将不会像牙齿一词一样将其拆分为牙齿。 我还阅读了lemmatizer WordNet,我们可以在其中添加po […]

  • UnicodeDecodeError超出数据集时,数据意外结束 - python

    时间:2020-6-19

    我是python的新手,我正尝试在Yelp的一小部分上工作!数据集是JSON,但我使用熊猫库和NLTK转换为CSV。 在进行数据预处理时,我首先尝试删除所有标点符号以及最常见的停用词。完成此操作后,我想应用nltk.stem中易于使用的Porter Stemming算法。 这是我的代码: """A method for removin […]