NLTK从CSV移除停用词 - python

尽管这是一个常见的问题，但我找不到适合我的情况的解决方案。我有数据，如下所示以逗号分隔。

['my scientific','data']['is comma-separated','frequency']

我正在尝试使用以下方式删除停用词

from nltk.corpus import stopwords
stopword = stopwords.words('english')
mynewtext = [w for w in transposed if w not in stopword]
out_file.writerow(w)

但这给了我一个错误，说“ Unicode警告:Unicode相等比较无法将两个参数都转换为Unicode-解释为不相等”。我不确定在哪里犯错。我希望我的csv文件中的输出像

scientific,data
comma-separated,frequency

另外，我希望它适用于上下两种情况。 casefield在我的Python版本2.7中不起作用

python大神给出的解决方案

尝试

# -*- coding: utf-8 -*-,

在源代码的标题中。

它告诉Python您保存的源文件是utf-8。 Python 2的默认值为ASCII(Python 3的默认值为utf-8)。这只会影响解释器读取文件中字符的方式。

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在看。自己强行看了两个月，全部给看完了。感觉这文笔也就我读初中的水平……而且写着国内的一些情况，外国人能理解吗？这书为什么会这么火？这水平我也可以去写呀[笑哭][笑哭][笑哭] 招商银行员工：可以写赶紧写一个啊，能拿科幻文学雨果奖。包清白：哦楼主：pei ！tui ！你也配姓龙楼主：@赵龙王呵呵 […]