NLTK从CSV移除停用词 - python

尽管这是一个常见的问题,但我找不到适合我的情况的解决方案。我有数据,如下所示以逗号分隔。

['my scientific','data']['is comma-separated','frequency']

我正在尝试使用以下方式删除停用词

from nltk.corpus import stopwords
stopword = stopwords.words('english')
mynewtext = [w for w in transposed if w not in stopword]
out_file.writerow(w)

但这给了我一个错误,说“ Unicode警告:Unicode相等比较无法将两个参数都转换为Unicode-解释为不相等”。我不确定在哪里犯错。我希望我的csv文件中的输出像

scientific,data
comma-separated,frequency

另外,我希望它适用于上下两种情况。 casefield在我的Python版本2.7中不起作用

python大神给出的解决方案

尝试

# -*- coding: utf-8 -*-,  

在源代码的标题中。

它告诉Python您保存的源文件是utf-8。 Python 2的默认值为ASCII(Python 3的默认值为utf-8)。这只会影响解释器读取文件中字符的方式。