尽管这是一个常见的问题,但我找不到适合我的情况的解决方案。我有数据,如下所示以逗号分隔。
['my scientific','data']['is comma-separated','frequency']
我正在尝试使用以下方式删除停用词
from nltk.corpus import stopwords
stopword = stopwords.words('english')
mynewtext = [w for w in transposed if w not in stopword]
out_file.writerow(w)
但这给了我一个错误,说“ Unicode警告:Unicode相等比较无法将两个参数都转换为Unicode-解释为不相等”。我不确定在哪里犯错。我希望我的csv文件中的输出像
scientific,data
comma-separated,frequency
另外,我希望它适用于上下两种情况。 casefield在我的Python版本2.7中不起作用
python大神给出的解决方案
尝试
# -*- coding: utf-8 -*-,
在源代码的标题中。
它告诉Python您保存的源文件是utf-8
。 Python 2的默认值为ASCII(Python 3的默认值为utf-8
)。这只会影响解释器读取文件中字符的方式。