删除基于单词计数的关键字来自大量python数据框 - python

如果我有41,000行的 df 数据框,则包含成千上万个单词,例如 df :

column1                                                                   column2
better spotted better rights rights rights fresh fresh rights rights      2015
better rights reserved                                                    2016
better                                                                    2015
better horse                                                              2014

使用以下代码,我得到了从 df df2 的每个单词的出现频率:
df2 = df['column1'].str.split(expand=True).stack().value_counts()
我的 df2 看起来像这样:
keywords counts
spotted 1
better 5
fresh 2
rights 6
horse 1
reserved 1

然后,如何删除 df 中的所有关键字,其的计数是 df2 的5倍以下,因此 df 如下所示:

column1                                           column2
better better rights rights rights rights rights  2015
better rights                                     2016
better                                            2015
better                                            2014

我最初的尝试是像这样从 df2 制作关键字列表:

ListKeywords = ['spotted', 'fresh', 'horse', 'reserved']

然后使用以下代码从 df 中删除 ListKeywords 中的所有单词:

df['column1'] = df['column1'].apply(lambda x: ' '.join([word for word in x.split() if word not in (ListKeywords)]))

然后我很沮丧,因为我有15,000个关键字,其中所有行的单词数都低于5倍。这意味着我必须将那15,000个关键字放入 ListKeywords 中,这很疯狂。

有人可以帮助我摆脱困境吗?谢谢

参考方案

尽管创建了df2,但在value_counts之前使用stack ed系列更容易。这允许您过滤它,然后str.join仅返回要保留的单词。

s = df['column1'].str.split(expand=True).stack()

# Keep only words with frequency above specified threshold
cutoff = 5
s = s[s.groupby(s).transform('size') >= cutoff]

# Alignment based on original Index
df['column1'] = s.groupby(level=0).agg(' '.join)
                                            column1  column2
0  better better rights rights rights rights rights     2015
1                                     better rights     2016
2                                            better     2015
3                                            better     2014

据您自己所知,如果使用value_counts DataFrame,则可以将其作为子集并仅通过指定截止值来生成ListKeywords。但是,我们已经使用split'column1'系列来获取计数,因此在此处重新进行此计算效率很低。

df2 = df['column1'].str.split(expand=True).stack().value_counts()

cutoff = 5
ListKeywords = df2[df2 >= cutoff].index
#Index(['rights', 'better'], dtype='object')

df['column1'].apply(lambda x: ' '.join([i for i in x.split(' ') if i in ListKeywords]))

起始数据

df = pd.DataFrame({'column1': ['better spotted better rights rights rights fresh fresh rights rights',
                               'better rights reserved', 'better', 'better horse'],
                   'column2': [2015, 2016, 2015, 2014]})

在返回'Response'(Python)中传递多个参数 - python

我在Angular工作,正在使用Http请求和响应。是否可以在“响应”中发送多个参数。角度文件:this.http.get("api/agent/applicationaware").subscribe((data:any)... python文件:def get(request): ... return Response(seriali…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…

python JSON对象必须是str,bytes或bytearray,而不是'dict - python

在Python 3中,要加载以前保存的json,如下所示:json.dumps(dictionary)输出是这样的{"('Hello',)": 6, "('Hi',)": 5}当我使用json.loads({"('Hello',)": 6,…

R'relaimpo'软件包的Python端口 - python

我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。

Python ThreadPoolExecutor抑制异常 - python

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…