如果我有41,000行的 df 数据框,则包含成千上万个单词,例如 df :
column1 column2
better spotted better rights rights rights fresh fresh rights rights 2015
better rights reserved 2016
better 2015
better horse 2014
使用以下代码,我得到了从 df 到 df2 的每个单词的出现频率:df2 = df['column1'].str.split(expand=True).stack().value_counts()
我的 df2 看起来像这样:keywords counts
spotted 1
better 5
fresh 2
rights 6
horse 1
reserved 1
然后,如何删除 df 中的所有关键字,其的计数是 df2 的5倍以下,因此 df 如下所示:
column1 column2
better better rights rights rights rights rights 2015
better rights 2016
better 2015
better 2014
我最初的尝试是像这样从 df2 制作关键字列表:
ListKeywords = ['spotted', 'fresh', 'horse', 'reserved']
然后使用以下代码从 df 中删除 ListKeywords 中的所有单词:
df['column1'] = df['column1'].apply(lambda x: ' '.join([word for word in x.split() if word not in (ListKeywords)]))
然后我很沮丧,因为我有15,000个关键字,其中所有行的单词数都低于5倍。这意味着我必须将那15,000个关键字放入 ListKeywords 中,这很疯狂。
有人可以帮助我摆脱困境吗?谢谢
参考方案
尽管创建了df2
,但在value_counts之前使用stack
ed系列更容易。这允许您过滤它,然后str.join
仅返回要保留的单词。
s = df['column1'].str.split(expand=True).stack()
# Keep only words with frequency above specified threshold
cutoff = 5
s = s[s.groupby(s).transform('size') >= cutoff]
# Alignment based on original Index
df['column1'] = s.groupby(level=0).agg(' '.join)
column1 column2
0 better better rights rights rights rights rights 2015
1 better rights 2016
2 better 2015
3 better 2014
据您自己所知,如果使用value_counts
DataFrame,则可以将其作为子集并仅通过指定截止值来生成ListKeywords
。但是,我们已经使用split
和'column1'
系列来获取计数,因此在此处重新进行此计算效率很低。
df2 = df['column1'].str.split(expand=True).stack().value_counts()
cutoff = 5
ListKeywords = df2[df2 >= cutoff].index
#Index(['rights', 'better'], dtype='object')
df['column1'].apply(lambda x: ' '.join([i for i in x.split(' ') if i in ListKeywords]))
起始数据
df = pd.DataFrame({'column1': ['better spotted better rights rights rights fresh fresh rights rights',
'better rights reserved', 'better', 'better horse'],
'column2': [2015, 2016, 2015, 2014]})
在返回'Response'(Python)中传递多个参数 - python我在Angular工作,正在使用Http请求和响应。是否可以在“响应”中发送多个参数。角度文件:this.http.get("api/agent/applicationaware").subscribe((data:any)... python文件:def get(request): ... return Response(seriali…
Python exchangelib在子文件夹中读取邮件 - python我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…
python JSON对象必须是str,bytes或bytearray,而不是'dict - python在Python 3中,要加载以前保存的json,如下所示:json.dumps(dictionary)输出是这样的{"('Hello',)": 6, "('Hi',)": 5}当我使用json.loads({"('Hello',)": 6,…
R'relaimpo'软件包的Python端口 - python我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。
Python ThreadPoolExecutor抑制异常 - pythonfrom concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…