很难在标题上对此进行描述,但是鉴于以下两个DataFrame:
import pandas as pd
import numpy as np
import re
df1 = pd.DataFrame({
'url': [
'http://google.com/car',
'http://google.com/moto',
'http://google.com/moto-bike'
], 'value': [3, 4, 6]})
url value
http://google.com/car 3
http://google.com/moto 4
http://google.com/moto-bike 6
df2 = pd.DataFrame({'name': ['car','moto','bus']})
name
0 car
1 moto
2 bus
我想看看df2
上的名称出现在url
上的df1
上了多少次,并且可以通过以下方式进行管理:
df2['instances'] = pd.Series([df1.url.str.contains(fr'\D{w}\D', regex=True) \
.sum() for w in df2.name.tolist()])
由于某种原因,汽车有零个实例,因此只有一个。
name instances
0 car 0
1 moto 2
2 bus 0
我想做的是拥有另一列,该列将value
的所有匹配项的df1
列求和,所以看起来像这样:
name instances value_total
0 car 1 3
1 moto 2 10
2 bus 0 0
在正确的方向上的任何帮助将不胜感激,谢谢!
参考方案
尝试使用str.extract
,然后将groupby
与named aggregation合并(熊猫0.25+中的新功能):
pat = '|'.join(df2['name']) #'car|moto|bus'
m = df2.merge(df1.assign(name=df1['url']
.str.extract('('+ pat + ')', expand=False)),on='name',how='left')
m = m.groupby('name',sort=False).agg(instances=('value','count')
,value_total=('value','sum')).reset_index()
print(m)
name instances value_total
0 car 1 3.0
1 moto 2 10.0
2 bus 0 0.0
Python-Excel导出 - python我有以下代码:import pandas as pd import requests from bs4 import BeautifulSoup res = requests.get("https://www.bankier.pl/gielda/notowania/akcje") soup = BeautifulSoup(res.cont…
Python:如何根据另一列元素明智地查找一列中的空单元格计数? - pythondf = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Jane', 'Alice','Bob', 'Alice'], 'income…
R'relaimpo'软件包的Python端口 - python我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。
如何用'-'解析字符串到节点js本地脚本? - python我正在使用本地节点js脚本来处理字符串。我陷入了将'-'字符串解析为本地节点js脚本的问题。render.js:#! /usr/bin/env -S node -r esm let argv = require('yargs') .usage('$0 [string]') .argv; console.log(argv…
Python:传递记录器是个好主意吗? - python我的Web服务器的API日志如下:started started succeeded failed 那是同时收到的两个请求。很难说哪一个成功或失败。为了彼此分离请求,我为每个请求创建了一个随机数,并将其用作记录器的名称logger = logging.getLogger(random_number) 日志变成[111] started [222] start…