对于DataFrame的每一行,在给定条件的情况下获取第一列的索引到新列中 - python


data = [
    ['1245', np.nan, np.nan, 1.0, 1.0, ''],
    ['1246', np.nan, 1.0, 1.0, 1.0, ''],
    ['1247', 1.0, 1.0, 1.0, 1.0, ''],
    ['1248', 1.0, 1.0, np.nan, np.nan, ''],
    ['1249', np.nan, 1.0, np.nan, 1.0, '']

df = pd.DataFrame(data, columns = ['city_code', 'apr_12', 'may_12', 'jul_12', 'aug_12', 'first_index'])

对于DataFrame的每一行,在给定条件的情况下获取第一列的索引到新列中 - python

我想用第一个“ 1.0”(浮点数)的列的索引(apr_12,may_12,jun_12和aug_12)填充“ first_index”列。
例如,我想在第一行“ 2”的“ first_index”列中看到,因为这是该行的第一个“ 1.0”所在的位置。可以这样假设,也不会考虑“ city_code”列。

仅供参考:起初,NaN值是“ 0.0”(浮点数),但我认为继续使用NaN值和诸如first_valid_index()之类的函数会更容易(但我无法使其正常工作……)。如果需要的话,我将没有问题放回零。




col_list = ['apr_12', 'may_12', 'jul_12', 'aug_12']
df['first_index'] = df[col_list].apply(lambda x: (np.where(~x.isnull())[0][0]), axis=1)


  city_code  apr_12  may_12  jul_12  aug_12  first_index
0      1245     NaN     NaN     1.0     1.0            2
1      1246     NaN     1.0     1.0     1.0            1
2      1247     1.0     1.0     1.0     1.0            0
3      1248     1.0     1.0     NaN     NaN            0
4      1249     NaN     1.0     NaN     1.0            1

根据Stef的建议使用argmax或argmax将返回最大值和最小值的索引(nanargmin / nanargmax忽略nan),因此,如果您的df值不全为1,则它将无法给出第一个非nan索引。

