当前位置:首页 > 科技  > 软件

四个解决特定的任务的Pandas高效代码

来源: 责编: 时间:2023-12-04 17:25:59 326观看
导读在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。从列表中创建字典我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列

在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。ASO28资讯网——每日最新资讯28at.com

ASO28资讯网——每日最新资讯28at.com

从列表中创建字典

我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列表中出现的次数。ASO28资讯网——每日最新资讯28at.com

Python字典是以这种格式存储数据的好方法。键将是字典,值是出现的次数。ASO28资讯网——每日最新资讯28at.com

这里可以使用value_counts和to_dict函数,这项任务可以在一行代码中完成。ASO28资讯网——每日最新资讯28at.com

这里有一个简单的例子来说明这种情况:ASO28资讯网——每日最新资讯28at.com

import pandas as pd  grades = ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]  pd.Series(grades).value_counts().to_dict()  # output {'A': 5, 'B': 3, 'C': 2}

将列表转换为Pandas Series,这是Pandas的一维数据结构,然后应用value_counts函数来获得在Series中出现频率的唯一值,最后将输出转换为字典。这个操作非常高效且易于理解。ASO28资讯网——每日最新资讯28at.com

从JSON文件创建DataFrame

JSON是一种常用的存储和传递数据的文件格式。ASO28资讯网——每日最新资讯28at.com

当我们清理、处理或分析数据时,我们通常更喜欢使用表格格式(或类似表格的数据)。由于json_normalize函数,我们可以通过一个操作从json格式的对象创建Pandas DataFrame。ASO28资讯网——每日最新资讯28at.com

假设数据存储在一个名为data的JSON文件中。一般情况我们都是这样读取:ASO28资讯网——每日最新资讯28at.com

import json  with open("data.json") as f:     data = json.load(f)  data # output {'data': [{'id': 101,    'category': {'level_1': 'code design', 'level_2': 'method design'},    'priority': 9},  {'id': 102,    'category': {'level_1': 'error handling', 'level_2': 'exception logging'},    'priority': 8}]}

如果我们将这个变量传递给DataFrame构造函数,它将创建如下的DataFrame,这绝对不是一个可用的格式:ASO28资讯网——每日最新资讯28at.com

df = pd.DataFrame(data)

ASO28资讯网——每日最新资讯28at.com

但是如果我们使用json_normalize函数将得到一个整洁的DataFrame格式:ASO28资讯网——每日最新资讯28at.com

df = pd.json_normalize(data, "data")

ASO28资讯网——每日最新资讯28at.com

Explode函数

如果有一个与特定记录匹配的项列表。需要重新格式化它,为该列表中的每个项目提供单独的行。ASO28资讯网——每日最新资讯28at.com

ASO28资讯网——每日最新资讯28at.com

这是一个经典的行分割成列的问题。有许多的不同的方法来解决这个任务。其中最简单的一个(可能是最简单的)是Explode函数。ASO28资讯网——每日最新资讯28at.com

我们以这个df为例ASO28资讯网——每日最新资讯28at.com

ASO28资讯网——每日最新资讯28at.com

使用explosion函数并指定列名:ASO28资讯网——每日最新资讯28at.com

df_new = df.explode(column="data").reset_index(drop=True)

ASO28资讯网——每日最新资讯28at.com

reset_index会为DataFrame分配一个新的整数索引。ASO28资讯网——每日最新资讯28at.com

combine_first函数

combine_first函数用于合并两个具有相同索引的数据结构。ASO28资讯网——每日最新资讯28at.com

它最主要的用途是用一个对象的非缺失值填充另一个对象的缺失值。这个函数通常在处理缺失数据时很有用。在这方面,它的作用与SQL中的COALESCE函数相同。ASO28资讯网——每日最新资讯28at.com

df = pd.DataFrame(    {         "A": [None, 0, 12, 5, None],          "B": [3, 4, 1, None, 11]    } )

ASO28资讯网——每日最新资讯28at.com

我们需要a列中的数据。如果有一行缺少值(即NaN),用B列中同一行的值填充它。ASO28资讯网——每日最新资讯28at.com

df["A"].combine_first(df["B"])  # output 0     3.0 1     0.0 2    12.0 3     5.0 4    11.0 Name: A, dtype: float64

可以看到的列A的第一行和最后一行取自列B。ASO28资讯网——每日最新资讯28at.com

如果我们想要使用3列,我们可以链接combine_first函数。下面的代码行首先检查列a。如果有一个缺失的值,它从列B中获取它。如果列B中对应的行也是NaN,那么它从列C中获取值。ASO28资讯网——每日最新资讯28at.com

df["A"].combine_first(df["B"]).combine_first(df["C"])

我们还可以在DataFrame级别使用combine_first函数。在这种情况下,所有缺失的值都从第二个DataFrame的相应值(即同一行,同列)中填充。ASO28资讯网——每日最新资讯28at.com

df1 = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd']) df2 = pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd']) result_df = df1.combine_first(df2)

在合并的过程中,df1 中的非缺失值填充了 df2 中对应位置的缺失值。这有助于处理两个数据集合并时的缺失值情况。ASO28资讯网——每日最新资讯28at.com

Merged DataFrame:       A     B a   1.0   5.0 b   2.0  60.0 c  30.0   7.0 d   4.0   8.0

总结

从计算简单的统计数据到高度复杂的数据清理过程,Pandas都可以快速解决任务。上面的代码可能不会经常使用,但是当你需要处理这种任务时,它们是非常好的解决办法。ASO28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-37666-0.html四个解决特定的任务的Pandas高效代码

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 深入浅出JavaScript异步编程

下一篇: 开发者必备的五类AI工具,不容错过!

标签:
  • 热门焦点
  • 7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月份的手机市场风平浪静,除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外,别的也想不到有什么新品了,这也正常,通常6月7月都是手机厂商修整的时间,进入8月份之
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 三万字盘点 Spring 九大核心基础功能

    大家好,我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说,先上目录:图片友情提示,本文过长,建议收藏,嘿嘿嘿!一、资源管理资源管理是Spring的一个核心的基础功能,不
  • 这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • WebRTC.Net库开发进阶,教你实现屏幕共享和多路复用!

    WebRTC.Net库:让你的应用更亲民友好,实现视频通话无痛接入! 除了基本用法外,还有一些进阶用法可以更好地利用该库。自定义 STUN/TURN 服务器配置WebRTC.Net 默认使用 Google 的
  • 零售大模型“干中学”,攀爬数字化珠峰

    文/侯煜编辑/cc来源/华尔街科技眼对于绝大多数登山爱好者而言,攀爬珠穆朗玛峰可谓终极目标。攀登珠峰的商业路线有两条,一是尼泊尔境内的南坡路线,一是中国境内的北坡路线。相
  • 慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 华为Mate60系列模具曝光:采用硕大圆形后置相机模组+拼接配色方案

    据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将迎来更新,有望在9-10月份带来全新的华为Mate60
  • 到手价3099元起!iQOO Neo8 Pro今日首销:安卓性能最强旗舰

    5月23日,iQOO如期举行了新品发布会,全新的iQOO Neo8系列也正式与大家见面,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更
Top