2023年3月1日,Pandas 发布了2.0版本。6个月后(8月30日),更新了新的2.1版。让我们看看他有什么重要的更新。
更好的PyArrow支持
PyArrow是在Panda 2.0中新加入的后端,对于大数据来说提供了优于NumPy的性能。Pandas 2.1增强了对PyArrow的支持。官方在这次更新中使用最大的高亮字体宣布 PyArrow 将是 Pandas 3.0的基础依赖,这说明Panda 是认定了PyArrow了。
映射所有数组类型时可以忽略NaN类值
在以前版本,可空类型上调用map会在存在类似nan的值时触发错误。而现在可以设定na_action= " ignore "参数,将忽略所有类型数组中的nan值。
以下是发行说明中的一个例子:
In [5]: ser = pd.Series(["a", "b", np.nan], dtype="category")
In [6]: ser.map(str.upper, na_action="ignore")
Out[6]:
0 A
1 B
2 NaN
dtype: category
Categories (2, object): ['A', 'B']
##no errors !
字符串的默认类型
默认情况下,所有字符串都存储在具有NumPy对象dtype的列中,如果你安装了PyArrow,则会将所有字符串推断为PyArrow支持的字符串,这个选项需要使用这个参数设置:
pd.options.future.infer_string = True
Copy-On-Write改进
写时复制在很久以前就出现了。在Pandas中有时你对数据做一些操作,修改的不是数据源的副本,而是数据源本身。例子:
In [5]: pd.options.mode.copy_on_write = True
In [6]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})
In [7]: subset = df["foo"]
In [8]: subset.iloc[0] = 100
In [9]: df
Out[9]:
foo bar
0 1 4
1 2 5
2 3 6
写时复制是一种防止意外可变性的机制。当从其他数据推断数据时,可以保证只更改副本。这意味着代码将更加统一。Pandas将识别何时复制对象,并且只在必要时复制对象。在Pandas 2.1中,花了很多精力使许多地方的Copy-On-Write保持一致。
新的日期方法
在Pandas 2.1中,增加了一组新处理日期的新方法。
以下是一些最值得注意的方法:
- Series.dt.is_month_start,
- Series.dt.is_month_end,
- Series.dt.is_year_start,
- Series.dt.is_year_end,
- Series.dt.is_quarter_start,
- Series.dt.is_quarter_end,
- Series.dt.days_in_month,
- Series.dt.unit,
- Series.dt.normalize,
- Series.dt.day_name(),
- Series.dt.month_name(),
这些方法对我们实际应用来说还是很好的
Python 3.9
pandas 2.1.0支持的最低版本是Python 3.9,也就是说我们如果有低版本的Python项目,要尽快升级了,或者说新项目的话最低也要3.9了
总结
在这次更新中提到了Pandas3.0,说明官方已经开始对它进行设计了,而且也强调了PyArrow的重要性,所以要用好Pandas,PyArrow的基础是需要掌握的。官网的地址:
https://avoid.overfit.cn/post/2604f28a0aef4ae99cf4df15b977210c