在大数据处理领域,性能和效率始终是核心问题。
polars
作为新一代数据处理框架,通过利用 Rust 语言的底层实现和现代化的并行计算架构,在处理大规模数据集时展现出显著的性能优势。根据性能测试文章的数据显示,在 CSV 文件读取操作中,
polars
的处理速度可达
pandas
的 20 倍。这种性能提升主要得益于其优化的内存管理机制和并行计算能力。
本文将系统地介绍如何从
pandas
迁移到
polars
,重点关注两个框架之间的语法对应关系和最佳实践。
📊 适用场景:
- 处理大规模数据集的效率瓶颈
- 需要提升数据处理性能的工程团队
- 想要学习现代数据处理框架的工程师
- 正在考虑技术栈升级的技术负责人
⚡️ 核心特性:
- 20 倍的性能提升潜力
- 更低的内存占用
- 完善的并行计算支持
- 类 SQL 的声明式语法
- 智能的查询优化器
1、环境配置与基础设置
首先需要通过 pip 包管理器安装必要的库:
# Pandas 安装
pipinstallpandas
# Polars 安装
pipinstallpolars
在 Python 环境中导入这些库:
# Pandas 导入语句
importpandasaspd
# Polars 导入语句
importpolarsaspl
推荐使用这些标准的别名(pd 和 pl),因为它们在数据科学社区中被广泛采用,有助于代码的可读性和维护性。
2、DataFrame 的创建与基础操作
DataFrame 是数据处理中的核心数据结构,代表二维表格数据:
# Pandas 中创建 DataFrame
df=pd.DataFrame({'a': [1, 1, 1], 'b': [2, 2, 2]})
# Polars 中创建 DataFrame
df=pl.DataFrame({'a': [1,1, 1], 'b': [2, 2, 2]})
这里的 DataFrame 创建展示了两个框架的基本语法相似性。两者都支持通过字典构造数据,其中键作为列名,值作为列数据。
3、数据导入操作
数据导入是数据分析的第一步,两个框架都提供了高效的数据读取接口:
# Pandas 读取 CSV
df=pd.read_csv('data.csv')
# Polars 读取 CSV
df=pl.read_csv('data.csv')
Polars 的 CSV 读取实现了多线程并行处理,对于大型文件的读取性能显著优于 Pandas。此外 Polars 还会自动推断最优的数据类型,减少内存使用。
4、数据检查与探索
数据探索是理解数据集特征的关键步骤:
# Pandas 数据探索方法
df.head() # 查看前几行数据
df.info() # 显示数据基本信息
df.describe() # 生成描述性统计
# Polars 数据探索方法
df.head() # 查看前几行数据
df.schema # 显示数据结构信息
df.describe() # 生成描述性统计
Polars 的 schema 属性提供了更高效的数据类型查看机制,直接显示每列的数据类型,而不需要像 Pandas 的 info()那样进行完整的内存统计。
5、列选择操作
列选择是数据处理中的基础操作,两个框架采用了不同的语法范式:
# Pandas 列选择
df['a'] # 选择单列
df[['a', 'b']] # 选择多列
# Polars 列选择
df.select('a') # 选择单列
df.select(['a', 'b']) # 选择多列
Polars 的 select 方法提供了更一致的 API 接口,可以与其他操作方法轻松链式调用。这种设计有助于构建更清晰的数据处理流程。
6、数据过滤技术
数据过滤是数据分析中的核心操作,用于根据特定条件选择数据子集:
# Pandas 过滤操作
df[df['a'] >2]
# Polars 过滤操作
df.filter(pl.col('a') >2)
Polars 的过滤语法更加明确,使用
pl.col()
显式引用列,这种方式不仅提高了代码的可读性,还允许在复杂条件下更灵活的列操作。此外 Polars 的过滤操作在后台使用了向量化计算,提供更高的执行效率。
7、列操作与数据转换
最基本的列操作是添加新的计算列:
# Pandas 添加列
df['c'] =df['a'] +df['b']
# Polars 添加列
df=df.with_columns((pl.col('a') +pl.col('b')).alias('c'))
Polars 的
with_columns
方法提供了一个声明式 API,使操作更加清晰且可组合。
复杂的条件转换在数据处理中很常见:
# Pandas 条件转换
df['b'] =df['a'].apply(lambdax: 1ifx=='high'else0ifx=='equal'else-1)
# Polars 条件转换
df=df.with_columns(
pl.when(pl.col('a') =='high')
.then(1)
.when(pl.col('a') =='equal')
.then(0)
.otherwise(-1)
.alias('b')
)
Polars 的条件语法更接近 SQL 风格,提供了更清晰的逻辑流程,并且实现了更好的性能优化。
在实际应用中,经常需要基于某些列的条件来选择其他列的值:
# Pandas 列间条件选择
df['d'] =df[['a','b','c']].apply(lambdax: x['a'] ifx['c'] >0.5elsex['b'])
# Polars 列间条件选择
df=df.with_columns(
pl.when(pl.col('c') >0.5)
.then('a') # 选择列a
.otherwise('b') # 选择列b
.alias('d')
)
8、列重命名操作
列重命名是数据预处理中的常见需求:
# Pandas 重命名
df.rename(columns={'a': 'alpha'})
# Polars 重命名
df.rename({'a': 'alpha'})
两个框架的重命名语法相似,但 Polars 的实现在处理大数据集时更加高效。
9、分组聚合操作
分组操作允许我们对数据进行细粒度的分析:
# Pandas 分组求和
df.groupby('a')['b'].sum()
# Polars 分组求和
df.group_by('a').agg(pl.col('b').sum())
在实际应用中,常需要同时计算多个统计指标:
# Pandas 多指标聚合
df.groupby('a').agg({'b': ['sum', 'mean'], 'c': 'max'})
# Polars 多指标聚合
df.group_by('a').agg([
pl.col('b').sum().alias('b_sum'),
pl.col('b').mean().alias('b_mean'),
pl.col('c').max().alias('c_max')
])
Polars 的分组聚合语法更加显式,虽然代码量稍多,但提供了更好的类型安全性和性能优化空间。每个聚合操作都可以被单独优化,并且支持并行计算。
分组排名计算
在数据分析中,计算组内排名是一个常见需求:
# Pandas 分组排名
df['rank'] =df.groupby('a')['b'].rank(method='dense')
# Polars 分组排名
df=df.with_columns(
pl.col('b').rank('dense').over('a').alias('rank')
)
Polars 的语法采用了 SQL 风格的
over
子句,这种设计更接近标准的数据处理范式,并且在处理大规模数据集时更有效率。
分组转换操作
对分组数据进行转换是数据处理中的高级操作:
# Pandas 分组转换
df['sum_squared'] =df.groupby('a')['b'].transform(lambdax: x.sum() *2)
# Polars 分组转换
df=df.with_columns(
(pl.col('b').sum().over('a') *2).alias('sum_squared')
)
Polars 的实现避免了使用 lambda 函数,提供了更直接的列操作方式,这不仅提高了代码的可读性,还实现了更好的性能优化。
10、时间窗口计算
滑动窗口计算在时间序列分析中极为重要:
# Pandas 滑动平均
df['rolling_avg'] =df['b'].rolling(window=3).mean()
# Polars 滑动平均
df=df.with_columns(
pl.col('b').rolling_mean(window_size=3).alias('rolling_avg')
)
Polars 的窗口操作实现了更高效的内存管理,特别适合处理大规模时间序列数据。
11、累计统计计算
累计统计在数据分析中用于追踪数据的演变趋势:
# Pandas 累计统计
df['cum_sum'] =df['b'].cumsum()
df['cum_prod'] =df['b'].cumprod()
df['cum_mean'] =df['b'].expanding().mean()
# Polars 累计统计
df.with_columns([
pl.col('b').cum_sum().alias('cum_sum'),
pl.col('b').cum_prod().alias('cum_prod'),
pl.col('b').cumulative_eval(pl.element().mean()).alias('cum_mean')
])
Polars 提供了更统一的累计计算接口,并且支持更复杂的自定义累计操作。
12、条件聚合操作
条件聚合允许我们基于特定条件计算统计量:
# Pandas 条件聚合
df['sum_if'] =df[df['a'] >2]['b'].sum()
# Polars 条件聚合
sum_if=df.filter(pl.col('a') >2).select(pl.col('b').sum()).item()
Polars 的实现更加直观,并且通过优化的查询计划提供更好的性能。
13、 排序操作
数据排序是数据分析中的基础操作:
# Pandas 排序
df.sort_values(by='a')
# Polars 排序
df.sort('a')
Polars 提供了更简洁的排序语法,同时在底层实现了更高效的排序算法。
14、空值处理
处理缺失数据是数据清洗的重要环节:
# Pandas 空值处理
df.fillna(0) # 填充空值
df.dropna() # 删除包含空值的行
# Polars 空值处理
df.fill_null(0) # 填充空值
df.drop_nulls() # 删除包含空值的行
Polars 对空值的处理采用了更现代的命名方式,并且在实现上考虑了内存效率和计算性能。
15、DataFrame 连接操作
数据集的连接操作是数据整合的核心技术:
# Pandas 数据连接
df_merged=pd.merge(df1, df2, on='key', how='inner')
# Polars 数据连接
df_merged=df1.join(df2, on='key', how='inner')
Polars 的连接操作采用了更接近 SQL 的语法,并且在实现上使用了哈希连接和排序合并连接等优化技术,显著提升了大数据集的连接性能。支持的连接类型包括:
- inner:内连接,仅保留匹配的记录
- left:左连接,保留左表所有记录
- outer:外连接,保留所有记录
- cross:交叉连接,生成笛卡尔积
16、数据集合并
数据集合并用于处理来自不同源的数据:
# Pandas 数据合并
df_concat_vert=pd.concat([df1, df2], axis=0) # 垂直合并
df_concat_horiz=pd.concat([df1, df2], axis=1) # 水平合并
# Polars 数据合并
df_concat_vert=pl.concat([df1, df2]) # 垂直合并
df_concat_horiz=pl.concat([df1, df2], how='horizontal') # 水平合并
Polars 的合并操作在处理大规模数据集时表现出更好的内存效率,并且提供了更直观的参数设置。垂直合并特别适用于处理分片数据或时间序列数据的合并。
17、数据透视表操作
数据透视表是数据分析中的重要工具,用于多维度数据汇总:
# Pandas 数据透视表
df.pivot_table(index='a', columns='b', values='c', aggfunc='sum')
# Polars 数据透视表
df.pivot(values='c', index='a', columns='b', aggregate_fn='sum')
更复杂的场景下,可能需要同时计算多个聚合指标:
# Pandas 多重聚合透视表
df.pivot_table(index='a', columns='b', values='c', aggfunc=['sum', 'mean'])
# Polars 多重聚合透视表
df.group_by(['a', 'b']).agg([
pl.col('c').sum().alias('c_sum'),
pl.col('c').mean().alias('c_mean')
]).pivot(values=['c_sum', 'c_mean'], index='a', columns='b')
Polars 的实现虽然写法较长,但提供了更灵活的聚合函数定义能力,并且在处理大规模数据集时性能更优。
18、列表类型数据展开
处理嵌套数据结构是数据预处理中的常见需求:
# Pandas 列表展开
df=pd.DataFrame({'a': [1, 2], 'b': [[1, 2], [3, 4]]})
df=df.explode('b')
# Polars 列表展开
df=pl.DataFrame({'a': [1, 2], 'b': [[1, 2], [3, 4]]})
df=df.explode('b')
两个框架在这方面的语法非常相似,但 Polars 的实现在内存使用上更加高效,特别是在处理大型嵌套数据结构时。
19、数据导出
数据处理完成后的导出操作:
# Pandas 导出 CSV
df.to_csv('output.csv', index=False)
# Polars 导出 CSV
df.write_csv('output.csv')
Polars 提供了多线程写入能力,可以显著提升大数据集的导出速度。
20、惰性求值
Polars 的一个重要特性是支持惰性求值:
- 使用
lazy()
方法将 DataFrame 转换为 LazyFrame - 可以构建复杂的查询计划而不立即执行
- 通过
collect()
触发实际计算 - 能够自动优化查询计划,提升性能
示例:
# 惰性操作链
result= (df.lazy()
.filter(pl.col('value') >0)
.group_by('category')
.agg(pl.col('value').sum())
.collect())
总结
Polars 作为现代化的数据处理框架,通过先进的工程实践和算法优化,为数据科学工作者提供了高效的数据处理工具。在从 Pandas 迁移时,理解这些核心概念和最佳实践将有助于充分发挥 Polars 的性能优势。
https://avoid.overfit.cn/post/c9ffc87af55f4cd494d7954c11ce384c