Python中常见的数据清洗库：NumPy、Pandas、re、openpyxl 对比详解

原创 2025-08-19 09:40:57编程技术

511

数据清洗是数据分析流程中的核心环节，其质量直接影响后续建模和决策的准确性。在Python生态中，NumPy、Pandas、re和openpyxl四大库构成了数据清洗的技术基石。本文ZHANID工具网将从功能定位、核心特性、典型应用场景及性能表现等维度，系统对比这四大库的技术差异与协同价值。

一、NumPy：数值计算的基石库

1.1 核心定位与数据结构

NumPy（Numerical Python）是Python科学计算生态的底层引擎，其核心数据结构**ndarray（N维数组）**具有以下特性：

同质化存储：所有元素必须为相同数据类型（如int32、float64），内存布局连续，支持高效的向量化运算。
多维支持：通过轴（axis）概念实现矩阵、张量等高维数据操作，例如np.array([[1,2],[3,4]])创建2×2矩阵。
广播机制：允许不同形状数组间的算术运算，如np.array([1,2,3]) + 10实现标量广播。

1.2 数据清洗关键能力

缺失值处理

检测：通过np.isnan()函数识别缺失值（NaN），结合sum(axis=0)统计每列缺失数量。
删除：data[~np.isnan(data).any(axis=1)]删除含缺失值的行。

填充：np.nanmean()计算列均值后填充，或使用插值法：

from scipy import interpolate
x = np.arange(len(data))
mask = ~np.isnan(data[:,0])
f = interpolate.interp1d(x[mask], data[mask,0], kind='linear')
data[~mask,0] = f(x[~mask])

异常值处理

Z-score法：z_scores = np.abs((data - np.mean(data, axis=0)) / np.std(data, axis=0))，阈值通常设为3。
IQR法：计算四分位距后，定义异常值为Q1-1.5IQR或Q3+1.5IQR之外的值。

数据标准化

Z-score标准化：(data - np.mean(data, axis=0)) / np.std(data, axis=0)
Min-Max归一化：(data - np.min(data, axis=0)) / (np.max(data, axis=0) - np.min(data, axis=0))

1.3 性能优势与局限

优势：在纯数值计算场景下，NumPy的向量化操作比Python原生循环快10-100倍。例如，矩阵乘法np.dot(A, B)比嵌套循环实现快80倍。
局限：

非数值处理能力弱：无法直接处理字符串、日期等非数值类型。
标签缺失：ndarray不支持行列标签，需额外维护索引信息。
内存消耗：高维数组可能占用大量内存，需通过np.memmap实现内存映射。

二、Pandas：结构化数据的清洗利器

2.1 核心定位与数据结构

Pandas基于NumPy构建，提供**Series（一维带标签数组）和DataFrame（二维表格）**两大核心结构：

DataFrame示例：

import pandas as pd
data = {'Name': ['Alice', 'Bob'], 'Age': [24, 27], 'Salary': [50000, 60000]}
df = pd.DataFrame(data)

标签系统：支持行列索引（如df.loc[0, 'Name']），便于数据定位。
异质化存储：每列可独立指定数据类型（int、float、str、datetime等）。

2.2 数据清洗关键能力

缺失值处理

检测：df.isnull().sum()统计每列缺失数。
删除：df.dropna(axis=0, how='any')删除含缺失值的行。
填充：

固定值填充：df.fillna(0)
均值填充：df.fillna(df.mean())
前向填充：df.fillna(method='ffill')

重复值处理

行去重：df.drop_duplicates(subset=['Name'], keep='first')
列去重：通过df.T.drop_duplicates().T实现。

数据类型转换

日期转换：pd.to_datetime(df['Date'], format='%Y-%m-%d')
类别转换：df['Gender'] = df['Gender'].astype('category')

异常值处理

IQR法：

Q1 = df['Value'].quantile(0.25)
Q3 = df['Value'].quantile(0.75)
df = df[~((df['Value'] < (Q1 - 1.5*IQR)) | (df['Value'] > (Q3 + 1.5*IQR)))]

箱线图可视化：结合df.boxplot(column=['Value'])辅助判断。

字符串处理

正则替换：df['Text'].str.replace(r'\d+', '', regex=True)
大小写转换：df['Text'].str.lower()
子串提取：df['Text'].str.extract(r'(\d{4})')

2.3 性能优势与局限

优势：

一站式解决方案：集成数据加载、清洗、转换、分析全流程。例如，pd.read_csv()直接读取CSV文件为DataFrame。
分组聚合：df.groupby('Category').agg({'Value': ['mean', 'std']})实现多维度统计。
时间序列支持：df.set_index('Date').resample('M').mean()按月重采样。

局限：

内存消耗：DataFrame的标签系统增加内存开销，处理超大规模数据时需分块加载（chunksize参数）。
数值计算效率：在纯数值运算场景下，Pandas比NumPy慢约20%（因类型检查开销）。

三、re：文本清洗的精准手术刀

3.1 核心定位与功能

re库是Python标准库，提供正则表达式支持，专注于非结构化文本清洗：

模式匹配：re.search(r'\d{3}-\d{4}', 'Tel: 123-4567')提取电话号码。
替换：re.sub(r'<[^>]+>', '', '<p>Hello</p>')去除HTML标签。
分割：re.split(r',\s*', 'Apple, Orange, Banana')按逗号分割字符串。

3.2 典型清洗场景

1. 数据标准化

统一日期格式：

text = "Event on 2025/08/18 or 18-08-2025"
re.sub(r'(\d{4})/(\d{2})/(\d{2})', r'\2-\3-\1', text) # 转换为DD-MM-YYYY

清理特殊字符：re.sub(r'[^\w\s-]', '', text)保留字母、数字、空格和连字符。

2. 信息提取

从日志中提取IP地址：

log = "192.168.1.1 - GET /index.html"
ip = re.search(r'\b(?:\d{1,3}\.){3}\d{1,3}\b', log).group()

解析JSON字符串中的键值对：

json_str = '{"name": "Alice", "age": 24}'
keys = re.findall(r'"(\w+)":', json_str) # 提取键名

3.3 性能考量

编译优化：对重复使用的模式，通过re.compile(r'\d+')预编译提升效率。
贪婪与非贪婪模式：re.findall(r'<.*?>', text)（非贪婪）比re.findall(r'<.*>', text)更精准匹配HTML标签。

四、openpyxl：Excel文件清洗的专用工具

4.1 核心定位与功能

openpyxl是Python操作Excel文件（.xlsx）的专用库，支持：

单元格级操作：ws['A1'] = 'New Value'修改单元格内容。
格式控制：设置字体、颜色、边框等样式。
公式计算：ws['C1'] = '=SUM(A1:B1)'写入公式。

4.2 数据清洗典型场景

1. 结构化数据修正

删除空行：

from openpyxl import load_workbook
wb = load_workbook('data.xlsx')
ws = wb.active
ws.delete_rows(idx=2) # 删除第2行

合并单元格拆分：

if ws['A1'].merge_range:
  ws.unmerge_cells(start_row=1, start_column=1, end_row=2, end_column=1)

2. 数据类型转换

字符串转数字：

for row in ws.iter_rows(min_row=2):
  if isinstance(row[0].value, str):
    try:
      row[0].value = float(row[0].value)
    except ValueError:
      pass

日期标准化：

from datetime import datetime
for cell in ws['A']:
  if isinstance(cell.value, str):
    try:
      cell.value = datetime.strptime(cell.value, '%Y-%m-%d').date()
    except ValueError:
      pass

4.3 性能对比与局限

优势：

精细控制：支持Excel特有的功能（如条件格式、数据验证）。
大文件处理：通过read_only和write_only模式优化内存使用。

局限：

格式依赖：处理复杂格式的Excel文件时可能丢失样式。
性能瓶颈：遍历10万行数据时，openpyxl比Pandas慢约5倍。

五、四大库的协同应用策略

5.1 典型清洗流程

数据加载：

Excel文件：pd.read_excel('data.xlsx', engine='openpyxl')
CSV文件：pd.read_csv('data.csv')

初步清洗（Pandas主导）：

删除重复值、填充缺失值、类型转换。

深度清洗（NumPy+re协同）：

NumPy处理数值异常值，re清理文本字段。

结果导出：

保存为CSV：df.to_csv('cleaned.csv', index=False)
保存为Excel：通过openpyxl调整格式后保存。

5.2 性能优化技巧

混合使用NumPy与Pandas：

import numpy as np
import pandas as pd
df = pd.DataFrame({'A': np.random.rand(1000000)})
# 使用NumPy计算均值后填充
df['A'].fillna(np.mean(df['A'].values), inplace=True)

分块处理大文件：

chunk_iter = pd.read_csv('large_file.csv', chunksize=50000)
for chunk in chunk_iter:
  clean_chunk = chunk.dropna() # 分块清洗
  clean_chunk.to_csv('cleaned_chunks.csv', mode='a', header=False)

六、总结与选型建议

库	核心优势	适用场景	性能瓶颈
NumPy	高效数值计算、向量化操作	金融风控、科学计算	非数值处理能力弱
Pandas	全流程数据清洗、标签支持	商业分析、时间序列处理	超大规模数据内存消耗大
re	精准文本模式匹配	日志分析、非结构化数据清洗	复杂模式编写难度高
openpyxl	Excel文件精细操作	财务报告、格式敏感型Excel清洗	处理速度慢于Pandas