Pandas 兼容性
DataStore 实现了 209 个 pandas DataFrame 方法,以实现完整的 API 兼容性。您现有的 pandas 代码几乎无需修改即可继续使用。
兼容性策略
关键原则:
- 已实现全部 209 个 pandas DataFrame 方法
- 使用惰性求值以进行 SQL 优化
- 自动类型包装(DataFrame → DataStore,Series → ColumnExpr)
- 不可变操作(无
inplace=True)
属性与特性
| Property | 描述 | 是否触发计算 |
|---|---|---|
shape | (行, 列)元组 | 是 |
columns | 列名(Index) | 是 |
dtypes | 列数据类型 | 是 |
values | NumPy 数组 | 是 |
index | 行索引 | 是 |
size | 元素个数 | 是 |
ndim | 维度数 | 否 |
empty | DataFrame 是否为空 | 是 |
T | 转置 | 是 |
axes | 轴列表 | 是 |
示例:
索引和选择
| Method | Description | Example |
|---|---|---|
df['col'] | 选择列 | ds['age'] |
df[['col1', 'col2']] | 选择多列 | ds[['name', 'age']] |
df[condition] | 布尔索引 | ds[ds['age'] > 25] |
df.loc[...] | 基于标签访问 | ds.loc[0:10, 'name'] |
df.iloc[...] | 基于整数位置访问 | ds.iloc[0:10, 0:3] |
df.at[...] | 通过标签获取单个值 | ds.at[0, 'name'] |
df.iat[...] | 通过位置获取单个值 | ds.iat[0, 0] |
df.head(n) | 前 n 行 | ds.head(10) |
df.tail(n) | 后 n 行 | ds.tail(10) |
df.sample(n) | 随机抽样 | ds.sample(100) |
df.select_dtypes() | 按数据类型选择 | ds.select_dtypes(include='number') |
df.query() | 查询表达式 | ds.query('age > 25') |
df.where() | 条件替换 | ds.where(ds['age'] > 0, 0) |
df.mask() | 反向 where 操作 | ds.mask(ds['age'] < 0, 0) |
df.isin() | 判断值是否属于集合 | ds['city'].isin(['NYC', 'LA']) |
df.get() | 安全列访问 | ds.get('col', default=None) |
df.xs() | 截取横截面 | ds.xs('key') |
df.pop() | 删除列 | ds.pop('col') |
统计方法
| Method | Description | SQL Equivalent |
|---|---|---|
mean() | 平均值 | AVG() |
median() | 中位数 | MEDIAN() |
mode() | 众数 | - |
std() | 标准差 | STDDEV() |
var() | 方差 | VAR() |
min() | 最小值 | MIN() |
max() | 最大值 | MAX() |
sum() | 求和 | SUM() |
prod() | 乘积 | - |
count() | 非空计数 | COUNT() |
nunique() | 去重计数 | UNIQ() |
value_counts() | 各值频数统计 | GROUP BY |
quantile() | 分位数 | QUANTILE() |
describe() | 描述性统计汇总 | - |
corr() | 相关系数矩阵 | CORR() |
cov() | 协方差矩阵 | COV() |
corrwith() | 成对相关 | - |
rank() | 排名(秩)值 | RANK() |
abs() | 绝对值 | ABS() |
round() | 四舍五入值 | ROUND() |
clip() | 截断(裁剪)值 | - |
cumsum() | 累积和 | 窗口函数 |
cumprod() | 累积乘积 | 窗口函数 |
cummin() | 累积最小值 | 窗口函数 |
cummax() | 累积最大值 | 窗口函数 |
diff() | 差分 | 窗口函数 |
pct_change() | 百分比变化 | 窗口函数 |
skew() | 偏度 | SKEW() |
kurt() | 峰度 | KURT() |
sem() | 标准误差 | - |
all() | 是否全部为 true | - |
any() | 是否存在为 true 的值 | - |
idxmin() | 最小值的索引 | - |
idxmax() | 最大值的索引 | - |
示例:
数据操作
| Method | Description |
|---|---|
drop() | 删除行/列 |
drop_duplicates() | 删除重复项 |
duplicated() | 标记重复项 |
dropna() | 删除缺失值 |
fillna() | 填充缺失值 |
ffill() | 前向填充 |
bfill() | 后向填充 |
interpolate() | 插值填充 |
replace() | 替换值 |
rename() | 重命名列/索引 |
rename_axis() | 重命名轴 |
assign() | 添加新列 |
astype() | 转换类型 |
convert_dtypes() | 推断类型 |
copy() | 复制 DataFrame |
示例:
排序和排名
| Method | Description |
|---|---|
sort_values() | 按值排序 |
sort_index() | 按索引排序 |
nlargest() | 最大的 N 个值 |
nsmallest() | 最小的 N 个值 |
示例:
重塑(Reshaping)
| Method | Description |
|---|---|
pivot() | 透视表 |
pivot_table() | 带聚合的透视表 |
melt() | 逆透视 |
stack() | 将列堆叠为索引 |
unstack() | 将索引展开为列 |
transpose() / T | 转置 |
explode() | 将列表展开为行 |
squeeze() | 降维 |
droplevel() | 删除索引层级 |
swaplevel() | 交换索引层级 |
reorder_levels() | 重新排序索引层级 |
示例:
合并 / 连接
| Method | Description |
|---|---|
merge() | SQL 风格的合并 |
join() | 按索引连接 |
concat() | 拼接 |
append() | 追加行 |
combine() | 通过函数合并 |
combine_first() | 按优先级合并 |
update() | 更新值 |
compare() | 显示差异 |
示例:
二元运算
| Method | Description |
|---|---|
add() / radd() | 加法 |
sub() / rsub() | 减法 |
mul() / rmul() | 乘法 |
div() / rdiv() | 除法 |
truediv() / rtruediv() | 真除(true division) |
floordiv() / rfloordiv() | 向下取整除 |
mod() / rmod() | 取模 |
pow() / rpow() | 幂运算 |
dot() | 矩阵乘法 |
示例:
比较操作
| 方法 | 说明 |
|---|---|
eq() | 等于 |
ne() | 不等于 |
lt() | 小于 |
le() | 小于或等于 |
gt() | 大于 |
ge() | 大于或等于 |
equals() | 判断是否相等 |
compare() | 显示差异 |
函数应用
| Method | Description |
|---|---|
apply() | 应用函数 |
applymap() | 对元素逐个应用 |
map() | 映射值 |
agg() / aggregate() | 聚合 |
transform() | 转换 |
pipe() | 管道函数 |
groupby() | 分组 |
示例:
时间序列
| Method | Description |
|---|---|
rolling() | 滚动窗口 |
expanding() | 扩展窗口 |
ewm() | 指数加权 |
resample() | 重采样时间序列 |
shift() | 偏移数值 |
asfreq() | 转换频率 |
asof() | 截至时间点的最新值 |
at_time() | 按时间点选择 |
between_time() | 按时间范围选择 |
first() / last() | 首/末几个周期 |
to_period() | 转换为周期 |
to_timestamp() | 转换为时间戳 |
tz_convert() | 转换时区 |
tz_localize() | 设置本地时区 |
示例:
缺失数据
| 方法 | 描述 |
|---|---|
isna() / isnull() | 检测缺失值 |
notna() / notnull() | 检测非缺失值 |
dropna() | 删除缺失值 |
fillna() | 填充缺失值 |
ffill() | 向前填充 |
bfill() | 向后填充 |
interpolate() | 插值 |
replace() | 替换值 |
I/O 方法
| 方法 | 说明 |
|---|---|
to_csv() | 导出为 CSV |
to_json() | 导出为 JSON |
to_excel() | 导出为 Excel |
to_parquet() | 导出为 Parquet |
to_feather() | 导出为 Feather |
to_sql() | 导出到 SQL 数据库 |
to_pickle() | 序列化为 Pickle |
to_html() | 导出为 HTML 表格 |
to_latex() | 导出为 LaTeX 表格 |
to_markdown() | 导出为 Markdown 表格 |
to_string() | 字符串表示 |
to_dict() | 字典 |
to_records() | 记录 |
to_numpy() | NumPy 数组 |
to_clipboard() | 复制到剪贴板 |
有关详细文档,请参阅 I/O 操作。
迭代
| 方法 | 描述 |
|---|---|
items() | 按(列,Series)迭代 |
iterrows() | 按(索引,Series)迭代 |
itertuples() | 以命名元组迭代 |
与 Pandas 的主要区别
1. 返回类型
2. 延迟执行
3. 没有 inplace 参数
4. 结果对比
完整说明请参阅关键差异。