DataStore の I/O 操作

DataStore は、さまざまなファイル形式やデータソースからの読み書きをサポートしています。

データの読み込み

CSV ファイル

read_csv(filepath_or_buffer, sep=',', header='infer', names=None, 
         usecols=None, dtype=None, nrows=None, skiprows=None,
         compression=None, encoding=None, **kwargs)

例：

from chdb import datastore as pd

# Basic CSV read
ds = pd.read_csv("data.csv")

# With options
ds = pd.read_csv(
    "data.csv",
    sep=";",                    # Custom delimiter
    header=0,                   # Header row index
    names=['a', 'b', 'c'],      # Custom column names
    usecols=['a', 'b'],         # Only read specific columns
    dtype={'a': 'Int64'},       # Specify dtypes
    nrows=1000,                 # Read only first 1000 rows
    skiprows=1,                 # Skip first row
    compression='gzip',         # Compressed file
    encoding='utf-8'            # Encoding
)

# From URL
ds = pd.read_csv("https://example.com/data.csv")

Parquet ファイル

大規模なデータセット向けに推奨される、圧縮効率に優れた列指向フォーマットです。

read_parquet(path, columns=None, **kwargs)

例：

# Basic Parquet read
ds = pd.read_parquet("data.parquet")

# Read specific columns only (efficient - only reads needed data)
ds = pd.read_parquet("data.parquet", columns=['col1', 'col2', 'col3'])

# From S3
ds = pd.read_parquet("s3://bucket/data.parquet")

JSON ファイル

read_json(path_or_buf, orient=None, lines=False, **kwargs)

例：

# Standard JSON
ds = pd.read_json("data.json")

# JSON Lines (newline-delimited)
ds = pd.read_json("data.jsonl", lines=True)

# JSON with specific orientation
ds = pd.read_json("data.json", orient='records')

Excel ファイル

read_excel(io, sheet_name=0, header=0, names=None, **kwargs)

例：

# Read first sheet
ds = pd.read_excel("data.xlsx")

# Read specific sheet
ds = pd.read_excel("data.xlsx", sheet_name="Sheet1")
ds = pd.read_excel("data.xlsx", sheet_name=2)  # Third sheet

# Read multiple sheets (returns dict)
sheets = pd.read_excel("data.xlsx", sheet_name=['Sheet1', 'Sheet2'])

SQL データベース

read_sql(sql, con, **kwargs)

例:

# Read from SQL query
ds = pd.read_sql("SELECT * FROM users", connection)
ds = pd.read_sql("SELECT * FROM orders WHERE date > '2024-01-01'", connection)

その他のフォーマット

# Feather (Arrow)
ds = pd.read_feather("data.feather")

# ORC
ds = pd.read_orc("data.orc")

# Pickle
ds = pd.read_pickle("data.pkl")

# Fixed-width formatted
ds = pd.read_fwf("data.txt", widths=[10, 20, 15])

# HTML tables
ds = pd.read_html("https://example.com/table.html")[0]

データの書き込み

to_csv

CSV 形式でエクスポートします。

to_csv(path_or_buf=None, sep=',', na_rep='', header=True, 
       index=True, mode='w', compression=None, **kwargs)

例：

ds = pd.read_parquet("data.parquet")

# Basic export
ds.to_csv("output.csv")

# With options
ds.to_csv(
    "output.csv",
    sep=";",                    # Custom delimiter
    index=False,                # Don't include index
    header=True,                # Include header
    na_rep='NULL',              # Represent NaN as 'NULL'
    compression='gzip'          # Compress output
)

# To string
csv_string = ds.to_csv()

to_parquet

Parquet 形式にエクスポートします（大規模なデータのエクスポートに推奨）。

to_parquet(path, engine='pyarrow', compression='snappy', **kwargs)

使用例:

# Basic export
ds.to_parquet("output.parquet")

# With compression options
ds.to_parquet("output.parquet", compression='gzip')
ds.to_parquet("output.parquet", compression='zstd')

# Partitioned output
ds.to_parquet(
    "output/",
    partition_cols=['year', 'month']
)

to_json

JSON 形式で出力します。

to_json(path_or_buf=None, orient='records', lines=False, **kwargs)

例：

# Standard JSON (array of records)
ds.to_json("output.json", orient='records')

# JSON Lines (one JSON object per line)
ds.to_json("output.jsonl", lines=True)

# Different orientations
ds.to_json("output.json", orient='split')    # {columns, data, index}
ds.to_json("output.json", orient='records')  # [{col: val}, ...]
ds.to_json("output.json", orient='columns')  # {col: {idx: val}}

# To string
json_string = ds.to_json()

to_excel

Excel 形式でエクスポートします。

to_excel(excel_writer, sheet_name='Sheet1', index=True, **kwargs)

例:

# Single sheet
ds.to_excel("output.xlsx")
ds.to_excel("output.xlsx", sheet_name="Data", index=False)

# Multiple sheets
with pd.ExcelWriter("output.xlsx") as writer:
    ds1.to_excel(writer, sheet_name="Sales")
    ds2.to_excel(writer, sheet_name="Inventory")

to_sql

SQL データベースへのエクスポートや SQL 文字列の生成を行います。

to_sql(name=None, con=None, schema=None, if_exists='fail', **kwargs)

例:

# Generate SQL query (no execution)
sql = ds.to_sql()
print(sql)
# SELECT ...
# FROM ...
# WHERE ...

# Write to database
ds.to_sql("table_name", connection, if_exists='replace')

その他のエクスポート方法

# To pandas DataFrame
df = ds.to_df()
df = ds.to_pandas()

# To Arrow Table
table = ds.to_arrow()

# To NumPy array
arr = ds.to_numpy()

# To dictionary
d = ds.to_dict()
d = ds.to_dict(orient='records')  # List of dicts
d = ds.to_dict(orient='list')     # Dict of lists

# To records (list of tuples)
records = ds.to_records()

# To string
s = ds.to_string()
s = ds.to_string(max_rows=100)

# To Markdown
md = ds.to_markdown()

# To HTML
html = ds.to_html()

# To LaTeX
latex = ds.to_latex()

# To clipboard
ds.to_clipboard()

# To pickle
ds.to_pickle("output.pkl")

# To feather
ds.to_feather("output.feather")

ファイル形式の比較

形式	読み取り速度	書き込み速度	ファイルサイズ	スキーマ	最適な用途
Parquet	高速	高速	小さい	あり	大規模データセット、分析処理
CSV	中程度	高速	大きい	なし	互換性重視、シンプルなデータ
JSON	低速	中程度	大きい	一部あり	API、ネスト構造のあるデータ
Excel	低速	低速	中程度	一部あり	非技術系ユーザーとの共有
Feather	非常に高速	非常に高速	中程度	あり	プロセス間のデータ共有、pandas

推奨事項

分析ワークロード向け: Parquet を使用
- 列指向フォーマットにより、必要なカラムだけを読み取れる
- 優れた圧縮率
- データ型を保持できる
データ交換向け: CSV または JSON を使用
- 高い互換性
- 人間が読みやすい
pandas との相互運用向け: Feather または Arrow を使用
- 最速のシリアライズ
- 型情報を保持できる

圧縮サポート

圧縮ファイルの読み込み

# Auto-detect from extension
ds = pd.read_csv("data.csv.gz")
ds = pd.read_csv("data.csv.bz2")
ds = pd.read_csv("data.csv.xz")
ds = pd.read_csv("data.csv.zst")

# Explicit compression
ds = pd.read_csv("data.csv", compression='gzip')

圧縮ファイルへの書き込み

# CSV with compression
ds.to_csv("output.csv.gz", compression='gzip')
ds.to_csv("output.csv.bz2", compression='bz2')

# Parquet (always compressed)
ds.to_parquet("output.parquet", compression='snappy')  # Default
ds.to_parquet("output.parquet", compression='gzip')
ds.to_parquet("output.parquet", compression='zstd')    # Best ratio
ds.to_parquet("output.parquet", compression='lz4')     # Fastest

圧縮オプション

圧縮方式	速度	圧縮率	用途
`snappy`	非常に高速	低い	Parquet のデフォルト
`lz4`	非常に高速	低い	速度重視
`gzip`	中程度	高い	互換性重視
`zstd`	高速	非常に高い	バランス最適
`bz2`	低速	非常に高い	最大圧縮

ストリーミング I/O

メモリに収まらないような非常に大きなファイルに対しては:

チャンク単位での読み取り

# Read in chunks
for chunk in pd.read_csv("large.csv", chunksize=100000):
    # Process each chunk
    process(chunk)

# Using iterator
reader = pd.read_csv("large.csv", iterator=True)
chunk = reader.get_chunk(10000)

ClickHouse Streaming の利用

from chdb.datastore import DataStore

# Stream from file without loading all into memory
ds = DataStore.from_file("huge.parquet")

# Operations are lazy - only computes what's needed
result = ds.filter(ds['amount'] > 1000).head(100)

リモートデータソース

HTTP/HTTPS

# Read from URL
ds = pd.read_csv("https://example.com/data.csv")
ds = pd.read_parquet("https://example.com/data.parquet")

S3

from chdb.datastore import DataStore

# Anonymous access
ds = DataStore.uri("s3://bucket/data.parquet?nosign=true")

# With credentials
ds = DataStore.from_s3(
    "s3://bucket/data.parquet",
    access_key_id="KEY",
    secret_access_key="SECRET"
)

GCS、Azure、HDFS

Cloud ストレージのオプションについては、Factory Methods を参照してください。

ベストプラクティス

1. 大きなファイルには Parquet 形式を使用する

# Convert CSV to Parquet for better performance
ds = pd.read_csv("large.csv")
ds.to_parquet("large.parquet")

# Future reads are much faster
ds = pd.read_parquet("large.parquet")

2. 必要なカラムのみ選択する

# Efficient - only reads col1 and col2
ds = pd.read_parquet("data.parquet", columns=['col1', 'col2'])

# Inefficient - reads all columns then filters
ds = pd.read_parquet("data.parquet")[['col1', 'col2']]

3. 圧縮を利用する

# Smaller file size, usually faster due to less I/O
ds.to_parquet("output.parquet", compression='zstd')

4. バッチ書き込み

# Write once, not in a loop
result = process_all_data(ds)
result.to_parquet("output.parquet")

# NOT this (inefficient)
for chunk in chunks:
    chunk.to_parquet(f"output_{i}.parquet")

データの読み込み​

CSV ファイル​

Parquet ファイル​

JSON ファイル​

Excel ファイル​

SQL データベース​

その他のフォーマット​

データの書き込み​

to_csv​

to_parquet​

to_json​

to_excel​

to_sql​

その他のエクスポート方法​

ファイル形式の比較​

推奨事項​

圧縮サポート​

圧縮ファイルの読み込み​

圧縮ファイルへの書き込み​

圧縮オプション​

ストリーミング I/O​

チャンク単位での読み取り​

ClickHouse Streaming の利用​

リモートデータソース​

HTTP/HTTPS​

S3​

GCS、Azure、HDFS​

ベストプラクティス​

1. 大きなファイルには Parquet 形式を使用する​

2. 必要なカラムのみ選択する​

3. 圧縮を利用する​

4. バッチ書き込み​