BSONEachRow
| 输入 | 输出 | 别名 |
|---|---|---|
| ✔ | ✔ |
描述
BSONEachRow 格式将数据解析为一系列二进制 JSON(BSON)文档,文档之间没有任何分隔符。
每一行会被格式化为一个单独的文档,每一列会被格式化为该文档中的一个 BSON 字段,列名作为字段名。
数据类型匹配
在输出时,使用以下 ClickHouse 类型与 BSON 类型之间的对应关系:
| ClickHouse 类型 | BSON 类型 |
|---|---|
| Bool | \x08 boolean |
| Int8/UInt8/Enum8 | \x10 int32 |
| Int16/UInt16/Enum16 | \x10 int32 |
| Int32 | \x10 int32 |
| UInt32 | \x12 int64 |
| Int64/UInt64 | \x12 int64 |
| Float32/Float64 | \x01 double |
| Date/Date32 | \x10 int32 |
| DateTime | \x12 int64 |
| DateTime64 | \x09 datetime |
| Decimal32 | \x10 int32 |
| Decimal64 | \x12 int64 |
| Decimal128 | \x05 binary, \x00 binary subtype, size = 16 |
| Decimal256 | \x05 binary, \x00 binary subtype, size = 32 |
| Int128/UInt128 | \x05 binary, \x00 binary subtype, size = 16 |
| Int256/UInt256 | \x05 binary, \x00 binary subtype, size = 32 |
| String/FixedString | \x05 binary, \x00 binary subtype 或 \x02 string(如果启用了 output_format_bson_string_as_string 设置) |
| UUID | \x05 binary, \x04 uuid subtype, size = 16 |
| Array | \x04 array |
| Tuple | \x04 array |
| Named Tuple | \x03 document |
| Map | \x03 document |
| IPv4 | \x10 int32 |
| IPv6 | \x05 binary, \x00 binary subtype |
在输入时,使用以下 BSON 类型与 ClickHouse 类型之间的对应关系:
| BSON Type | ClickHouse 类型 |
|---|---|
\x01 double | Float32/Float64 |
\x02 string | String/FixedString |
\x03 document | Map/Named Tuple |
\x04 array | Array/Tuple |
\x05 binary, \x00 binary subtype | String/FixedString/IPv6 |
\x05 binary, \x02 old binary subtype | String/FixedString |
\x05 binary, \x03 old uuid subtype | UUID |
\x05 binary, \x04 uuid subtype | UUID |
\x07 ObjectId | String/FixedString |
\x08 boolean | Bool |
\x09 datetime | DateTime64 |
\x0A null value | NULL |
\x0D JavaScript code | String/FixedString |
\x0E symbol | String/FixedString |
\x10 int32 | Int32/UInt32/Decimal32/IPv4/Enum8/Enum16 |
\x12 int64 | Int64/UInt64/Decimal64/DateTime64 |
其他 BSON 类型不受支持。此外,该格式也会在不同整数类型之间进行转换。
例如,可以将 BSON int32 值作为 UInt8 插入到 ClickHouse 中。
Int128/UInt128/Int256/UInt256/Decimal128/Decimal256 等大整数和小数可以从具有 \x00 二进制子类型的 BSON Binary 值中解析。
在这种情况下,该格式会验证二进制数据的大小是否与预期值的大小一致。
注意
此格式在大端(Big-Endian)平台上不能正常工作。
使用示例
插入数据
使用名为 football.bson、包含以下数据的 BSON 文件:
插入数据:
读取数据
以 BSONEachRow 格式读取数据:
提示
BSON 是一种二进制格式,无法在终端以人类可读形式显示。使用 INTO OUTFILE 将数据输出为 BSON 文件。
格式设置
| 设置 | 描述 | 默认值 |
|---|---|---|
output_format_bson_string_as_string | 对 String 列使用 BSON String 类型而不是 Binary 类型。 | false |
input_format_bson_skip_fields_with_unsupported_types_in_schema_inference | 在对 BSONEachRow 格式进行 schema 推断时,允许跳过类型不受支持的列。 | false |