メインコンテンツへスキップ
メインコンテンツへスキップ

QBit データ型

Experimental feature. Learn more.

QBit データ型は、近似検索を高速化するためにベクトルの格納方式を再構成します。各ベクトルの要素をまとめて保存する代わりに、すべてのベクトルにわたって同じビット位置をグループ化して格納します。 これにより、ベクトルはフル精度のまま保持しつつ、検索時にきめ細かな量子化レベルを選択できます。読み込むビット数を少なくすれば I/O が減って計算が高速になり、多く読めば精度が向上します。量子化によるデータ転送量および計算量削減の高速化メリットを得ながら、必要に応じて元のデータをすべて参照できます。

注記

QBit データ型とそれに関連する距離関数は、現在は実験的機能です。 これらを有効にするには、まず SET allow_experimental_qbit_type = 1 を実行してください。 問題が発生した場合は、ClickHouse repository に issue を作成してください。

QBit 型のカラムを宣言するには、次の構文を使用します。

column_name QBit(element_type, dimension)
  • element_type – 各ベクトル要素の型。利用可能な型は BFloat16Float32Float64 です
  • dimension – 各ベクトル内の要素数。

QBit の作成

テーブルの列を定義する際に QBit 型を使用します:

CREATE TABLE test (id UInt32, vec QBit(Float32, 8)) ENGINE = Memory;
INSERT INTO test VALUES (1, [1, 2, 3, 4, 5, 6, 7, 8]), (2, [9, 10, 11, 12, 13, 14, 15, 16]);
SELECT vec FROM test ORDER BY id;
┌─vec──────────────────────┐
│ [1,2,3,4,5,6,7,8]        │
│ [9,10,11,12,13,14,15,16] │
└──────────────────────────┘

QBit サブカラム

QBit は、格納されたベクトルの個々のビットプレーンにアクセスできるサブカラムアクセスパターンを実装しています。各ビット位置には .N 構文を使用してアクセスでき、N はビット位置を表します。

CREATE TABLE test (id UInt32, vec QBit(Float32, 8)) ENGINE = Memory;
INSERT INTO test VALUES (1, [0, 0, 0, 0, 0, 0, 0, 0]);
INSERT INTO test VALUES (1, [-0, -0, -0, -0, -0, -0, -0, -0]);
SELECT bin(vec.1) FROM test;
┌─bin(tupleElement(vec, 1))─┐
│ 00000000                  │
│ 11111111                  │
└───────────────────────────┘

アクセス可能なサブカラムの数は要素型に依存します。

  • BFloat16: サブカラム 16 個 (1〜16)
  • Float32: サブカラム 32 個 (1〜32)
  • Float64: サブカラム 64 個 (1〜64)

ベクトル検索関数

QBit データ型を使用するベクトル類似度検索向けの距離関数は次のとおりです。