チュートリアルとサンプルデータセット
ClickHouse の使い方を学び、すぐに使い始めるためのリソースを多数用意しています。
- ClickHouse をすぐに動かしたい場合は、クイックスタート を参照してください
- ClickHouse チュートリアル では、ニューヨーク市のタクシー乗車データセットを分析します
さらに、サンプルデータセットは、ClickHouse を使った実践的な操作を体験し、 重要なテクニックやコツを学び、ClickHouse の多くの強力な関数を どのように活用できるかを確認するのに最適です。サンプルデータセットには次のものが含まれます。
| ページ | 概要 |
|---|---|
| Amazon カスタマーレビュー | 1億5,000万件以上のAmazon商品に対するカスタマーレビュー |
| AMPLab Big Data Benchmark | データウェアハウスソリューションのパフォーマンスを比較するために使用されるベンチマーク用データセット。 |
| ClickHouse で Stack Overflow のデータを分析する | ClickHouse で Stack Overflow データを分析する |
| 匿名化されたウェブ分析 | ヒットおよびビジットに関する匿名化済みのウェブ解析データを含む2つのテーブルからなるデータセット |
| ブラウン大学ベンチマーク | 機械生成されたログデータ向けの新しい分析ベンチマーク |
| COVID-19 オープンデータ | COVID-19 Open-Data は、COVID-19 の疫学データをはじめ、人口統計、経済、政府の対応といった関連要因を含む、大規模なオープンソースデータベースです |
| DBpedia データセット | Wikipedia の 100 万件の記事とそれぞれのベクター埋め込みを含むデータセット |
| 環境センサー データ | Sensor.Community から提供される 200 億件超のデータレコード。Sensor.Community は、オープンな環境データを生成する貢献者主導のグローバルセンサーネットワークです。 |
| Foursquare places | 地図上の店舗、レストラン、公園、遊び場、記念碑などの場所に関する情報を含む、1億件を超えるレコードから成るデータセット。 |
| 携帯基地局データセットを用いた地理データ | OpenCelliD データを ClickHouse に読み込み、Apache Superset を ClickHouse に接続して、そのデータに基づくダッシュボードを作成する方法について説明します |
| GitHub Events データセット | 2011年から2020年12月6日までにGitHubで発生したすべてのイベントを含むデータセットで、レコード数は31億件です。 |
| Hacker News データセット | Hacker News の2,800万行分のデータを含むデータセット。 |
| Hacker News ベクトル検索データセット | 2,800万件以上のHacker News投稿とそのベクトル埋め込みを収録したデータセット |
| LAION 5Bデータセット | LAION 5B データセットから抽出した1億件のベクトルを含むデータセット |
| Laion-400M データセット | 英語の画像キャプション付き画像4億枚からなるデータセット |
| ニューヨーク公共図書館「What's on the Menu?」データセット | ホテル、レストラン、カフェのメニューに関する130万件の歴史データを含み、各料理とその価格が記録されたデータセット。 |
| ニューヨークタクシーデータ | 2009年以降のニューヨーク市発タクシーおよび配車サービス(Uber、Lyft など)の数十億件分の乗車データ |
| NOAA Global Historical Climatology Network | 過去120年間の25億行の気候データ |
| NYPD苦情データ | タブ区切り値(TSV)データを5ステップで取り込み・クエリする |
| OnTime | 航空便の定時運航実績を含むデータセット |
| Star Schema Benchmark(SSB、2009) | Star Schema Benchmark (SSB) のデータセットとクエリ |
| 台湾の過去の気象データセット | 過去128年間にわたる気象観測データ1億3100万行分 |
| Criteo のテラバイト規模のクリックログ | Criteo のクリックログ 1 テラバイト分 |
| 英国の不動産価格データセット | イングランドとウェールズの不動産売買価格データを含む UK property データセットを使って、頻繁に実行するクエリのパフォーマンスを projections で改善する方法を学びます |
| TPC-DS (2012) | TPC-DS ベンチマーク用データセットとクエリ。 |
| TPC-H (1999) | TPC-H ベンチマーク用データセットとクエリ。 |
| WikiStat | 5,000 億件のレコードを含む WikiStat データセットを探索します。 |
| ClickHouse での GitHub データ向けクエリの作成 | ClickHouse リポジトリ内のすべてのコミットと変更を含むデータセット |
| YouTube の低評価データセット | YouTube 動画に付けられた低評価データのコレクション。 |