教程和示例数据集
我们提供了大量资源,帮助你上手并了解 ClickHouse 的工作原理:
- 如果你需要快速部署并运行 ClickHouse,请查看我们的快速入门
- ClickHouse 教程 分析了一个纽约市出租车行程的数据集
此外,这些示例数据集为你提供了良好的实践体验,帮助你使用 ClickHouse, 学习重要的技巧与方法,并了解如何充分利用 ClickHouse 中众多强大的 函数。这些示例数据集包括:
| 页面 | 描述 |
|---|---|
| Amazon 客户评价 | 超过 1.5 亿条亚马逊商品的客户评价 |
| AMPLab 大数据基准 | 用于对比数据仓库解决方案性能的基准测试数据集。 |
| 使用 ClickHouse 分析 Stack Overflow 数据 | 利用 ClickHouse 分析 Stack Overflow 数据 |
| 匿名网站分析 | 由两个表组成的数据集,包含已匿名化的网页分析数据,涵盖点击事件和访问会话 |
| 布朗大学基准测试 | 面向机器生成日志数据的新型分析基准测试 |
| COVID-19 开放数据 | COVID-19 Open-Data 是一个大型开源数据库,涵盖 COVID-19 流行病学数据,以及人口统计、经济和政府应对等相关因素。 |
| DBpedia 数据集 | 包含 100 万篇维基百科文章及其向量嵌入的数据集 |
| 环境传感器数据 | 来自 Sensor.Community 的逾 200 亿条数据记录,这是一个由社区贡献者驱动的全球传感器网络,致力于创建开放环境数据。 |
| Foursquare 地点 | 包含超过 1 亿条记录的数据集,记录了地图上各类地点的信息,如商店、餐馆、公园、游乐场和纪念性建筑等。 |
| 使用蜂窝基站数据集进行地理数据分析 | 了解如何将 OpenCelliD 数据加载到 ClickHouse,将 Apache Superset 连接到 ClickHouse,并基于这些数据构建一个仪表板 |
| GitHub 事件数据集 | 包含 2011 年至 2020 年 12 月 6 日期间 GitHub 上所有事件的数据集,共计 31 亿条记录。 |
| Hacker News 数据集 | 包含 2800 万条 Hacker News 记录的数据集。 |
| Hacker News 向量搜索数据集 | 包含 2800 多万条 Hacker News 帖子及其向量嵌入的数据集 |
| LAION 5B 数据集 | 包含来自 LAION 5B 数据集的一亿个向量的数据集 |
| Laion-400M 数据集 | 包含 4 亿张图像及其英文说明的数据集 |
| 纽约公共图书馆 “What’s on the Menu?” 数据集 | 包含 130 万条酒店、餐馆和咖啡馆菜单历史记录的数据集,附有各菜品及其价格信息。 |
| 纽约出租车数据集 | 自 2009 年以来从纽约市出发的数十亿次出租车和网约车(Uber、Lyft 等)行程数据 |
| NOAA 全球历史气候网络 | 过去 120 年间的 25 亿行气候数据 |
| 纽约市警察局(NYPD)投诉数据 | 通过 5 个步骤摄取和查询制表符分隔值(TSV)数据 |
| OnTime | 包含航班准点表现的数据集 |
| 星型模式基准测试(SSB,2009) | Star Schema Benchmark(SSB)数据集与查询 |
| 台湾历史天气数据集 | 过去 128 年间的 1.31 亿行天气观测数据 |
| 来自 Criteo 的 TB 级点击日志数据集 | 来自 Criteo 的 1 TB 点击日志数据 |
| 英国房地产价格数据集 | 了解如何利用英国房产数据集(其中包含英格兰和威尔士房地产成交价格数据)来使用投影优化高频查询的性能。 |
| TPC-DS(2012) | TPC-DS 基准测试数据集和查询。 |
| TPC-H (1999) | TPC-H 基准测试数据集和查询。 |
| WikiStat | 探索包含 5000 亿条记录的 WikiStat 数据集。 |
| 使用 GitHub 数据在 ClickHouse 中编写查询 | 包含 ClickHouse 仓库中所有提交记录和变更的数据集 |
| YouTube 点踩数据集 | YouTube 视频点踩记录的集合。 |