跳到主要内容
跳到主要内容

教程和示例数据集

我们提供了大量资源,帮助你上手并了解 ClickHouse 的工作原理:

  • 如果你需要快速部署并运行 ClickHouse,请查看我们的快速入门
  • ClickHouse 教程 分析了一个纽约市出租车行程的数据集

此外,这些示例数据集为你提供了良好的实践体验,帮助你使用 ClickHouse, 学习重要的技巧与方法,并了解如何充分利用 ClickHouse 中众多强大的 函数。这些示例数据集包括:

页面描述
Amazon 客户评价超过 1.5 亿条亚马逊商品的客户评价
AMPLab 大数据基准用于对比数据仓库解决方案性能的基准测试数据集。
使用 ClickHouse 分析 Stack Overflow 数据利用 ClickHouse 分析 Stack Overflow 数据
匿名网站分析由两个表组成的数据集,包含已匿名化的网页分析数据,涵盖点击事件和访问会话
布朗大学基准测试面向机器生成日志数据的新型分析基准测试
COVID-19 开放数据COVID-19 Open-Data 是一个大型开源数据库,涵盖 COVID-19 流行病学数据,以及人口统计、经济和政府应对等相关因素。
DBpedia 数据集包含 100 万篇维基百科文章及其向量嵌入的数据集
环境传感器数据来自 Sensor.Community 的逾 200 亿条数据记录,这是一个由社区贡献者驱动的全球传感器网络,致力于创建开放环境数据。
Foursquare 地点包含超过 1 亿条记录的数据集,记录了地图上各类地点的信息,如商店、餐馆、公园、游乐场和纪念性建筑等。
使用蜂窝基站数据集进行地理数据分析了解如何将 OpenCelliD 数据加载到 ClickHouse,将 Apache Superset 连接到 ClickHouse,并基于这些数据构建一个仪表板
GitHub 事件数据集包含 2011 年至 2020 年 12 月 6 日期间 GitHub 上所有事件的数据集,共计 31 亿条记录。
Hacker News 数据集包含 2800 万条 Hacker News 记录的数据集。
Hacker News 向量搜索数据集包含 2800 多万条 Hacker News 帖子及其向量嵌入的数据集
LAION 5B 数据集包含来自 LAION 5B 数据集的一亿个向量的数据集
Laion-400M 数据集包含 4 亿张图像及其英文说明的数据集
纽约公共图书馆 “What’s on the Menu?” 数据集包含 130 万条酒店、餐馆和咖啡馆菜单历史记录的数据集,附有各菜品及其价格信息。
纽约出租车数据集自 2009 年以来从纽约市出发的数十亿次出租车和网约车(Uber、Lyft 等)行程数据
NOAA 全球历史气候网络过去 120 年间的 25 亿行气候数据
纽约市警察局(NYPD)投诉数据通过 5 个步骤摄取和查询制表符分隔值(TSV)数据
OnTime包含航班准点表现的数据集
星型模式基准测试(SSB,2009)Star Schema Benchmark(SSB)数据集与查询
台湾历史天气数据集过去 128 年间的 1.31 亿行天气观测数据
来自 Criteo 的 TB 级点击日志数据集来自 Criteo 的 1 TB 点击日志数据
英国房地产价格数据集了解如何利用英国房产数据集(其中包含英格兰和威尔士房地产成交价格数据)来使用投影优化高频查询的性能。
TPC-DS(2012)TPC-DS 基准测试数据集和查询。
TPC-H (1999)TPC-H 基准测试数据集和查询。
WikiStat探索包含 5000 亿条记录的 WikiStat 数据集。
使用 GitHub 数据在 ClickHouse 中编写查询包含 ClickHouse 仓库中所有提交记录和变更的数据集
YouTube 点踩数据集YouTube 视频点踩记录的集合。