跳到主要内容
跳到主要内容

聚合函数

ClickHouse 支持所有标准 SQL 聚合函数(sumavgminmaxcount),以及大量其他聚合函数。

页面说明
aggThrow此函数可用于测试异常安全性。它会在创建时以指定概率抛出异常。
analysisOfVariance提供单因素方差分析(ANOVA)的统计检验。它用于对若干组服从正态分布的观测值进行检验,以判断各组的均值是否相同。
any选取某列中首次出现的值。
anyHeavy使用 heavy hitters 算法选择一个频繁出现的值。如果在每个查询执行线程中,都存在某个值在该线程中出现次数超过一半,则返回该值。通常,该结果是非确定性的。
anyLast返回列中最后出现的值。
approx_top_k返回一个数组,其中包含指定列中近似出现频率最高的值及其出现次数。
approx_top_sum返回一个数组,其中包含指定列中出现频率最高的值的近似结果及其对应计数。
argMax计算使 val 取得最大值时的 arg 值。
argMin计算最小 val 值对应的 arg 值。如果存在多行具有相同的 val 且该值为最大值,则返回哪一个关联的 arg 是不确定的。
argAndMax计算最大 val 值对应的 argval。如果存在多行记录的 val 相同且都是最大值,则返回哪一行对应的 argval 是不确定的。
argAndMin计算最小 val 值所对应的 argval。若存在多行记录的 val 相同且均为最小值,则最终返回哪一行对应的 argval 是不确定的。
groupArrayArray将多个数组聚合成一个更大的数组。
avg计算算术平均值。
avgWeighted计算加权算术平均值。
boundingRatio用于计算一组值中最左端点和最右端点之间斜率的聚合函数。
categoricalInformationValue为每个类别计算 (P(tag = 1) - P(tag = 0))(log(P(tag = 1)) - log(P(tag = 0))) 的值。
contingencycontingency 函数计算列联系数,该系数用于度量表中两列之间的关联程度。其计算方式与 cramersV 函数类似,但平方根中的分母不同。
corr计算皮尔逊相关系数。
corrMatrix计算 N 个变量的相关矩阵。
corrStable计算 Pearson 相关系数,但采用数值上更稳定的算法。
count计算行数或非 NULL 值的数量。
covarPop计算总体协方差
covarPopMatrix返回 N 个变量之间的总体协方差矩阵。
covarPopStable计算总体协方差
covarSamp计算 Σ((x - x̅)(y - y̅)) / (n - 1) 的值
covarSampMatrix返回 N 个变量的样本协方差矩阵。
covarSampStable类似于 covarSamp,但运行速度较慢,计算误差更小。
cramersVcramersV 函数的结果范围从 0(表示变量之间没有关联)到 1,并且只有在每个值都完全由另一个值决定时才会达到 1。它可以被理解为两个变量之间关联程度相对于其最大可能变动的百分比。
cramersVBiasCorrected计算 Cramer's V,但使用了偏差校正。
deltaSum对连续行之间的算术差值进行求和。
deltaSumTimestamp对相邻行之间的差值进行相加。如果差值为负,则会被忽略。
entropy计算某列值的香农熵。
estimateCompressionRatio在不实际压缩给定列的情况下,估计其压缩比。
exponentialMovingAverage计算指定时间范围内数值的指数移动平均值。
exponentialTimeDecayedAvg返回在时间点 t 处的时间序列值的指数平滑加权移动平均。
exponentialTimeDecayedCount返回时间序列在时间索引 t 处的累积指数衰减。
exponentialTimeDecayedMax返回时间索引为 tt-1 时刻所计算的指数平滑移动平均值中的较大值。
exponentialTimeDecayedSum返回时间序列在时间索引 t 处的指数平滑移动平均值之和。
first_value它是 any 的别名,引入它是为了与窗口函数(Window Functions)兼容,因为在某些情况下需要处理 NULL 值(默认情况下,所有 ClickHouse 聚合函数都会忽略 NULL 值)。
flameGraph根据堆栈跟踪列表构建火焰图的聚合函数。
groupArray创建一个包含参数值的数组。可以以任意顺序(顺序不固定)将值添加到该数组中。
groupArrayInsertAt在数组的指定位置插入一个值。
groupArrayIntersect返回给定数组的交集(即所有给定数组中都包含的元素)。
groupArrayLast创建一个由最后一个参数的值组成的数组。
groupArrayMovingAvg计算输入值的移动平均。
groupArrayMovingSum计算输入值的滑动求和。
groupArraySample创建一个参数值样本数组。结果数组的大小上限为 max_size 个元素。参数值会被随机选取并添加到数组中。
groupArraySorted返回一个按升序排列的前 N 个元素的数组。
timeSeriesGroupArray按时间戳对时间序列进行升序排序。
groupBitAnd对一组数字执行按位 AND 运算。
groupBitmap对无符号整数列进行 Bitmap 或聚合计算时,返回 UInt64 类型的基数;如果添加后缀 -State,则返回位图对象
groupBitmapAnd对位图列执行 AND 运算,返回 UInt64 类型的基数值;如果添加后缀 -State,则返回一个位图对象。
groupBitmapOr对位图列执行 OR 计算,返回基数(类型为 UInt64);如果添加后缀 -State,则返回一个位图对象。等同于 groupBitmapMerge
groupBitmapXor计算 bitmap 列的 XOR,并以 UInt64 类型返回基数;如果使用 -State 后缀,则返回一个 bitmap 对象
groupBitOr对一系列数值执行按位 OR 运算。
groupBitXor对一组数字执行按位 XOR 运算。
groupUniqArray从多个参数值创建数组。
intervalLengthSum计算所有区间(数轴线段)的并集的总长度。
kolmogorovSmirnovTest对来自两个总体的样本执行 Kolmogorov-Smirnov 检验。
kurtPop计算序列的峰度值。
kurtSamp计算序列的样本峰度。
largestTriangleThreeBuckets对输入数据应用 Largest-Triangle-Three-Buckets 算法。
last_value选择最近一次出现的值,类似于 anyLast,但可以接受 NULL 值。
mannWhitneyUTest对来自两个总体的样本执行 Mann-Whitney 秩检验。
max计算一组值的最大值的聚合函数。
maxIntersections计算一组区间之间相互相交的最大次数的聚合函数(在所有区间至少相交一次的前提下)。
maxIntersectionsPosition用于计算 maxIntersections 函数出现位置的聚合函数。
maxMap根据 key 数组中的键,对 value 数组求最大值。
meanZTest对来自两个总体的样本进行均值z检验。
medianmedian* 函数是对应 quantile* 函数的别名。它们用于计算数值型数据样本的中位数。
min用于计算一组值中最小值的聚合函数。
minMapkey 数组中指定的键,从 value 数组中计算最小值。
quantile计算数值序列的近似分位数。
quantileBFloat16计算由 bfloat16 数值构成的样本的近似分位数。
quantileDD计算样本的近似分位数,并提供相对误差保证。
quantileDeterministic计算数值序列的近似分位数。
quantileExact 函数quantileExact、quantileExactLow、quantileExactHigh、quantileExactExclusive、quantileExactInclusive 函数
quantileExactWeighted精确计算数值数据序列的分位数,并考虑每个元素的权重。
quantileGK使用 Greenwald-Khanna 算法计算数值序列的分位数。
quantileExactWeightedInterpolated使用线性插值计算数值数据序列的分位数,同时考虑每个元素的权重。
quantileInterpolatedWeighted使用线性插值计算数值数据序列的分位数,并考虑各元素的权重。
quantiles 聚合函数quantiles, quantilesExactExclusive, quantilesExactInclusive, quantilesGK
quantileTDigest使用 t-digest 算法计算数值序列的近似分位数。
quantileTDigestWeighted使用 t-digest 算法计算数值数据序列的近似分位数。
quantileTiming以指定精度计算数值数据序列的分位数。
quantileTimingWeighted以指定的精度,根据每个序列元素的权重计算数值数据序列的分位数。
rankCorr计算秩相关系数。
simpleLinearRegression执行简单的一元线性回归。
singleValueOrNull聚合函数 singleValueOrNull 用于实现子查询运算符,例如 x = ALL (SELECT ...)。它会检查数据中是否仅有一个唯一的非 NULL 值。
skewPop计算序列的偏度。
skewSamp计算一组数据的样本偏度。
sparkbar该函数在区间 [min_x, max_x] 上,根据取值 x 及其重复次数 y 绘制频率直方图。
stddevPop结果等于 varPop 的平方根。
stddevPopStable结果等于 varPop 的平方根。与 stddevPop 不同,此函数使用在数值上稳定的算法。
stddevSamp结果等于 varSamp 的平方根
stddevSampStable结果等于 varSamp 的平方根。与 varSamp 不同的是,本函数使用数值稳定的算法。
stochasticLinearRegression此函数实现了随机线性回归。它支持自定义学习率、L2 正则化系数、小批量大小等参数,并提供几种用于更新权重的方法(Adam、简单 SGD、Momentum、Nesterov)。
stochasticLogisticRegression此函数实现了随机逻辑回归。它可用于二元分类问题,支持与 stochasticLinearRegression 相同的自定义参数,且工作方式相同。
studentTTest对来自两个总体的样本进行 Student t 检验。
studentTTestOneSample对样本与已知总体均值执行单样本 Student t 检验。
sum计算总和。仅适用于数值。
sumCount同时计算数值总和和行数。该函数由 ClickHouse 查询优化器使用:如果在一个查询中存在多个 sumcountavg 函数,它们可以被替换为单个 sumCount 函数以重用计算结果。通常很少需要显式使用该函数。
sumKahan使用 Kahan 补偿求和算法计算数值之和
sumMap根据 key 数组中指定的键,对一个或多个 value 数组求和。返回一个数组元组:依次为按排序顺序排列的键数组,以及对应键的求和值数组,且不会发生溢出。
sumMapWithOverflow根据 key 数组中指定的键对 value 数组求和。返回一个包含两个数组的元组:按排序顺序排列的键,以及对应键的求和值。与 sumMap 函数不同之处在于,它在求和时会发生溢出(不进行溢出检查)。
sumWithOverflow使用与输入参数相同的数据类型计算数值的总和。如果总和超过该数据类型的最大值,则会发生溢出。
theilsUtheilsU 函数计算 Theils' U 不确定性系数,用于度量表中两列之间的关联程度。
topK返回一个数组,其中包含指定列中近似出现频率最高的值。结果数组按值的近似出现频率降序排列(而不是按值本身排序)。
topKWeighted返回一个数组,包含指定列中近似最常出现的值。结果数组按值的近似频率降序排序(而不是按值本身排序)。此外,还会考虑值的权重。
uniq计算参数不同取值的大致个数。
uniqCombined计算参数不同取值的近似数量。
uniqCombined64计算不同参数取值的近似数量。与 uniqCombined 相同,但对所有数据类型都使用 64 位哈希,而不仅仅是对 String 数据类型使用。
uniqExact计算不同参数取值的精确个数。
uniqHLL12使用 HyperLogLog 算法计算不同参数取值的近似数量。
uniqTheta使用 Theta Sketch Framework 近似计算不同参数取值的数量。
varPop计算总体方差。
varPopStable返回总体方差。与 varPop 不同,该函数采用数值更稳定的算法。虽然运行速度较慢,但计算误差更小。
varSamp计算一组数据的样本方差。
varSampStable计算数据集的样本方差。与 varSamp 不同,此函数使用数值稳定的算法。虽然运行速度较慢,但计算误差更小。
welchTTest对来自两个总体的样本进行 Welch t 检验。
distinctDynamicTypes计算 Dynamic 列中存储的不同数据类型列表。
distinctJSONPaths计算 JSON 列中存储的唯一路径列表。
timeSeriesDeltaToGrid用于在指定网格上对时间序列数据计算类似 PromQL 的 delta 的聚合函数。
timeSeriesInstantDeltaToGrid用于在指定网格上,对时间序列数据计算类似 PromQL 的 idelta 的聚合函数。
timeSeriesInstantRateToGrid用于在指定网格上对时间序列数据计算类似 PromQL 的 irate 的聚合函数。
timeSeriesLastTwoSamples用于对时间序列数据进行重采样,以执行类似 PromQL 的 irate 和 idelta 计算的聚合函数
timeSeriesRateToGrid在指定网格上对时间序列数据计算类似 PromQL 的 rate 的聚合函数。
timeSeriesResampleToGridWithStaleness用于将时间序列数据重采样到指定网格的聚合函数。
timeSeriesDerivToGrid用于在指定网格上对时间序列数据计算 PromQL 风格导数的聚合函数。
timeSeriesPredictLinearToGrid用于在指定网格上对时间序列数据执行类似 PromQL 的线性预测计算的聚合函数。
timeSeriesChangesToGrid一种聚合函数,用于在指定网格上对时间序列数据计算类似 PromQL 的变化。
timeSeriesResetsToGrid一种聚合函数,用于按指定网格对时间序列数据计算类似 PromQL 的重置次数。
groupConcat从一组字符串生成连接后的字符串,可选指定分隔符,也可选限制参与连接的最大元素数。
quantilePrometheusHistogram使用线性插值计算直方图的分位数。