topK
Возвращает массив примерно наиболее часто встречающихся значений в указанном столбце. Полученный массив отсортирован по убыванию приблизительной частоты значений (а не по самим значениям).
Реализует алгоритм Filtered Space-Saving для определения TopK, основанный на алгоритме reduce-and-combine из Parallel Space Saving.
Эта функция не гарантирует точный результат. В определённых ситуациях возможны ошибки, и она может вернуть часто встречающиеся значения, которые не являются самыми частыми.
Максимальное значение N = 65536.
Параметры
N— количество возвращаемых элементов. Необязательный параметр. Значение по умолчанию: 10.load_factor— определяет, сколько ячеек зарезервировано для значений. Если uniq(column) > N * load_factor, результат функции topK будет приближённым. Необязательный параметр. Значение по умолчанию: 3.counts— определяет, должен ли результат содержать приблизительное количество и значение ошибки.
Аргументы
column— столбец, по значениям которого рассчитывается частота.
Пример
Возьмите набор данных OnTime и выберите три наиболее часто встречающихся значения в столбце AirlineID.
См. также