Neste cheatsheet mostro como criar sumários no R e no PostgreSQL.
-- Número de colunas
SELECT COUNT(*)
FROM information_schema.columns
WHERE table_name = 'df';
-- Número de linhas
SELECT COUNT(*)
FROM df;
-- Frequência para uma coluna
SELECT col1, COUNT(*)
FROM df
GROUP BY col1;
-- Frequência ordenada para uma coluna
SELECT col1, COUNT(*)
FROM df
GROUP BY col1
ORDER BY COUNT
DESC;
-- Frequência múltipla
SELECT col1, col2,... COUNT(*)
FROM df
GROUP BY col1, col2;
-- Frequência múltipla ordenada por uma coluna
SELECT col1, col2,... COUNT(*)
FROM df
GROUP BY col1
ORDER BY COUNT
DESC;
-- Frequência múltipla ordenada
SELECT col1,col2, COUNT(*)
FROM df
GROUP BY col1, col2
ORDER BY COUNT
DESC;
Estamos assumindo que a coluna col1 é numérica.
Bases relacionais não possuem noção intrínseca de ordem, o que torna a verificação da mediana e outras percentis ou quantis mais verboso.
Estamos assumindo que a coluna col1 é numérica.
Bases relacionais não têm noção intrínseca de ordem, o que torna a verificação da mediana e outras percentis ou quantis mais verbosa.