Análisis de Datos con sns en Python
Introducción
La visualización de datos es una parte fundamental del análisis de datos. Una buena visualización puede ayudarnos a comprender los datos de una manera más rápida y sencilla. En este tutorial, aprenderemos a utilizar la biblioteca sns de Python para crear gráficos estadísticos atractivos y fáciles de interpretar.
Instalación
La biblioteca sns se puede instalar con el siguiente comando:
pip install seaborn
Importación
Una vez que hayamos instalado la biblioteca, podemos importarla en nuestro código de la siguiente manera:
import seaborn as sns
Gráficos univariados
Los gráficos univariados son aquellos que representan una sola variable.
Histograma
Un histograma es una representación gráfica de la distribución de una variable. Para crear un histograma con sns, podemos utilizar el método distplot()
.
import pandas as pd
# Importamos los datos
df = pd.read_csv("data.csv")
# Creamos un histograma de la variable edad
sns.distplot(df["edad"])
Gráfico de caja
Un gráfico de caja es una representación gráfica de la distribución de una variable, incluyendo los percentiles 25, 50 y 75, así como los valores mínimo y máximo. Para crear un gráfico de caja con sns, podemos utilizar el método boxplot()
.
# Creamos un gráfico de caja de la variable edad
sns.boxplot(df["edad"])
Gráfico de densidad
Un gráfico de densidad es una representación gráfica de la distribución de una variable, utilizando una curva para suavizar los datos. Para crear un gráfico de densidad con sns, podemos utilizar el método kdeplot()
.
# Creamos un gráfico de densidad de la variable edad
sns.kdeplot(df["edad"])
Gráficos bivariados
Los gráficos bivariados son aquellos que representan dos variables.
Gráfico de dispersión
Un gráfico de dispersión es una representación gráfica de dos variables, donde cada punto representa un valor de cada variable. Para crear un gráfico de dispersión con sns, podemos utilizar el método scatterplot()
.
# Creamos un gráfico de dispersión de las variables edad y salario
sns.scatterplot(df["edad"], df["salario"])
Gráfico de líneas
Un gráfico de líneas es una representación gráfica de dos variables, donde cada línea representa la evolución de una variable en función de la otra. Para crear un gráfico de líneas con sns, podemos utilizar el método lineplot()
.
# Creamos un gráfico de líneas de las variables edad y salario
sns.lineplot(df["edad"], df["salario"])
Gráfico de barras
Un gráfico de barras es una representación gráfica de dos variables, donde cada barra representa la frecuencia de cada valor de una variable. Para crear un gráfico de barras con sns, podemos utilizar el método barplot()
.
# Creamos un gráfico de barras de la variable género
sns.barplot(df["género"].value_counts())
Gráfico de sectores
Un gráfico de sectores es una representación gráfica de dos variables, donde cada sector representa la proporción de cada valor de una variable. Para crear un gráfico de sectores con sns, podemos utilizar el método pieplot()
.
# Creamos un gráfico de sectores de la variable género
sns.pieplot(df["género"].value_counts())
Conclusiones
La biblioteca sns es una herramienta muy potente para la visualización de datos en Python. Con sns, podemos crear gráficos estadísticos atractivos y fáciles de interpretar.
Ejercicios
- Utiliza la biblioteca sns para crear un gráfico de dispersión de las variables edad y salario, coloreado por género.
- Utiliza la biblioteca sns para crear un gráfico de barras de la variable género, con la edad como variable categórica.
Referencias
- Seaborn documentation: https://seaborn.pydata.org/