Análisis de Datos con sns en Python

Análisis de Datos con sns en Python

Introducción

La visualización de datos es una parte fundamental del análisis de datos. Una buena visualización puede ayudarnos a comprender los datos de una manera más rápida y sencilla. En este tutorial, aprenderemos a utilizar la biblioteca sns de Python para crear gráficos estadísticos atractivos y fáciles de interpretar.

Instalación

La biblioteca sns se puede instalar con el siguiente comando:

pip install seaborn

Importación

Una vez que hayamos instalado la biblioteca, podemos importarla en nuestro código de la siguiente manera:

import seaborn as sns

Gráficos univariados

Los gráficos univariados son aquellos que representan una sola variable.

Histograma

Un histograma es una representación gráfica de la distribución de una variable. Para crear un histograma con sns, podemos utilizar el método distplot().

import pandas as pd

# Importamos los datos
df = pd.read_csv("data.csv")

# Creamos un histograma de la variable edad
sns.distplot(df["edad"])

Gráfico de caja

Un gráfico de caja es una representación gráfica de la distribución de una variable, incluyendo los percentiles 25, 50 y 75, así como los valores mínimo y máximo. Para crear un gráfico de caja con sns, podemos utilizar el método boxplot().

# Creamos un gráfico de caja de la variable edad
sns.boxplot(df["edad"])

Gráfico de densidad

Un gráfico de densidad es una representación gráfica de la distribución de una variable, utilizando una curva para suavizar los datos. Para crear un gráfico de densidad con sns, podemos utilizar el método kdeplot().

# Creamos un gráfico de densidad de la variable edad
sns.kdeplot(df["edad"])

Gráficos bivariados

Los gráficos bivariados son aquellos que representan dos variables.

Gráfico de dispersión

Un gráfico de dispersión es una representación gráfica de dos variables, donde cada punto representa un valor de cada variable. Para crear un gráfico de dispersión con sns, podemos utilizar el método scatterplot().

# Creamos un gráfico de dispersión de las variables edad y salario
sns.scatterplot(df["edad"], df["salario"])

Gráfico de líneas

Un gráfico de líneas es una representación gráfica de dos variables, donde cada línea representa la evolución de una variable en función de la otra. Para crear un gráfico de líneas con sns, podemos utilizar el método lineplot().

# Creamos un gráfico de líneas de las variables edad y salario
sns.lineplot(df["edad"], df["salario"])

Gráfico de barras

Un gráfico de barras es una representación gráfica de dos variables, donde cada barra representa la frecuencia de cada valor de una variable. Para crear un gráfico de barras con sns, podemos utilizar el método barplot().

# Creamos un gráfico de barras de la variable género
sns.barplot(df["género"].value_counts())

Gráfico de sectores

Un gráfico de sectores es una representación gráfica de dos variables, donde cada sector representa la proporción de cada valor de una variable. Para crear un gráfico de sectores con sns, podemos utilizar el método pieplot().

# Creamos un gráfico de sectores de la variable género
sns.pieplot(df["género"].value_counts())

Conclusiones

La biblioteca sns es una herramienta muy potente para la visualización de datos en Python. Con sns, podemos crear gráficos estadísticos atractivos y fáciles de interpretar.

Ejercicios

  • Utiliza la biblioteca sns para crear un gráfico de dispersión de las variables edad y salario, coloreado por género.
  • Utiliza la biblioteca sns para crear un gráfico de barras de la variable género, con la edad como variable categórica.

Referencias

  • Seaborn documentation: https://seaborn.pydata.org/