Manipulación de Datos Tabulares con Pandas en Python
Pandas es una biblioteca de Python de código abierto que proporciona estructuras de datos y herramientas de análisis de datos para trabajar con datos tabulares. Es una herramienta poderosa y flexible que se utiliza en una amplia gama de aplicaciones, desde la ciencia de datos hasta la ingeniería financiera.
En este tutorial, aprenderás a usar Pandas para manipular datos tabulares. Cubriremos los siguientes temas:
- Cómo leer y escribir datos
- Cómo seleccionar y filtrar datos
- Cómo combinar y unir datos
- Cómo realizar operaciones estadísticas y matemáticas
Instalación
Para instalar Pandas, abre una terminal y ejecuta el siguiente comando:
pip install pandas
Leyendo datos
Pandas puede leer datos de una variedad de formatos, incluidos CSV, Excel, SQL y JSON. Para leer un archivo CSV, usa el método read_csv()
:
import pandas as pd
# Lee un archivo CSV
df = pd.read_csv("data.csv")
# Imprime el encabezado del DataFrame
print(df.head())
Este código leerá el archivo data.csv
y lo almacenará en un DataFrame. El método head()
imprime las primeras cinco filas del DataFrame.
Escribiendo datos
Para escribir un DataFrame a un archivo, usa el método to_csv()
:
# Escribe un DataFrame a un archivo CSV
df.to_csv("data_out.csv")
Este código escribirá el DataFrame df
en un archivo CSV llamado data_out.csv
.
Selección y filtrado de datos
Puedes usar los métodos loc()
y iloc()
para seleccionar y filtrar datos de un DataFrame. El método loc()
selecciona datos por índice, mientras que el método iloc()
selecciona datos por posición.
# Selecciona la primera fila del DataFrame
df.loc[0]
# Selecciona las filas con un valor de "Name" igual a "John Doe"
df.loc[df["Name"] == "John Doe"]
# Selecciona la columna "Age" de todas las filas
df["Age"]
# Selecciona las filas 0, 2 y 4
df.iloc[[0, 2, 4]]
# Selecciona las columnas 0 y 2 de todas las filas
df.iloc[:, [0, 2]]
Combinación y unión de datos
Puedes combinar y unir dos o más DataFrames usando los métodos concat()
y merge()
. El método concat()
combina dos DataFrames en un solo DataFrame, mientras que el método merge()
combina dos DataFrames en un solo DataFrame basado en una o más columnas comunes.
# Combina dos DataFrames
df1 = pd.DataFrame({"Name": ["John Doe", "Jane Doe"], "Age": [30, 25]})
df2 = pd.DataFrame({"City": ["New York", "Los Angeles"], "State": ["NY", "CA"]})
df = pd.concat([df1, df2], axis=1)
# Une dos DataFrames
df1 = pd.DataFrame({"Name": ["John Doe", "Jane Doe"], "Age": [30, 25]})
df2 = pd.DataFrame({"Name": ["John Smith", "Jane Doe"], "City": ["New York", "Los Angeles"]})
df = pd.merge(df1, df2, on="Name")
Operaciones estadísticas y matemáticas
Pandas proporciona una variedad de métodos para realizar operaciones estadísticas y matemáticas en DataFrames. Por ejemplo, puedes usar los métodos mean()
, median()
y std()
para calcular la media, la mediana y la desviación estándar de un conjunto de datos.
# Calcula la media de la columna "Age"
df["Age"].mean()
# Calcula la mediana de la columna "Age"
df["Age"].median()
# Calcula la desviación estándar de la columna "Age"
df["Age"].std()
Conclusión
Pandas es una herramienta poderosa y flexible que se puede usar para manipular datos tabulares. En este tutorial, aprendiste a usar Pandas para leer, escribir, seleccionar, filtrar, combinar y unir datos.