Manipulación de Datos Tabulares con Pandas en Python

Manipulación de Datos Tabulares con Pandas en Python

Pandas es una biblioteca de Python de código abierto que proporciona estructuras de datos y herramientas de análisis de datos para trabajar con datos tabulares. Es una herramienta poderosa y flexible que se utiliza en una amplia gama de aplicaciones, desde la ciencia de datos hasta la ingeniería financiera.

En este tutorial, aprenderás a usar Pandas para manipular datos tabulares. Cubriremos los siguientes temas:

  • Cómo leer y escribir datos
  • Cómo seleccionar y filtrar datos
  • Cómo combinar y unir datos
  • Cómo realizar operaciones estadísticas y matemáticas

Instalación

Para instalar Pandas, abre una terminal y ejecuta el siguiente comando:

pip install pandas

Leyendo datos

Pandas puede leer datos de una variedad de formatos, incluidos CSV, Excel, SQL y JSON. Para leer un archivo CSV, usa el método read_csv():

Python
import pandas as pd

# Lee un archivo CSV
df = pd.read_csv("data.csv")

# Imprime el encabezado del DataFrame
print(df.head())

Este código leerá el archivo data.csv y lo almacenará en un DataFrame. El método head() imprime las primeras cinco filas del DataFrame.

Escribiendo datos

Para escribir un DataFrame a un archivo, usa el método to_csv():

Python
# Escribe un DataFrame a un archivo CSV
df.to_csv("data_out.csv")

Este código escribirá el DataFrame df en un archivo CSV llamado data_out.csv.

Selección y filtrado de datos

Puedes usar los métodos loc() y iloc() para seleccionar y filtrar datos de un DataFrame. El método loc() selecciona datos por índice, mientras que el método iloc() selecciona datos por posición.

Python
# Selecciona la primera fila del DataFrame
df.loc[0]

# Selecciona las filas con un valor de "Name" igual a "John Doe"
df.loc[df["Name"] == "John Doe"]

# Selecciona la columna "Age" de todas las filas
df["Age"]

# Selecciona las filas 0, 2 y 4
df.iloc[[0, 2, 4]]

# Selecciona las columnas 0 y 2 de todas las filas
df.iloc[:, [0, 2]]

Combinación y unión de datos

Puedes combinar y unir dos o más DataFrames usando los métodos concat() y merge(). El método concat() combina dos DataFrames en un solo DataFrame, mientras que el método merge() combina dos DataFrames en un solo DataFrame basado en una o más columnas comunes.

Python
# Combina dos DataFrames
df1 = pd.DataFrame({"Name": ["John Doe", "Jane Doe"], "Age": [30, 25]})
df2 = pd.DataFrame({"City": ["New York", "Los Angeles"], "State": ["NY", "CA"]})

df = pd.concat([df1, df2], axis=1)

# Une dos DataFrames
df1 = pd.DataFrame({"Name": ["John Doe", "Jane Doe"], "Age": [30, 25]})
df2 = pd.DataFrame({"Name": ["John Smith", "Jane Doe"], "City": ["New York", "Los Angeles"]})

df = pd.merge(df1, df2, on="Name")

Operaciones estadísticas y matemáticas

Pandas proporciona una variedad de métodos para realizar operaciones estadísticas y matemáticas en DataFrames. Por ejemplo, puedes usar los métodos mean(), median() y std() para calcular la media, la mediana y la desviación estándar de un conjunto de datos.

Python
# Calcula la media de la columna "Age"
df["Age"].mean()

# Calcula la mediana de la columna "Age"
df["Age"].median()

# Calcula la desviación estándar de la columna "Age"
df["Age"].std()

Conclusión

Pandas es una herramienta poderosa y flexible que se puede usar para manipular datos tabulares. En este tutorial, aprendiste a usar Pandas para leer, escribir, seleccionar, filtrar, combinar y unir datos.