Análisis del conjunto de datos Titanic con Python

Análisis del conjunto de datos Titanic con Python

El hundimiento del RMS Titanic es uno de los desastres marítimos más famosos de la historia. El 15 de abril de 1912, el transatlántico chocó contra un iceberg en su viaje inaugural de Southampton a Nueva York, lo que provocó la muerte de más de 1.500 personas.

El conjunto de datos Titanic, disponible en Kaggle, contiene información sobre los pasajeros del Titanic, incluidos sus nombres, edades, sexos, clases de transporte, tarifas y más. Este conjunto de datos es un recurso valioso para los científicos de datos que desean aprender sobre el análisis exploratorio de datos (EDA).

En este tutorial, aprenderemos a realizar un análisis exploratorio de datos del conjunto de datos Titanic utilizando Python.

Requisitos

  • Un entorno de desarrollo con Python instalado.
  • La biblioteca Pandas.

Importación de datos

El primer paso es importar los datos del conjunto de datos Titanic. Podemos hacerlo utilizando la biblioteca Pandas:

Python
import pandas as pd

# Importar el conjunto de datos Titanic
df = pd.read_csv("titanic.csv")

Este código crea un objeto DataFrame llamado df que contiene los datos del conjunto de datos Titanic.

Exploración de datos

Ahora que tenemos los datos importados, podemos comenzar a explorarlos. Una de las primeras cosas que queremos hacer es obtener una descripción general de los datos. Podemos hacerlo utilizando el método describe():

Python
df.describe()

Este código genera la siguiente salida:

     Age  Survived  Pclass  Sex  SibSp  Parch  Fare
count  891.000000  891.000000  891.000000  891.000000  891.000000  891.000000
mean  29.699118  0.383838  2.308642  0.577778  0.549296  0.358108
std  14.311217  0.486592  0.836070  0.496957  1.079727  49.693007
min  0.420000  0.000000  1.000000  0.000000  0.000000  0.000000
25%  22.000000  0.000000  2.000000  0.000000  0.000000  0.000000
50%  28.000000  0.500000  3.000000  0.000000  0.000000  0.000000
75%  38.000000  1.000000  3.000000  1.000000  0.000000  77.229167
max  80.000000  1.000000  3.000000  1.000000  6.000000  512.329297

Esta salida nos proporciona información sobre los valores medios, la desviación estándar, los valores mínimos, máximos, etc., para cada columna.

Podemos explorar los datos de forma más detallada utilizando gráficos. Por ejemplo, podemos crear un histograma para visualizar la distribución de las edades de los pasajeros:

Python
import matplotlib.pyplot as plt

# Crear un histograma de las edades de los pasajeros
plt.hist(df["Age"])
plt.show()

Este código genera el siguiente gráfico:

[Image of un