TareaS1
unknown
python
a year ago
1.2 kB
3
Indexable
Never
import numpy as np import pandas as pd # Paso 1 - Obtenemos el Dataset agregamos nombres a las columnas y reemplazamos los separadores de ; a , data = "vgsalesv3.csv" headers = ["Rank", "Name", "Platform", "Year", "Genre", "Publisher", "NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales", "Global_Sales"] df = pd.read_csv(data, sep = ';', names=headers) styler = df.style.background_gradient(subset=pd.IndexSlice[3:12]) df.columns = headers # Paso 2 - Obtenemos Información del Dataset df.info() print(df) missing_data = df.isnull() missing_data.head(5) print(df) # Eliminamos filas con datos faltantes df.dropna(subset=["Year"], axis=0, inplace=True) df[["Year"]] = df[["Year"]].replace(" ", '@',regex=True) df.Year = pd.to_numeric(df.Year, errors='coerce') df.info() print(df) # Paso 3 - Factorizar Columnas Platform, Genre y Publisher df['Platform_Fact'] = pd.factorize(df['Platform'])[0] df['Genre_Fact'] = pd.factorize(df['Genre'])[0] df['Publisher_Fact'] = pd.factorize(df['Publisher'])[0] # Guardamos el Dataset limpio en un nuevo archivo listo para trabajar df.to_csv("DataSetPro.csv", ",") print("Los datos se obtuvieron correctamente en CSV") #print(df) breakpoint()