import numpy as np
import pandas as pd
# Paso 1 - Obtenemos el Dataset agregamos nombres a las columnas y reemplazamos los separadores de ; a ,
data = "vgsalesv3.csv"
headers = ["Rank", "Name", "Platform", "Year", "Genre", "Publisher", "NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales", "Global_Sales"]
df = pd.read_csv(data, sep = ';', names=headers)
styler = df.style.background_gradient(subset=pd.IndexSlice[3:12])
df.columns = headers
# Paso 2 - Obtenemos Información del Dataset
df.info()
print(df)
missing_data = df.isnull()
missing_data.head(5)
print(df)
# Eliminamos filas con datos faltantes
df.dropna(subset=["Year"], axis=0, inplace=True)
df[["Year"]] = df[["Year"]].replace(" ", '@',regex=True)
df.Year = pd.to_numeric(df.Year, errors='coerce')
df.info()
print(df)
# Paso 3 - Factorizar Columnas Platform, Genre y Publisher
df['Platform_Fact'] = pd.factorize(df['Platform'])[0]
df['Genre_Fact'] = pd.factorize(df['Genre'])[0]
df['Publisher_Fact'] = pd.factorize(df['Publisher'])[0]
# Guardamos el Dataset limpio en un nuevo archivo listo para trabajar
df.to_csv("DataSetPro.csv", ",")
print("Los datos se obtuvieron correctamente en CSV")
#print(df)
breakpoint()