Predicción CCAA destino - TURISMO
A partir de datos de movimientos de turistas en España del INE, crearemos un modelo de predicción de la comunidad autónoma de destino.
**## Pasos para la elaboración del modelo predictivo ##**
----------
1. Descargamos los datos mensuales de Enero a Setiembre (todos los que están disponibles para 2017) del INE. Los datos son encuestas de turismo de residentes en España que viajan al resto del país, aunque también incluye destino internacional, el cual trataremos de corregir.
2. Los datos están separados por ';' y el delimitador decimal es una ',' por lo que hay que modificar las ',' por '.' y los ';' por ',' en el editor de texto para que azure pueda leer bien el .csv. Hacemos los reemplazos en ese orden, primero las ',' y despues los ';' porque si lo hacemos al revés convertimos todas las las comas y se nos desorganizan los datos.
3. No hay datos de Octubre, Noviembre y Diciembre de 2017, por lo que cogeré los del 2016 para completar el año entero, ya que no deberá existir mucha diferencia de un año al otro.
4. Seguidamente, en azure cargamos los 12 datasets y los juntamos de 2 en 2 hasta tener un data set anual.
5. Transformamos el data set al formato de datos de Azure para asegurarnos que Azure lee todos los datos.
6. Hacemos una serie de transformaciones de las clases de las variables para asegurarnos que los algoritmos de clasificación las leen correctamente.
7. Ejecutamos un script de R para comprobar todos los NA que hay por cada columna y así decidir que columnas usar y cuales directamente vamos a obviar. Nos ayudamos de una matrix de correlación para esto.
8. Ahora tenemos que limpiar los NA del dataset modificado que tenemos. Simplemente limpiaremos los datos de manera que si una casilla tiene NA, se eliminará toda la fila. Podemos permitirnos este arreglo ya que tenemos una gran cantidad de datos.
9. Ejecutamos un R script para transformar la columna CCAADEST que queremos predecir en categórica, ya que al subir los archivos a Azure todas las clases han cambiado a Numeric. Además de transformarla, eliminamos los códigos 0, 18 y 19 que pertenecen a destino Internacional, Ceuta y Melilla.
10. Transformamos todas las variables en categóricas y despues algunas pocas en numéricas, las que sean necesarias con Edit Metadata.
11. Partimos los datos en 2, para crear un dataset que contiene una muestra aleatoria del 10% de observaciones del dataset original, por si más tarde queremos usarlo como prueba para el modelo de predicción. No dividimos entre train y test ya que utilizaremos Cross Validation.
12. El modelo que mejor ajusta los datos de entre los usados es Multiclass Decision Forest.