Para saber con qué datos de entrada entrenaremos a nuestro sistema de predicción es importante saber que variables consolidan un precio. Anotemos los más básicos:
En principio estos son los más obvios. Queda claro que:
Pero faltan otras menos intuitivas:
Más aún, podrían existir parametros que nunca se nos hubieran imaginado:
Finalmente el sistema predictivo debe cargarse con otros posibles parámetros que no creemos están relacionados pero a los que la red puede generar cierto peso:
Supongamos que añadimos el color de la fachada de la vivienda. El proceso será capaz de predecir si hay algún color que encarezca la vivienda aportando más peso a unos colores y menos a otros. ¿Es imposible? Un caso real de ello es el de WallMart: cuando cruzaron épocas de huracanes con ventas de ciertas tartas en sus supermercados vieron que estas se disparaban. Un sistema de predicción entrenado con ese “ilógico” parámetro de entrada (epoca de huracán) hubiera predicho ventas mayores en esos períodos.
Para nuestro estudio tomamos solo 17 parametros muy evidentes aunque no se descarta añadir más en un futuro. Los datos han sido extraídos de los principales portales inmobiliarios simulando la navegación mediante software para la zona de la Comunidad de Madrid. Se han obtenido 36.827 viviendas con este nivel de detalle (17 variables).
Pero, ¿son rigurosos esos datos? ¿cómo afecta al sistema predictivo?
Los datos recogidos en las web pueden fluctuar según el precio que considere el usuario, no son precios de tasación ni cerrados de compra y venta. Así habrá que tener en cuenta que el sistema aprenderá sobre un grupo de precios donde el usuario pone el precio, es decir, aprende a predecir precios que se expondrían en este tipo de webs.
Antes de nutrir nuestra red neuronal con todos los datos debemos filtrarlos. Veamos una gráfica de precios:
Podemos observar que hay algunos datos que se desvían demasiado del resto que filtraremos ya sea por un error tipográfico en las webs desde donde se añadieron o porque no queremos que el sistema “aprenda” con estos datos tan aislados
Del mismo modo también filtraremos en otros parámetros para "igualar" sus valores:
Chequeemos de nuevo la gráfica de Precios. Podemos ver que el filtro hace que los datos sean más homogéneos:
Así nos quedamos con 35.252 viviendas homogéneas donde un grupo de un 75% nos servirá para entrenar y así predecir el 25% restante.
Veamos un zoom sobre la Comunidad de Madrid representando los precios en un mapa de calor y en otro de barras en perspectiva:
Ya tenemos los datos acotados, con ellos podemos montrar una estructura de red neuronal como la que se muestra en el siguiente capítulo