Text this: Aprendizaje Visual a través de la voz, usando redes neuronales artificiales a nivel inicial