Big Data y turismo: nuevos indicadores para la gestión turística

27 - 05 - 2014

Nota metodológica

1. Descripción de los datasets

A continuación se describen con detalle los datasets utilizados en el estudio; cómo son, de dónde se obtienen y sus potenciales limitaciones. En ambos casos los datasets se circunscriben al ámbito geográfico de las provincias de Madrid y Barcelona y al período entre el 7 y el 21 de octubre de 2012, ambos inclusive.

1.1. Dataset de BBVA

El dataset se basa en los datos recabados por los sistemas de pago electrónico de BBVA: operaciones realizadas por los usuarios de tarjetas de crédito o débito emitidas por entidades extranjeras (clientes extranjeros) en comercios que utilicen Terminales Punto de Venta (TPVs a partir de ahora) gestionados por BBVA.

Para distinguir turistas extranjeros de extranjeros expatriados residentes en nuestro país, sólo se han incluido en el dataset aquellas tarjetas extranjeras de entre las que realizaron alguna transacción entre el 7 y el 21 de octubre de 2012 y que a su vez permanecieron en nuestro país un período igual o inferior a 15 días durante todo 2012.

Los TPVs contemplados en este informe son aquellos que se ubican en las provincias de Madrid y Barcelona.

Las conclusiones mostradas en el estudio se basan directamente en los datos recabados por los sistemas de pago electrónico de BBVA. No se han aplicado coeficientes para deducir la totalidad de los pagos realizados por otros medios.

Estos datos son completamente anónimos, se ha trabajado sobre datos agregados en el tiempo y en el espacio tras haber sido debidamente suprimida la información de individuos y personas jurídicas mediante procesos irreversibles, a fin de garantizar la privacidad de los usuarios, en cumplimiento de la Ley Orgánica de Protección de Datos Personales 15/1999 y de su reglamento RD 1720/2007. El uso de la información procedente de las transacciones con tarjeta en comercios y cajeros de la ciudad se lleva a cabo exclusivamente con fines estadísticos, y en ningún caso puede derivarse de este análisis el comportamiento de personas individuales.

Una característica a tener en cuenta es que el pago a través de tarjetas de crédito o débito supone una parte de los pagos totales realizados en un comercio, dado que aproximadamente el 50% del gasto en comercios se realiza mediante dinero en efectivo. Este porcentaje fluctúa, entre otros, en función de la categoría del comercio y su entorno, pero también por sesgos culturales inherentes a la nacionalidad del usuario. En este informe ninguno de los resultados presentados es una extrapolación para deducir el gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso las recabadas por los medios de pago electrónico BBVA, y no deben tomarse como cifras absolutas de gasto realizado por cualquier medio de pago.

1.2.   Dataset de Telefónica

El dataset utilizado para este estudio proviene de los registros de ciertos eventos de red generados por teléfonos con SIM emitidas por operadoras de fuera del territorio nacional y que están haciendo roaming conectados a la red de Telefónica Móviles España. Ejemplos de este tipo de eventos son la puesta en marcha del teléfono, el envío de un SMS, la realización de una llamada o un cambio de área de cobertura. Cuando se produce uno de estos eventos, este se registra junto con la estación de base (o antena) a la que el teléfono está conectado y la hora a la que se ha producido. Puesto que para cada estación de base se conoce su localización exacta, esto da una idea aproximada de donde se encontraba el teléfono en ese momento.

Simplificando, los registros que se obtienen tienen el siguiente formato:

Con el fin de respetar la normativa de protección de datos, y para asegurar la privacidad, estos registros están ya anonimizados puesto que el número de teléfono real es sustituido por un identificador único, de tal manera que es imposible ejecutar el proceso a la inversa (no se puede obtener el número de teléfono a partir del identificador). Pero además, los registros no se utilizan de manera individual: siempre de manera agregada con el fin de identificar comportamientos de carácter general (normalmente por nacionalidad) y nunca de carácter individual. Por si esto no fuera suficiente, la identidad de los propietarios de los teléfonos en roaming (los utilizados en este estudio) es una información que Telefónica Móviles España en ningún caso posee al no tratarse de abonados suyos. Por todo lo anterior, es totalmente imposible identificar de manera individual a los propietarios de dichos teléfonos.

Como todos los datasets, éste también presenta ciertas limitaciones que conviene conocer. La situación de los teléfonos no es totalmente precisa, ya que la que en realidad se tiene es la de la antena. En entornos urbanos eso no es demasiado problemático puesto que la densidad de antenas es lo bastante alta como para ofrecer una precisión razonable; pero puede serlo en zonas rurales. Otra limitación se puede producir a la hora de extrapolar datos totales a partir de la información que se obtiene. Por poner un ejemplo concreto, no todos los teléfonos de los turistas rusos que visitan España se conectarán a la red de Telefónica, lo que implica que si se quiere conocer el total de teléfonos rusos hay que realizar ciertas extrapolaciones que pueden introducir ciertos errores. En este informe todos los datos que se presentan no están extrapolados, así que no deben tomarse como absolutos. Pero creemos que aun así pueden dar una idea bastante clara de situación.

2. Privacidad

El presente informe ha sido generado a partir de datos anonimizados, agregados y posteriormente extrapolados mediante un proceso estadístico, lo que garantiza su completa disociación, de conformidad con la LOPD 15/1999 y su reglamento de desarrollo RD 1720/2007, así como con la Ley General de Telecomunicaciones Ley 32/2003, de manera que se impide de manera definitiva que ningún individuo pueda ser identificado a partir de los datos que se han usado y de este modo se garantiza la privacidad de los usuarios.

Los datos y recomendaciones mostradas se basan en los datos recabados según se describe en 5.1.1 y 5.1.2. No se han aplicado coeficientes que extrapolen a la totalidad los indicadores presentes en este informe.

El tratamiento de los datos ha seguido un código de conducta responsable por todas las partes, y se ha llevado a cabo con la única finalidad de favorecer un avance en la transformación de la sociedad y del turismo.

Capítulo: Nota metodológica