In Tribune expert
Aujourd’hui dans un monde de plus en plus digitalisé et mondialisé, les données spatiales sont omniprésentes dans notre quotidien : dans nos téléphones portables, dans la livraison d’un colis, dans la météo ou dans les trajets que nous empruntons pour nous déplacer chaque jour. Elles sont considérées comme étant une véritable mine d’or pour l’économie globale. Comme l’évoque M. François Lombard, directeur de l’activité Intelligence d’Airbus Defence and Space, dans une interview sur le nouveau service proposé par Airbus Defence and Space via Pléiades Neo (constellation de 4 satellites d’observation de la Terre) :
« Le marché est extrêmement dynamique, avec beaucoup d’investissements et beaucoup d’acteurs. Mais à la fin, ceux qui ont vraiment la capacité de se démarquer sont ceux qui maîtrisent l’accès à la donnée »

Ces données spatiales qui demandent un traitement particulier peuvent constituer une énorme valeur ajoutée aux analyses et aux services proposés par les entreprises. Elles sont stockées, traitées et visualisées avec différents outils et techniques permettant de les exploiter au mieux.

Données spatiales et SIG

Les données spatiales, aussi connues comme données géospatiales ou informations géographiques, désignent les informations sur la localisation des objets ou individus présents dans un espace géographique et les rapports entre elles. Elles ont une localisation dans l’espace et peuvent donc être représentées et visualisées sur une carte.

Un système d’information géographique (SIG)  est un système d’information fait pour recevoir, stocker, traiter, analyser ou afficher tous types de données spatiales et géographiques.

C’est un outil informatique permettant de représenter et d’analyser toutes les composantes visibles à la surface de la terre ainsi que tous les événements qui s’y produisent.

La plupart des informations que nous manipulons sont rattachées à une localisation sur la surface de la Terre. Des centaines de milliers d’organisations dans le monde utilisent les SIG pour créer des cartes qui permettent de communiquer, d’effectuer des analyses, de prendre des décisions, de partager des informations et de résoudre des problèmes complexes. Cela impacte grandement la façon dont le monde fonctionne.

Les domaines d’application des SIG sont très variés et peuvent aller du marketing jusqu’à la santé ou la politique en passant par l’urbanisme. Le secteur spatial subit une révolution dans le cadre, entre autres, du développement économique, environnemental, ou encore de la digitalisation des technologies.

Quels sont les types et formats de données géographiques ?

Le point commun entre toutes les données spatiales est qu’elles ont une localisation dans l’espace et peuvent donc être représentées et visualisées sur une carte. Elles peuvent être représentées de différentes manières :

  • un point (ex : un magasin, un lieu précis)
  • une ligne (ex : une frontière, une route…)
  • une surface (ex : un pays, un parc)

Deux types de bases pour ces données existent : vectoriel et raster.

Type raster : Un raster est défini comme une matrice composée de cellules contenant des pixels. C’est l’ensemble de pixels qui va donc créer une image. La qualité ou résolution du raster dépendra du nombre de pixels. Plus il y en a, meilleure est la qualité. Ce type est utilisé pour représenter des caractéristiques spatiales, telles que des données satellites.

Pour ce type de données raster les formats les plus communs sont GeoTIFF et JPEG2000. L’extension des fichiers en GeoTIFF est .tif ou bien .tiff et celle de JPEG200 est .jp2 ou .jpg2. Contrairement au format GeoTIFF, le JPEG2000 est un format compressé, et donc moins lourd, mais qui ne perd pas en qualité.
 

Type vecteur : Contrairement au raster, le vecteur n’est pas composé de pixels. Il repose sur la géométrie et utilisera des points, des lignes et des polygones. Le vecteur possède deux composantes : attributaire (informations associées) et graphique (géométrie). La première composante est descriptive car le vecteur est lié à des informations qui lui appartiennent (âge, population, taux…). D’autre part, dans la composante graphique, le vecteur est composé de nœuds (points dans l’espace) et de lignes faisant la jointure entre ces nœuds, formant ainsi un outil ou une forme géométrique (point, ligne, polygone). 

Un des formats les plus utilisés lorsque nous pouvons être amenés à travailler avec des données de type vecteur est le shapefile (.shp) Celui-ci n’est pas utilisable tout seul, il doit être accompagné d’autres fichiers contenant des informations sur les formes (.shx), la table attributaire (.dbf) ou le système de coordonnées (.prj).
Un autre format (léger) très connu est le geojson (.json) basé sur la norme JSON (JavaScript Object Notation). Celui-ci permet de travailler avec des données de type vecteur (points, lignes, polygones).

Source : esri France

 

Systèmes de coordonnées

Les données spatiales sont créées dans un système de coordonnées et ces dernières peuvent être définies en degrés décimaux, mètres ou autres. L’identification de ces systèmes de mesure impacte le choix d’un système de coordonnées qui viendra afficher les données spatiales dans la position appropriée. Les données sont définies dans des systèmes de coordonnées horizontales (localisent les données sur la surface de la Terre) et verticales (localisent les données en fonction de la hauteur ou la profondeur de celles-ci).

Source : ArcGIS pro

Ces systèmes de coordonnées ont des unités en degrés décimaux qui vont venir mesurer les degrés de longitude (x) et les degrés de latitude (y). Quant à l’emplacement des données, celui-ci est exprimé sous forme de nombres positifs (valeurs x et y positives pour le Nord de l’équateur et l’Est du méridien principal) ou de nombres négatifs (valeurs négatives pour le Sud de l’équateur et l’Ouest du méridien principal). Les données spatiales peuvent être tout de même exprimées avec des systèmes de projection (cf. Exemple 1 ci-dessous). Il s’agit de la transformation du système de coordonnées utilisé sur la surface courbe de la Terre en une surface plane sans distorsions.

Application sous R et Python

Plusieurs formats de données spatiales se présentent en fonction du type de données et du langage utilisé (R ou Python).
Des packages sur R sont disponibles pour traiter les données de type raster : raster, terra.
D’autre part, si le type de données est vectoriel, sur R le format de vecteur le plus utilisé est le sf permettant ainsi la manipulation de données de ce type.
D’autres packages sur R sont nécessaires pour travailler sur des données spatiales : sp pour appeler des objets spatiaux, cartography et tmaptools pour tracer cartes, RColorBrewer pour les couleurs sur la catographie, rgdal pour importer des données spatiales ou encore pour aller plus loin spdep, spData, spatstat, spatstat.data.
D’autre part, sur Python il est aussi possible de manipuler des données spatiales grâce à des librairies ou packages spécifiques. En effet, un des plus connus est geopandas permettant de travailler sur la dimension spatiale des données. Un objet geopandas va comporter des informations géographiques telles que les coordonnées. Celui-ci permet de calculer des distances ou surfaces, rendre des données spatialement compatibles (aggrégation de supports spatiaux : commune, région, département canton), changer les systèmes de projection, réaliser des cartes, etc. Pour manipuler des données raster sur Python, il y a besoin de la librairie rasterio.

Ensuite, pour créer des cartes interactives Folium ou ipyleaflet sont utilisés.

Exemple 1 : convertir un simple dataframe en SpatialPolygons dataframe et traitement de données raster sur R
Nous avons un dataset sur l’immobilier en France contenant des variables telles que le nom du département, le code INSEE de la commune, le code de la région, la longitude, la latitude, le prix de vente du bien, le prix de location du bien, la rentabilité, etc.
Voici comment passer d’un dataset simple à un SpatialPolygons dataset et comment créer une carte sur le prix de location au mètre carré en France à l’aide du code suivant :
library(sp)
library(sf)
library(spdep)
library(raster)
library("cartography")

#Charger données
load("immo_data")
#Création objet de classe SpatialPoints(sp) avec lat lon
immo.sp<-SpatialPoints(cbind(immo$longitude, immo$latitude))
#Création SpatialPointDataFrame(spdf)
immo.spdf<-SpatialPointsDataFrame(immo.sp, immo)
#Définition du système de coordonnées de référence (CRS)
proj4string(immo.spdf)<-CRS("+init=epsg:27572")

#Obtention des données géographiques de la France
fr_dep <- getData("GADM", country = "france", level = 2)
#Conversion projection
fr_dep <- spTransform(fr_dep, CRS("+init=epsg:27572"))
#Fixer origine 
org<- par(oma = c(0, 0, 0, 0), mar = c(0, 0, 0, 0))
#Carte France par départements
plot(fr_dep, col = "#D1914D", border = "grey80")
#Rajouter sur la carte les prix de location
propSymbolsLayer(spdf = immo.spdf, var = "prix.location", inches = 0.15)

Carte de données de type raster représentant le prix de location

au mètre carré (sur R)

 

 Exemple 2 : création d’une carte interactive sur Python
Avec Python, en utilisant le package folium, il est possible de créer une carte interactive. Nous pouvons donc par exemple visualiser l’emplacement du siège d’AVISIA Paris sur une carte interactive de la France :
import folium
import pandas as pd

#Définition des coordonnées d'AVISIA Paris
list_info = [['AVISIA', 48.87116841459345, 2.288481629465109]]
#Création pandas dataframe 
df_counters = pd.DataFrame(list_info, columns=['Name', 'Lat', "Lon"])
#Définition de la latitude et la longitude
lat=list(df_counters["Lat"])
lon=list(df_counters["Lon"])
#Création de la carte interactive 
map_idf = folium.Map(location=[48.87116841459345, 2.288481629465109])
for i,j in zip(lat,lon):
	map_idf.add_child(folium.Marker(location=[i,j], popup="AVISIA", icon=folium.Icon(icon="cloud")))
map_idf

Domaine d’application : le géomarketing

Un potentiel domaine d’application de ce type de données pourrait être le géomarketing. Celui-ci est défini comme étant un ensemble de techniques pour analyser le comportement des consommateurs ou des aspects du marketing tels que les ventes ou la distribution tout en tenant compte de la dimension géographique. Parmi les techniques nous pouvons trouver l’analyse des données spatiales (représentations cartographiques des données du marché, segmentation du marché : identifier les zones où le chiffre d’affaires attendu est élevé, détecter la concurrence et la cannibalisation), la modélisation statistique (estimation du chiffre d’affaires et de la part de marché attendus) ou l’optimisation des emplacements (trouver de nouvelles localisations optimales).

Comme sources de données existantes nous pouvons retrouver des informations clients et les points de vente disponibles (adresses avec leur coordonnées géographiques, caractéristiques des clients, surface des magasins, …). D’autres sources sont les données des services d’acheminement pour les informations sur les temps de trajet, les coûts et les distances (GoogleMaps, OpenStreetMap, ViaMichelin) ou encore des données open source qui vont apporter des informations démographiques (salaire et âge moyen, population…).

En géomarketing, il est aussi important de tenir compte des flux définis par deux points : origine et destination (flux de passagers entre les gares, flux de clients des villes vers des magasins, flux des passagers entre les aéroports, etc.). Plusieurs modèles mathématiques tels que ceux de la gravitation (modèle de Reilly 1931) sont capables de mesurer et d’analyser ces flux.

Nous allons présenter une étude de cas de géomarketing réalisée sur RStudio sur une marque fictive. Dans cette étude, nous cherchons à représenter sur la carte de la France l’emplacement des magasins existants en plus de leurs zones de chalandise.

Use case : Analyse de marché pour une marque fictive

Ce « use case » étudie la représentation des emplacements des magasins en fonction de leurs ventes ainsi que la détermination des zones de chalandise de ces magasins. Les visualisations ont été faites sur RStudio en utilisant les packages sp, leaflet, gBuffer, geosphere, sf, spData, rgdal, spdep, tidyverse et raster.

Nous avons à notre disposition des données récoltées pendant 1 mois des clients d’un magasin, des données géographiques (coordonnées de la localisation des magasins…) et des informations démographiques à l’échelle des IRIS. En plus, des données en open source sont aussi utilisées.

Selon l’INSEE, les IRIS (Îlots Regroupés pour l’Information Statistique) sont définis comme étant un découpage infra-communal regroupant environ 2000 habitants par maille.

 

Source : Contours IRIS Paris – Comersis

Concernant les informations relatives aux IRIS, nous avons dans notre base de données l’IRIS dans lequel le client habite et l’ID du magasin dans lequel il a effectué un achat. Il convient donc d’agréger les clients et les ventes par IRIS et par magasin. De plus, nous ajoutons des données démographiques telles que la population de 15 ans et plus par IRIS – issues du recensement français de 2014 (source INSEE).

Nous pouvons tout d’abord observer sur la carte les magasins déjà existants en fonction des ventes à Paris et en banlieue (la largeur des cercles étant proportionnelle au nombre de transactions effectuées sur un mois).

Carte de l’emplacement des magasins à Paris et en banlieue

Le magasin ayant le plus de ventes est celui situé sur l’Avenue des Champs Elysées avec un total de 7691 clients.
À présent, l’objectif est de modéliser les zones de chalandise. Celles-ci sont définies comme les zones, réelles ou projetées autour d’un magasin donné, d’où proviennent la plupart des clients. Ce concept est fondamental pour évaluer les performances d’un magasin et le ciblage de sa clientèle. Le calcul de la zone de chalandise peut être définie par des règles empiriques telles que la distance, les temps de parcours ou le chiffre d’affaires cumulé. Des modèles probabilistes sont aussi utilisés.
Plusieurs types de distances sont à prendre en compte :
  • La distance réelle, calculée avec le réseau routier
  • La distance temporelle, mesurée par le temps de trajet
Les courbes isochrones (en fonction du temps) ou d’isodistance (en fonction de la distance) délimitent une région à partir de laquelle on peut atteindre un emplacement sans dépasser une distance déterminée.
Souvent ce sont les zones de chalandise primaires, secondaires et tertiaires qui sont utilisées et définies par un seuil de distance ou de temps. Ce seuil va dépendre du type de magasin en question.
Chacune des zones a un pourcentage de clients qui sont captés par les magasins. Par exemple, la zone située à moins de 5km du magasin captera plus de clients que les deux autres zones.
En effet, le calcul de la distance (en kilomètres) entre le centre de l’IRIS dans lequel le client habite et le magasin (en utilisant les formules de Vincenty) nous sera utile pour définir les zones de chalandise des magasins déjà existants. Ensuite, nous calculerons la densité de cette distance puis celle de la distance tenant compte des flux d’argent et choisissons un seuil égal à 20km (seuil à partir duquel la densité atteint son maximum).
Nous définissons les zones de chalandise en fonction des ventes dans chacun des magasins. Il est donc nécessaire de calculer les ventes totales par IRIS. Nous constatons ainsi qu’environ 80% des ventes ont étés réalisées par des clients à une distance inférieure à 13km du magasin. Maintenant, nous sommes en mesure d’identifier la zone de chalandise autour des magasins français.
Zones de chalandise des magasins existantes en France
Une autre méthode basée sur les modèles de gravité peut également être valable pour définir les zones de chalandise. La procédure consiste en l’estimation d’un modèle de gravité qui prédit les ventes, puis l’examen de la concentration de ces valeurs prédites pour dériver la zone commerciale d’un magasin. Selon la loi de Reilly, les clients sont prêts à parcourir de plus longues distances pour se rendre dans des endroits où se trouvent de nombreux magasins (centres commerciaux, galeries).
Il existe des modèles qui sont une représentation mathématique des flux origine-destination et qui stipulent que le niveau d’un flux est directement proportionnel aux variables de masse ou taille (de l’origine et destination) et inversement proportionnel au carré de la distance.
Avec les données que nous possédons il est aussi possible d’estimer les parts de marché des magasins, de nouvelles localisations optimales pour l’ouverture de nouveaux magasins ou encore des cas de cannibalisation (lorsque 2 zones de chalandise se chevauchent entre concurrents).
 

Un autre « use case » réalisé par AVISIA est disponible sur ce tutoriel présentant la visualisation en temps réel des trains de la SNCF

Tutoriel : Visualiser la position des trains de la SNCF en temps réel

Conclusion

Grâce aux nouvelles technologies et à la digitalisation, il est possible de tirer beaucoup d’insights via les données spatiales. De plus en plus de secteurs se lancent dans le domaine spatial et fusionnent ces données avec des données démographiques, sociologiques, etc., pour ajouter de la valeur à leurs analyses afin d’accroître leurs performances.
 
À la lecture de cet article, vous souhaitez initier un projet d’exploitation de données spatiales dans vos équipes ? 
Si vous voulez découvrir davantage ou si vous avez pour projet de travailler sur ce type de données, nous serons ravis de mettre à profit notre expertise pour vous accompagner ! 

 

Sources

https://www.tableau.com/fr-fr/learn/articles/location-data-types#:~:text=ensemble%20de%20données.-,Que%20sont%20les%20données%20spatiales%20%3F,vectoriel%20et%20le%20type%20raster.

https://pro.arcgis.com/fr/pro-app/2.9/help/mapping/properties/coordinate-systems-and-projections.htm#:~:text=Toutes%20les%20données%20spatiales%20sont,en%20mètres%20ou%20en%20kilomètres.

https://www.esrifrance.fr/sig11.aspx

https://briques-de-geomatique.readthedocs.io/fr/latest/format-donnees-import.html#le-format-geotiff

https://fr.blog.businessdecision.com/comment-la-geo-intelligence-permet-accroitre-ventes-des-produits-enseigne-commerciale/

https://www.usinenouvelle.com/article/les-donnees-spatiales-une-mine-d-or-pour-l-industrie.N2006427

Recommended Posts
AVISIA