« Le marché est extrêmement dynamique, avec beaucoup d’investissements et beaucoup d’acteurs. Mais à la fin, ceux qui ont vraiment la capacité de se démarquer sont ceux qui maîtrisent l’accès à la donnée »
Ces données spatiales qui demandent un traitement particulier peuvent constituer une énorme valeur ajoutée aux analyses et aux services proposés par les entreprises. Elles sont stockées, traitées et visualisées avec différents outils et techniques permettant de les exploiter au mieux.
Données spatiales et SIG
Les données spatiales, aussi connues comme données géospatiales ou informations géographiques, désignent les informations sur la localisation des objets ou individus présents dans un espace géographique et les rapports entre elles. Elles ont une localisation dans l’espace et peuvent donc être représentées et visualisées sur une carte.
Un système d’information géographique (SIG) est un système d’information fait pour recevoir, stocker, traiter, analyser ou afficher tous types de données spatiales et géographiques.
C’est un outil informatique permettant de représenter et d’analyser toutes les composantes visibles à la surface de la terre ainsi que tous les événements qui s’y produisent.
Les domaines d’application des SIG sont très variés et peuvent aller du marketing jusqu’à la santé ou la politique en passant par l’urbanisme. Le secteur spatial subit une révolution dans le cadre, entre autres, du développement économique, environnemental, ou encore de la digitalisation des technologies.
Quels sont les types et formats de données géographiques ?
Le point commun entre toutes les données spatiales est qu’elles ont une localisation dans l’espace et peuvent donc être représentées et visualisées sur une carte. Elles peuvent être représentées de différentes manières :
- un point (ex : un magasin, un lieu précis)
- une ligne (ex : une frontière, une route…)
- une surface (ex : un pays, un parc)
Deux types de bases pour ces données existent : vectoriel et raster.
Type raster : Un raster est défini comme une matrice composée de cellules contenant des pixels. C’est l’ensemble de pixels qui va donc créer une image. La qualité ou résolution du raster dépendra du nombre de pixels. Plus il y en a, meilleure est la qualité. Ce type est utilisé pour représenter des caractéristiques spatiales, telles que des données satellites.
Type vecteur : Contrairement au raster, le vecteur n’est pas composé de pixels. Il repose sur la géométrie et utilisera des points, des lignes et des polygones. Le vecteur possède deux composantes : attributaire (informations associées) et graphique (géométrie). La première composante est descriptive car le vecteur est lié à des informations qui lui appartiennent (âge, population, taux…). D’autre part, dans la composante graphique, le vecteur est composé de nœuds (points dans l’espace) et de lignes faisant la jointure entre ces nœuds, formant ainsi un outil ou une forme géométrique (point, ligne, polygone).

Source : esri France
Systèmes de coordonnées
Les données spatiales sont créées dans un système de coordonnées et ces dernières peuvent être définies en degrés décimaux, mètres ou autres. L’identification de ces systèmes de mesure impacte le choix d’un système de coordonnées qui viendra afficher les données spatiales dans la position appropriée. Les données sont définies dans des systèmes de coordonnées horizontales (localisent les données sur la surface de la Terre) et verticales (localisent les données en fonction de la hauteur ou la profondeur de celles-ci).
Source : ArcGIS pro
Ces systèmes de coordonnées ont des unités en degrés décimaux qui vont venir mesurer les degrés de longitude (x) et les degrés de latitude (y). Quant à l’emplacement des données, celui-ci est exprimé sous forme de nombres positifs (valeurs x et y positives pour le Nord de l’équateur et l’Est du méridien principal) ou de nombres négatifs (valeurs négatives pour le Sud de l’équateur et l’Ouest du méridien principal). Les données spatiales peuvent être tout de même exprimées avec des systèmes de projection (cf. Exemple 1 ci-dessous). Il s’agit de la transformation du système de coordonnées utilisé sur la surface courbe de la Terre en une surface plane sans distorsions.
Application sous R et Python
Ensuite, pour créer des cartes interactives Folium ou ipyleaflet sont utilisés.
Exemple 1 : convertir un simple dataframe en SpatialPolygons dataframe et traitement de données raster sur R
library(sp) library(sf) library(spdep) library(raster) library("cartography") #Charger données load("immo_data") #Création objet de classe SpatialPoints(sp) avec lat lon immo.sp<-SpatialPoints(cbind(immo$longitude, immo$latitude)) #Création SpatialPointDataFrame(spdf) immo.spdf<-SpatialPointsDataFrame(immo.sp, immo) #Définition du système de coordonnées de référence (CRS) proj4string(immo.spdf)<-CRS("+init=epsg:27572") #Obtention des données géographiques de la France fr_dep <- getData("GADM", country = "france", level = 2) #Conversion projection fr_dep <- spTransform(fr_dep, CRS("+init=epsg:27572")) #Fixer origine org<- par(oma = c(0, 0, 0, 0), mar = c(0, 0, 0, 0)) #Carte France par départements plot(fr_dep, col = "#D1914D", border = "grey80") #Rajouter sur la carte les prix de location propSymbolsLayer(spdf = immo.spdf, var = "prix.location", inches = 0.15)
au mètre carré (sur R)
Exemple 2 : création d’une carte interactive sur Python
import folium import pandas as pd #Définition des coordonnées d'AVISIA Paris list_info = [['AVISIA', 48.87116841459345, 2.288481629465109]] #Création pandas dataframe df_counters = pd.DataFrame(list_info, columns=['Name', 'Lat', "Lon"]) #Définition de la latitude et la longitude lat=list(df_counters["Lat"]) lon=list(df_counters["Lon"]) #Création de la carte interactive map_idf = folium.Map(location=[48.87116841459345, 2.288481629465109]) for i,j in zip(lat,lon): map_idf.add_child(folium.Marker(location=[i,j], popup="AVISIA", icon=folium.Icon(icon="cloud"))) map_idf
Domaine d’application : le géomarketing
Un potentiel domaine d’application de ce type de données pourrait être le géomarketing. Celui-ci est défini comme étant un ensemble de techniques pour analyser le comportement des consommateurs ou des aspects du marketing tels que les ventes ou la distribution tout en tenant compte de la dimension géographique. Parmi les techniques nous pouvons trouver l’analyse des données spatiales (représentations cartographiques des données du marché, segmentation du marché : identifier les zones où le chiffre d’affaires attendu est élevé, détecter la concurrence et la cannibalisation), la modélisation statistique (estimation du chiffre d’affaires et de la part de marché attendus) ou l’optimisation des emplacements (trouver de nouvelles localisations optimales).
En géomarketing, il est aussi important de tenir compte des flux définis par deux points : origine et destination (flux de passagers entre les gares, flux de clients des villes vers des magasins, flux des passagers entre les aéroports, etc.). Plusieurs modèles mathématiques tels que ceux de la gravitation (modèle de Reilly 1931) sont capables de mesurer et d’analyser ces flux.
Nous allons présenter une étude de cas de géomarketing réalisée sur RStudio sur une marque fictive. Dans cette étude, nous cherchons à représenter sur la carte de la France l’emplacement des magasins existants en plus de leurs zones de chalandise.
Use case : Analyse de marché pour une marque fictive
Ce « use case » étudie la représentation des emplacements des magasins en fonction de leurs ventes ainsi que la détermination des zones de chalandise de ces magasins. Les visualisations ont été faites sur RStudio en utilisant les packages sp, leaflet, gBuffer, geosphere, sf, spData, rgdal, spdep, tidyverse et raster.
Nous avons à notre disposition des données récoltées pendant 1 mois des clients d’un magasin, des données géographiques (coordonnées de la localisation des magasins…) et des informations démographiques à l’échelle des IRIS. En plus, des données en open source sont aussi utilisées.
Selon l’INSEE, les IRIS (Îlots Regroupés pour l’Information Statistique) sont définis comme étant un découpage infra-communal regroupant environ 2000 habitants par maille.
Source : Contours IRIS Paris – Comersis
Concernant les informations relatives aux IRIS, nous avons dans notre base de données l’IRIS dans lequel le client habite et l’ID du magasin dans lequel il a effectué un achat. Il convient donc d’agréger les clients et les ventes par IRIS et par magasin. De plus, nous ajoutons des données démographiques telles que la population de 15 ans et plus par IRIS – issues du recensement français de 2014 (source INSEE).
Nous pouvons tout d’abord observer sur la carte les magasins déjà existants en fonction des ventes à Paris et en banlieue (la largeur des cercles étant proportionnelle au nombre de transactions effectuées sur un mois).
Carte de l’emplacement des magasins à Paris et en banlieue
-
La distance réelle, calculée avec le réseau routier
-
La distance temporelle, mesurée par le temps de trajet


Un autre « use case » réalisé par AVISIA est disponible sur ce tutoriel présentant la visualisation en temps réel des trains de la SNCF :
Tutoriel : Visualiser la position des trains de la SNCF en temps réel
Conclusion
Sources
https://www.tableau.com/fr-fr/learn/articles/location-data-types#:~:text=ensemble%20de%20données.-,Que%20sont%20les%20données%20spatiales%20%3F,vectoriel%20et%20le%20type%20raster.
https://pro.arcgis.com/fr/pro-app/2.9/help/mapping/properties/coordinate-systems-and-projections.htm#:~:text=Toutes%20les%20données%20spatiales%20sont,en%20mètres%20ou%20en%20kilomètres.
https://www.esrifrance.fr/sig11.aspx
https://briques-de-geomatique.readthedocs.io/fr/latest/format-donnees-import.html#le-format-geotiff
https://fr.blog.businessdecision.com/comment-la-geo-intelligence-permet-accroitre-ventes-des-produits-enseigne-commerciale/
https://www.usinenouvelle.com/article/les-donnees-spatiales-une-mine-d-or-pour-l-industrie.N2006427