Principes et intérêts des jeux de données (Open data)

Le marché de la vente de données a un poids considérable dans l’économie mondiale : plus de 200 Md$ en 2020. Les perspectives d’évolution du Big data sont impressionnantes : selon la commission européenne, le volume de données devrait augmenter de 530% d’ici 2025. Une bonne partie des acteurs de ce marché, dont Facebook et Google, utilisent des jeux de données privés, collectés directement sur leurs plateformes. De l’autre côté, on trouve des infrastructures utilisant des jeux de données open data : c’est ce qui nous intéresse dans cet article. Ainsi, nous allons voir ensemble les principes et intérêts des jeux de données, avant d’ouvrir le sujet de l’open data et de ses enjeux.

Qu’est-ce qu’un jeu de données ?

Fondamentalement, un jeu de données est tout simplement un ensemble de données connexes associées entre elles. Généralement, les jeux de données sont structurés de sorte à être visualisables dans un tableau, où chaque ligne représente un élément et chaque colonne une variable.

Par exemple, un jeu de données métier sera composé d’un ensemble de variables (nom, entreprise, salaire, coordonnées, localisation, etc.) et un certain volume de valeurs associées à ces variables. Dans ce format, le jeu de données est un fichier CSV visualisable en représentation tabulaire. Un tel fichier est donc exploitable par des logiciels comme Microsoft Excel. On retrouve d’autres types de structures de jeu de données, comme la structure d’arbre (fichier JSON/XML), ou la structure de graphe (RDF), utilisables via d’autres logiciels.

Créer des jeux de données

Il existe de nombreuses manières de créer des jeux de donnés. Certains sont générés par des robots ou produits par des outils créés à partir de la Machine Learning, tandis que d’autres sont collectés via des enquêtes email. On peut également extraire des jeux de données des sites Web et des API. La technologie Bright Data combine plusieurs de ces méthodes pour créer ses jeux de données. Plus les sources et les méthodes sont élargies, plus les jeux de données sont complets et précis.

Quels intérêts présentent les jeux de données ?

L’acquisition des jeux de données est un levier de performance considérable pour une entreprise. En effet, une base de données solide est aujourd’hui le pilier des campagnes marketing, de la fidélisation client, de l’optimisation des coûts

Mais au fait, d’où proviennent toutes ces données ? Comment se fait-il que nous puissions récupérer et exploiter librement des millions d’informations numériques ?

Qu’est-ce que l’open data ?

L’open data prend son sens dans sa traduction : c’est l’ouverture des données, afin qu’elles soient accessibles gratuitement, librement et de façon universelle. Chaque donnée doit également être réutilisable et redistribuable par n’importe quel utilisateur, sans aucune restriction. En respectant ces critères, l’open data est interopérable, peu importe la source des données.

La Sunlight Foundation a défini plusieurs principes conditionnant les données open data. Ainsi, elles doivent obligatoirement être :

  • Primaires. Les données sont non agrégées et dans le même état que lorsqu’elles ont été collectées à la source.
  • Complètes. Elles représentent l’ensemble de ce qui est collecté par une administration sur un thème particulier. On ne peut pas soustraire des données au volume collecté, incluant les métadonnées expliquant leur mode de collecte.
  • Accessibles. Elles sont directement téléchargeables, sans justification d’usage (commercial, but non-lucratif, etc.) ni enregistrement en ligne.
  • Fraîches. La date de publication doit être au plus proche de la date de collecte. Lorsque c’est possible, elles doivent être publiées en temps réel.
  • Disponibles. Les formats des données ne peuvent être possédés par une entreprise ou une organisation. La gouvernance des formats appartient aux utilisateurs.
  • Sous licence ouverte. Les données sont modifiables et redistribuables librement, y compris à des fins commerciales.
  • Pérennes. Les données et les versions successives des jeux de données sont disponibles et téléchargeables en permanence, sous la forme d’archives.

Les enjeux de l’open data

L’open data dans son ensemble, est un mouvement impulsé par la rencontre d’idées scientifiques, de partage des connaissances, dans le but de mettre en avant la notion d’ouverture par défaut des données. En d’autres mots, le mouvement de l’open data veut que n’importe quel individu à travers le globe puisse avoir accès aux jeux de données, dont les enjeux sont publics.

En effet, l’accessibilité aux données est une problématique qui se situe au-delà de l’aspect technologique. L’open data est présent dans de nombreux secteurs : santé, écologie, énergie, justice, économie, collectivité territoriale… et présente donc des enjeux d’ordre politique, démocratique, scientifique et économique. L’action publique se doit d’être transparente afin de mesurer l’impact des politiques et de redonner l’accès aux citoyens, à des données qui leur appartiennent. Pour se rendre compte de l’impact de l’open data, il suffit de prendre l’exemple du Covid. L’accessibilité des données a pu permettre à de nombreux acteurs de produire des analyses en temps réel, d’innover et de proposer des solutions.

La donnée est un levier de connaissance et d’innovation. Dans la résolution d’une problématique, peu importe sa portée, une donnée libérée et partagée apparaît donc comme un facteur crucial de réussite.

Entrepreneur et Geek depuis plus de 20 ans.

Entrepreneur et Geek depuis plus de 20 ans.

Post Comment