Le Big Data est un sujet passionnant et quasi illimité. Proposition de définition : des données plus variées, arrivant dans des volumes de plus en plus importants et avec une vitesse plus élevée. Nous vous proposons ici une approche simple d’une notion finalement compliquée. Notre histoire commence avec la donnée.
Quand je suis arrivée chez REDLab, j’entendais des combinaisons de mots qui à l’époque me semblaient sortir d’un autre monde : Big Data, Data Analytics, Data Lake… Ce monde semblait peuplé de petites choses dont personne n’ignore l’existence sans cependant mettre un terme bien défini sur leur rôle. Car finalement, ces petites choses faisant déjà partie de notre quotidien, pourquoi les auréoler tout à coup d’un statut de gourou de la performance ? Ces petites choses que nous nommons « données » …
La donnée, le nouvel envahisseur conquérant
Si elles ont envahi notre quotidien c’est grâce au numérique ; elles sont plus nombreuses, se propagent plus vite et se parent d’atours si divers que leur petit monde en apparence ordonné ne l’est plus. Et pour ordonner tout ça est apparu… le Big Data, notre gourou suprême. Ces derniers mois (qui se compteront bientôt en années) ont mis en exergue deux types d’organisations, celles qui avaient déjà saisi les enjeux autour de la donnée et amorcé leur virage technologique, et celles qui ont dû rattraper leur retard en un temps record et heureusement je ne suis pas là pour discuter des conséquences.
Les premières ont vite compris toute la puissance qu’elles pouvaient tirer de données déjà existantes mais peu ou sous-exploitées jusqu’ici. Elles ont entamé ce qu’on adore appeler leur « transformation numérique » ou « transformation digitale », des expressions tellement utilisées qu’elles pourraient en avoir perdu leur sens profond que j’aimerais (re)définir ainsi : se transformer digitalement, ou numériquement, c’est définir et mettre en place des moyens humains et des outils « technologiques » pour analyser les données disponibles et en retirer de la valeur pour une organisation.
A une époque, les entreprises lâchaient le fax pour se mettre au mail. Et beaucoup comparent la transformation numérique en cours à un passage au « tout numérique ». S’ils ont répondu à une partie du problème, qui est de rendre la donnée d’entrée disponible quelque part, il semble néanmoins manquer un gros morceau : rendre cette donnée accessible pour permettre son traitement et ce n’est pas la plus mince des affaires !
L’envers du décor
Aujourd’hui, toute action un tant soit peu connectée produit de la donnée. Quelques 25 milliards de bits de données sont ainsi créées quotidiennement… Essayez de transposer ça en métrage papier cela donne carrément le tournis.
La première question que l’on aurait intérêt à se poser c’est « que va-t-on en faire ? ». Et bien nous allons en tirer de la valeur en transformant une donnée d’entrée en donnée de sortie nommée « information ». C’est cette information que notre cerveau humain va utiliser. Et cette valorisation passe par un nécessaire traitement de la donnée brute.
Notre première interrogation va donc traditionnellement en amener une autre qui est « une fois que l’on sait ce qu’on veut en faire, la transformer en information actionnable, comment va-t-on procéder ? ». Et là vous repensez furtivement à vos 25 milliards de données…
Next : comment le cerveau humain peut-il traiter une telle multitude de données ? Alors là, ne cherchez pas, il ne peut pas. Et donc me direz-vous…
Et donc, comme pour la plupart des innovations, qu’elles soient intellectuelles, industrielles ou technologiques, elles sont apparues suite au constat d’un manque ou d’une opportunité.
Le manque ici, et j’en suis la première navrée, c’est bien le nombre limité de neurones dont dispose notre cerveau d’humain. Et l’opportunité, c’est la réflexion autour des différents traitements possibles pour transformer un gigantesque volume de données en informations actionnables pour l’utilisateur.
De la donnée à l’information : on s’y prend comment ?
Une donnée seule ne vaut rien ; tout l’enjeu est bien de la transformer en quelque chose de compréhensible pour notre cerveau.
Penchons-nous sur les caractéristiques intrinsèques d’une donnée. Au risque de me prendre les foudres d’une communauté d’experts aguerris, j’ose affirmer que ces caractéristiques ne sont pas nouvelles et que les données, même papier, sont également concernées.
- Volume
La taille compte certes, mais la donnée n’est pas qu’une histoire de volume même si cette caractéristique est souvent évoquée en premier. Le volume de données « traitables » a explosé : données personnelles bien sûr mais aussi process, produit, consommateur… Autant de données d’entrée que de finalités possibles.
- Véracité
C’est quand même plus sympa pour votre interlocuteur si vous lui procurez une donnée vraie. Imaginez la tête des Athéniens si Philippidès leur avait annoncé la victoire des Perses, pas sûre que la blagounette serait passée… Et on n’aurait pas peut-être pas inventé ce merveilleux sport / activité de torture qu’est le marathon 🏃♂️. L’enjeu du traitement de données repose en effet sur la capacité à produire une information fiable et pertinente.
*NDLR : Pour plus de culture, https://fr.wikipedia.org/wiki/Marathon_(sport)
- Vélocité
Ô toi consommateur qui veut tout et son contraire de manière instantanée, ai-je besoin d’en dire plus ? Pour la forme, on dira juste que la donnée, vous la voulez maintenant et tout de suite d’où la montée en puissance du traitement en temps réels. Any Time, Any Where, Any Device. On retrouve dans cette caractéristique les challenges liés à l’accessibilité de la donnée : où, quand, comment ?
- Variété
Ce serait trop simple si nous avions à traiter un seul type de données, cela reviendrait à dire que nous parlons tous la même langue quand nous échangeons des informations à notre petite échelle humaine. Or nous l’avons vu, le monde de la donnée est à peu près aussi désorganisé que le nôtre. Pas de mystère, la donnée est à l’échelle de l’univers une juxtaposition de petits pays et de principautés (ne les oublions pas) où chacun irait de son bon patois. Chez nous, en Normandie, on dirait « allez gros boujou hein » soit à demain…d’où l’absolue nécessité de « traduction ».
Il existe ainsi de nombreux formats de donnés qui ont été classés en deux grosses catégories : structurées et non structurées. Les organiser et les traiter permet leur compréhension. Pour résumer très grossièrement on dira que plus la donnée est structurée en entrée, plus son traitement est « facile », non pas que le mot facile soit particulièrement approprié dans le cas présent.
- Valeur
On lit partout que les données sont la nouvelle richesse des organisations. Plus nombreuses que les gouttes d’or bleu, en théorie plus accessibles que ce qui reste d’or noir… alors est-on assis sur une autre mine d’or ? Il semblerait bien. Et cette valeur ne provient encore une fois pas de la donnée brute mais bien de la donnée transformée, ou valorisée. En guise d’exemple grossier, si vous prenez de manière séparée un E, un m, un c et un 2, et qu’au final vous trouvez que ça vous fait une belle jambe, c’est que vous avez suivi mon raisonnement.
Du Big Data au Data Analytics
Volume, Vélocité, Véracité, Variété, Valeur. Nous venons de définir les 5 grandes caractéristiques de la structure Big Data. Nous voilà bien avancés me direz-vous. Car maintenant que nous avons caractérisé nos données d’entrée, une question brûlante : que va-t-il se passer à la sortie ?
Si tout se passe bien, l’alliance d’une structure Big Data pertinente et d’outils analytiques adaptés vont produire des informations actionnables c’est-à-dire directement utilisables sans nécessiter de la part de l’utilisateur un traitement supplémentaire. Notre cher Phillipidès aurait sans doute apprécié de ne pas laisser sa vie dans sa course effrénée vers Athènes, tout héros qu’il puisse être devenu par la suite, pour transformer une donnée d’entrée : « nous avons vaincu les Perses » en donnée de sortie « Chill, pas la peine d’envoyer les renforts ». Son seul outil de traitement étaient ses jambes, cela a suffi mais à quel prix ?
Aussi, toute donnée est potentiellement conçue pour fournir une information. Mais souvent une donnée seule, même traitée, ne suffit pas. Il faut les combiner entre elles, nos fameux IF, AND, THEN (entre-autres), pour qu’elles deviennent pertinentes et opérationnelles.
Dans l’industrie par exemple, on corrèle des données process entre elles pour pouvoir prédire les déviations de produits finis… à partir d’autres données issues des matières premières. On est ainsi capable de remonter toute la chaine de valeur de production pour la rendre encore plus performante, prédire les failles, optimiser les lignes et tendre vers le Golden Batch, soit le lot zéro défaut, un objectif que l’on touche presque du bout des doigts, rendu possible par la puissance du Data Analytics.
L’accessibilité, le vrai enjeu de la donnée ?
Les possibilités d’applications sont énormes et touchent tous les secteurs. Mais une véritable transformation digitale n’est complète que si la donnée est rendue disponible (la digitalisation est un moyen) mais avant tout accessible. Avoir des données uniquement disponibles reviendrait à fouiller perpétuellement dans vos vieux classeurs d’archive. La transformation numérique ne peut ainsi se résumer à une simple opération de numérisation cqfd.
En marge du Big Data dont le rôle est d’organiser les données pour les rendre disponibles et accessibles au traitement, il faut se pencher sur le Data Analytics qui s’occupe de la partie traitement et valorisation. Les technologies de traitement sont nombreuses et de plus en plus performantes. Chaque organisation étant différente avec des objectifs de valorisation différents, tout l’enjeu est de définir une structure Big Data cohérente et pertinente pour chacune. Dans la donnée, le sur-mesure est souvent la clé. Et les outils technologiques, aussi variés que les cas d’usages, font du traitement de données un sujet passionnant aux problématiques sans cesse renouvelées.
Le temps devient une notion bien réelle
Si les quantités de données croissent à une cadence folle, les outils qui les traitent et les transfèrent doivent aussi croître pour supporter le volume traité et la montée en charge du réseau, d’où le besoin de mettre en place en amont les solutions les plus robustes et scalables possibles… sans oublier l’aspect sécurité des données !
Une nouvelle problématique se profile : collecter et traiter oui, mais au bon moment ! Deux approches sont possibles : une première qui consiste à transférer et à stocker les données là où elles sont traitées, hébergement Cloud, hybride ou local, et une deuxième qui consiste à laisser les données là où elles sont produites, y envoyer des objets pour les traiter et renvoyer le résultat vers l’utilisateur : Data at the Edge ou Edge Computing.
Dans les deux cas, les organisations devront se pencher sur des questions de priorisation de l’information. Car s’il est important de collecter les bonnes données, il est encore plus puissant de les collecter et de les utiliser en temps réel. D’une attitude réactive à une position proactive, ma boule de cristal indique même que les technologies de l’intelligence artificielle (algorithmes statistiques, machine learning, deep learning) pourraient rendre les organisations prédictives.
Virginie
Apprendre du passé et anticiper le futur dans le temps présent
Le traitement de données rend ce challenge accessible. Chez REDLab, nous adorons échanger autour de ce sujet qui nous passionne alors nous nous sommes associés à d’autres acteurs passionnés pour vous aider à définir une stratégie de traitement de données cohérente et performante pour votre organisation.
Save the Date : 27 Septembre 2021
Retrouvez-nous pour un Meetup 💯 tech et 💯 présentiel dédié au Big Data et à l’Analytics en temps réel avec nos partenaires SingleStore et Schoolab.
A bientôt !
La team REDLab !
PS : pour le coup, cet évènement est vraiment passé 🙃