Business Intelligence : la « Deep Tech » sera la solution à la massification des données

indexima - florent voignier

Une exclusivité Les-Experts.tech

Par Florent Voignier, président fondateur d’Indexima

Confrontées à un volume de données de plus en plus important, les entreprises n’ont plus d’autre choix que de déployer les solutions capables d’adresser les nouveaux enjeux liés au big data : analyse en temps réel, capacité à adresser des formats multiples, stockage de données hétérogènes, et ce dans un contexte d’accélération et de globalisation des mouvements. Une transformation qui les pousse à réorganiser leur système autour de la donnée. Face à ce constat, quelles solutions s’ouvrent alors à elles ?

 

La société américaine Seagate estime le volume global de la « datasphere » en 2025 à 163 Zo, soit 10 fois plus qu’en 2016 (16,1 Zo). Une croissance exponentielle qui oblige les entreprises à adopter une stratégie claire de choix et de tri des données. Désormais, le big data s’installe au cœur même de l’entreprise impliquant le plus souvent une réorganisation interne et une refonte du système d’information. Une dimension critique perçue par 74 % des entreprises en 2018. En conséquence : entre 2015 et 2019, le marché des logiciels et services lié au Big Data en France devrait progresser à un taux moyen de 35 % par an marquant ainsi, à terme, le déclin de l’analytique traditionnel.

 

Stockage : du Data warehouse fermé vers le Data lake hybride et agile

Nous sommes passés d’une ère de l’information à une ère de l’intelligence plaçant les solutions BI et Analytics au centre de l’activité. Les deux tiers des projets de transformation numérique sont ainsi réalisés autour de la donnée.

Si historiquement, les solutions traditionnelles de data warehouse permettaient de traiter et d’analyser facilement les données structurées, aujourd’hui, elles ne répondent plus aux besoins d’analyse liés au big data et à la diversité de données qu’il génère. Des données non structurées qu’il est nécessaire de stocker et de centraliser.

Une réalité qui pousse les directions des systèmes d’information vers des solutions plus ouvertes de type data lake et évitent ainsi aux entreprises de s’enfermer dans un système propriétaire. Des « lacs de données » qui associent la possibilité de croiser des solutions open source et commerciales sans imposer de structure, à la facilité de déploiement du cloud.

40 % des entreprises affirment ainsi avoir déjà déployé des lacs de données bâtis sur Hadoop ou Spark. 30 % évoquent des pilotes en cours. Pour quels usages ? À 70,8 %, les entreprises privilégient les opérations de transformation des données. Suivent les opérations d’analytiques avancées et l’analyse prédictive (63,5 %), puis l’analyse temps réel (60,4 %).

 

Vers un format de stockage universel pour la donnée analytique

Face à des données de plus en plus hétérogènes, les besoins d’analyse deviennent eux aussi de plus en plus diversifiés. Une même donnée peut en effet intégrer plusieurs niveaux de lecture impliquant un important travail de catégorisation, de croisement, d’analyse et de traitement pour en extraire toute la valeur. Un processus qui devient extrêmement chronophage et coûteux au sein d’une solution propriétaire de data warehouse.

Or les usages augmentent aujourd’hui plus vite que les techniques d’extraction et de maîtrise. Résultat : les entreprises sont souvent en retard dans la mise en œuvre de leur technologie big data. Si les besoins sont là, l’exécution technique est quant à elle à la traîne. C’est pourquoi un format standard de stockage de la donnée permettrait de simplifier le croisement et l’analyse des données. Une source de gain de temps et d’argent considérable.

 

Réunir performance et flexibilité : un double enjeu

Les formats existants actuellement ne permettent pas encore de réunir les deux notions jusqu’ici antinomiques. Comment faire pour avoir un format aussi flexible que Json et aussi performant que ORC et Parquet ?

Le premier enjeu lié à la flexibilité doit abroger le besoin de structurer la donnée avant que celle-ci soit ingérée dans le SI. Les indicateurs et KPI doivent pouvoir être ajoutée automatiquement sans avoir à y apporter de structure rigide. Le format doit également être évolutif pour se montrer capable de supporter l’ensemble des besoins et des usages : analytique, reporting, data science. La structure de la donnée s’enrichissant régulièrement en fonction des besoins, l’aspect évolutif du format s’avère indispensable.

Enfin, le deuxième enjeu concerne les performances affichées en lecture et en requête. Afin de fluidifier l’interface pour les analystes, il est nécessaire que ces derniers puissent effectuer des requêtes de l’ordre de la seconde sur les données stockées et de supporter leur enrichissement sans pour autant diminuer les performances.

 

S’il reste difficile à l’heure actuelle de réunir ces deux critères dans un seul et même format, la clé de la maîtrise du big data et de l’analytique repose bel et bien sur la résolution de cette équation. Alors que les formats actuels ne parviennent pas à résoudre ce double impératif de la flexibilité et de la performance, il est maintenant urgent de travailler sur cette réponse tant attendue à la massification des données.

 


A propos de L’auteur

Florent Voignier est fondateur, président et directeur technique d’Indexima, En tant qu’inventeur du produit, il est en charge de transmettre aux équipes Recherche et Développement les nouvelles fonctionnalités à intégrer dans la solution. Florent est également responsable de la définition de la road-map et porte la vision de la société depuis son démarrage. Florent Voignier a plus de 20 ans d’expérience dans le domaine des technologies, du Big Data et de la Business Intelligence.


A propos de Indexima

Lancée en 2016, Indexima est un éditeur de logiciel français qui permet aux entreprises d’accéder à toutes leurs données pour simplifier et accélérer l’analyse et la data science, grâce à une technologie unique d’indexation combinée à du machine learning.

%d blogueurs aiment cette page :