Les dispositifs IoT et l'Industrie 4.0 nous ont habitués à avoir une certaine facilité et abondance d'informations sur le fonctionnement des machines et des processus de production dans les entreprises. Comme nous l'avons déjà expliqué dans cet article, il est bon de planifier les données à échanger avec les machines.

Les méthodologies d'analyse modernes sont axées sur les données plutôt que sur les solutions. Dans le passé, il fallait partir d'une hypothèse qui devait être vérifiée, alors qu'aujourd'hui, il est possible de partir des données et d'en extraire des « indices ».

Cela a contribué à l'idée fausse selon laquelle il suffit de prendre n'importe quelles données, de les introduire dans un système d'analyse industrielle et, comme par magie, d'établir des corrélations. Bien que ce soit en partie le cas, l'accumulation de données sans stratégie peut être un gaspillage.

Les données doivent être extraites et stockées selon certains critères qui les rendent utilisables, en particulier si elles doivent être utilisées pour l'apprentissage automatique (Machine Learning), l'analyse industrielle (Industrial Analytics) ou même pour de simples statistiques.

Les scientifiques des données savent par expérience comment les données doivent être acquises et organisées, parce qu'ils ont passé des jours et des jours à essayer de les intégrer ou de les rendre traitables. Je procède généralement à une analyse minutieuse avant de mettre en place l'acquisition des données, mais en général j'adopte, au minimum, la règle des 3 W, c'est-à-dire que je me pose ces trois questions fondamentales:


Qu'

est-ce qui influence le résultat que je veux améliorer? Les informations doivent toujours être replacées dans un contexte aussi large que possible: machine, opérateur, article, commande, matière première, température, pression, force, etc. S'il y a le moindre soupçon qu'un facteur puisse modifier le résultat d'un processus, il faut l'inclure dans l'acquisition.

Il m'est arrivé de voir des flots de données sans leur contexte, qui nécessitaient des efforts incalculables pour les réconcilier avec ce dernier, typique des dispositifs IIoT. Un exemple: on m'a demandé de traiter des données de consommation d'énergie déjà acquises par le client lui-même. En regardant le graphique, je pouvais voir qu'elles variaient considérablement au fil du temps, mais les valeurs de consommation ne comportaient que la date et l'heure d'acquisition. Qu'est-ce qui était produit lorsque le graphique montait en flèche? Quel était l'élément qui provoquait l'augmentation de la consommation ? Il n'était pas possible de le déduire des données.

Quand?

Il y a en fait deux questions.

« Quand les données ont-elles été générées? » Il faut toujours mettre l'horodatage de la génération de l'information. Cela permet également de synchroniser et donc d'inclure des facteurs provenant d'autres sources.

Quand dois-je échantillonner la valeur? Je l'explique par un exemple. Imaginons que nous capturions la couleur, le poids ou la hauteur de certaines pièces passant sur un tapis roulant. Si vous disposez de ces données en temps réel et que vous décidez de les stocker à intervalles réguliers, les valeurs acquises seront probablement « sales », car certaines auront été échantillonnées alors que la pièce ne se trouve pas au point de lecture du capteur. Dans ce cas, vous devez vous synchroniser avec le système de manutention et acquérir la valeur au moment où la pièce passe et est mesurée, et non à intervalles réguliers.

Pourquoi?

Avant de mettre de côté de grandes quantités de données, il faut se demander "Pourquoi est-ce que j'acquiers ces données ? Si l'on veut pouvoir prédire un événement, éventuellement avec des techniques de Predictive Analytics, il faut, en plus des données qui pourraient l'influencer (facteurs), y associer l'outcome, c'est-à-dire le résultat obtenu. Sans ce dernier, il ne sera pas possible de faire du Machine Learning et donc de la prédiction ou de la classification.

Dans la pratique, suivre le processus en stockant tout ce qui se passe, sans associer également les moments où cela se passe bien et ceux où cela se passe moins bien, n'est pas très utile. J'ai vu cette erreur commise plus souvent qu'on ne l'imagine.

En résumé: demandez-vous ce qui influence le résultat que vous voulez analyser/améliorer et stockez les facteurs qui le déterminent, c'est-à-dire la contextualisation de l'événement observé. Demandez-vous si la synchronisation des données capturées est nécessaire et stockez toujours l'horodatage du moment où elles sont prises. Demandez-vous pour quel résultat vous avez besoin de certaines informations et enregistrez le résultat obtenu ainsi que le contexte.

Voici quelques pistes de réflexion sur la manière d'acquérir des données d'une manière réellement utilisable. Êtes-vous maintenant prêt à faire de l'analyse industrielle?

Tesar blog