Accueil > Digitalisation > IoT et objets connectés > [Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

IoT et objets connectés

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

3 juin 2025 Modifié le 3 juin 2025

Juliette Chiapello

Vous êtes-vous déjà dit que la partie « collecte de données » d’une chaîne de données était une partie relativement simple d’un projet ? Dans cette série d’articles, nous expliquons pourquoi, selon nous, c’est une partie plus importante et complexe qu’il n’y paraît. Pour cela, nous nous appuyons sur un projet que nous avons réalisé, nommé DataRider. Ce projet nous a poussé à nous questionner sur la qualité et la quantité de données dont nous avions besoin, ainsi que sur l’organisation du code nécessaire pour avoir des performances optimales au niveau de notre collecte puis au niveau de notre chaîne de données. C’est parti pour un retour d’expérience sur tous les défis rencontrés !

J-13

Comment élaborer votre stratégie numérique et transformer vos objectifs en résultats tangibles ?

Webinar 08 Juil 2025 |14h30 – 15h30

S'inscrire

DataRider est un projet autour de courses de petites voitures électriques. Deux modes de jeu sont proposés à des joueurs et des joueuses : gagner des courses en allant le plus vite possible (premier mode de jeu) ou gagner en ayant la meilleure écoconduite, c’est-à-dire la plus basse consommation électrique (deuxième mode de jeu).

Pour pouvoir proposer un tel jeu et communiquer leur classement aux personnes qui participent, nous avons besoin de collecter les données des courses.

Nous présentons, dans ce premier article, la mise en place initiale de la collecte de données, ainsi que le premier défi que nous avons rencontré : la nécessité de trouver un moyen d’augmenter la fréquence de production de nos données afin de ne pas manquer d’informations importantes sur la localisation des voitures pendant les courses.

Retrouvez tous nos articles qui parlent également de ce projet :

1. Lister et définir les données à collecter

Pour réaliser notre première collecte de données, nous avons tout d’abord défini les grandeurs dont nous avions besoin pour analyser les courses de voitures.

Il nous fallait ainsi collecter simultanément :

Les données de position des voitures, renvoyées par des capteurs de position jalonnant le circuit,
Les données de tension et d’intensité pour chaque voiture, afin d’établir ensuite la consommation électrique de chaque voiture.

Pour une voiture donnée, les données brutes ont donc l’allure suivante :

[Data Rider] Les données brutes pour une voiture donnée

Une ligne complète de données, qui contient les données des deux voitures du circuit, se présente alors comme suit :

2. Mise en place de la collecte à partir des capteurs et du code Arduino

La collecte se fait à partir de capteurs physiques, utilisés de façon classique en électronique. Ces capteurs sont ensuite reliés, de façon filaire, à une carte Arduino MEGA.

Ci-dessous se trouvent les différents capteurs que nous utilisons.

Capteurs de localisation
Pour la localisation, des capteurs à effet Hall détectent le passage des aimants collés sur les roues arrière des voitures.
Après paramétrage des PIN de l’Arduino, on lit de façon directe, grâce au script Arduino, les PINA (voiture 1) et PINC (voiture 2) de la carte Arduino pour obtenir les données de localisation.

Capteurs de tension
Les deux capteurs (un capteur par voie) effectuent, de façon analogique, un pont diviseur et renvoient la tension entre le pôle moins du circuit et un des deux rails de la voiture. La lecture se fait de façon directe sur l’Arduino, via la fonction de lecture native analogRead().

Capteurs d’intensité
Il s’agit de capteurs « ACS712 ». Ils fonctionnent avec la librairie Arduino du même nom, « ACS712 », qui propose des fonctions de lecture de l’intensité. On utilise une des fonctions de la librairie pour lire l’intensité : mA_DC(). L’argument de cette fonction indique combien de points sont pris avant de renvoyer une valeur moyenne d’intensité. Le moyennage est nécessaire pour une lecture d’intensité correcte car le signal est très bruité.

La boucle de lecture de l’Arduino est présentée ci-dessous (valeurs exemples indiquées). Elle envoie un message dans le câble USB à chaque itération :

[Data Rider] Boucle de lecture de l'Arduino

Le message envoyé dans cet exemple est le suivant : « 254 ;14.77 ;233.4 ;255 ;6.77 ;185.56 ».

Notre collecte de données est fin prête ! Nous lançons notre script et réalisons nos premiers tests.

3. Analyse de cette première phase de collecte

La collecte est fonctionnelle, nous obtenons les lignes de données souhaitées. Bonne nouvelle, à première vue ! Nous effectuons alors quelques courses de voitures et constatons… que le passage des voitures devant certains capteurs de localisation n’est pas pris en compte dans la collecte de données. En réalité, nous manquons même les signaux de beaucoup de capteurs de localisation. Ils semblent parfois très bien fonctionner, et parfois pas du tout…

Que se passe-t-il ?

Après vérification du bon fonctionnement des capteurs, des fils de transmission, de l’émission et de la réception, nous entamons quelques réflexions supplémentaires et arrivons à l’hypothèse suivante :

Les voitures semblent parfois passer trop rapidement devant les capteurs de localisation et le signal ne parvient pas à être récupéré de façon fiable et systématique. Il est parfois récupéré, notamment quand la voiture ne va pas trop vite, mais parfois pas, quand les voitures passent trop rapidement devant les capteurs.

Comment faire pour régler ce problème sans changer les capteurs (car, nous allons le voir, le problème ne vient pas des capteurs) ?

Il est temps ici de vous donner quelques précisions supplémentaires sur notre chaîne de collecte des données.

4. Quelques précisions sur la chaîne de données

La chaîne de captation de données au complet se présente de la façon suivante :

[Data Rider] Chaîne de captation de données

La donnée est captée et envoyée à l’Arduino. Ce dernier réalise en permanence une boucle (while loop) pour lire l’état des capteurs, remettre les données dans un format lisible et les envoyer sous forme de String dans un câble USB branché à un ordinateur. Un script python de l’ordinateur vient alors lire le port USB où arrive le câble. Le script python est lui aussi une boucle : après lecture d’une ligne, cette dernière est gardée si elle est valide (parfois des lignes avec données alphanumériques invalides ou un nombre de données invalides arrivent et sont donc rejetées), puis un timestamp est ajouté et enfin la ligne est envoyée vers un flux Kafka qui fait le lien avec la suite du traitement (partie ETL).

Notons que dans cette chaîne, nous disposons d’une information qui va être cruciale pour notre analyse : le timestamp des lignes de données.

5. Analyse de la fréquence des données collectées

Grâce à l’information du timestamp, nous pouvons voir que les lignes de données sont envoyées toutes les 6 millisecondes environ.

Notre hypothèse est que cette fréquence est trop faible : si une voiture passe devant un capteur de localisation en moins de 6 millisecondes, la donnée n’est purement et simplement pas « vue ». Cela arrive car les voitures vont en moyenne autour de 2,5 mètres par seconde et les capteurs à effet Hall (capteurs de localisation) font quelques millimètres de large, ce qui laisse un temps de passage devant un capteur de quelques millisecondes.

Quel est l’élément qui, avant tout autre, détermine la fréquence d’envoi des lignes de données ? C’est le code Arduino, qui est le producteur des lignes données. En effet, si le code Arduino met 6 millisecondes à :

lire les capteurs de tension,
lire les capteurs d’intensité,
lire les capteurs de localisation,
mettre en forme et assembler les données dans une ligne,
envoyer la ligne dans le câble USB,
revenir au début de ces étapes

alors il y a 6 millisecondes entre deux moments de lecture des capteurs de localisation, ou encore 6 millisecondes entre deux envois de lignes de données (ou 6 millisecondes entre n’importe quelle étape de la boucle et l’itération suivante de cette même étape).

Sur le schéma ci-dessous, chaque point en noir représente un moment où la fonction « lire la donnée du capteur de localisation » est appelée dans le script Arduino. Δt correspond au temps d’une itération de la boucle de l’Arduino, entre deux opérations de lecture.

[Data Rider] Itération de la boucle de l'Arduino

Le schéma permet de comprendre pourquoi nous manquons certaines données de localisation : si la voiture passe trop rapidement devant un jalon (exemple : jalon « 253 » sur le schéma), alors une fréquence d’acquisition trop faible présente le risque de ne pas échantillonner au moment où la voiture passe devant le capteur. Le jalon correspondant (ici le « 253 ») n’est alors pas « vu ».

Nous cherchons donc à augmenter la fréquence d’acquisition des données ou, formulé autrement, à diminuer le temps qui sépare deux lectures de données. Les deux grandeurs sont reliées par la formule suivante :

[Data Rider] Fréquence d'acquisition des données

6. Retrait de la captation de l’intensité

Nous constatons lors de nos tests que la fonction de lecture de l’intensité, mA_DC(), ralentit considérablement la boucle de l’Arduino, à cause du fait qu’elle moyenne sur plusieurs points.

Ce n’est pas le cas des fonctions AnalogRead() (captation des données de tension) et PINA / PINC (captation des données de localisation), qui, elles, sont beaucoup plus rapides.

Nous décidons donc d’enlever la lecture de l’intensité, et de retrouver l’intensité de façon théorique grâce à une loi d’Ohm (I = U/R, avec R la résistance des voitures).

Il est moins précis de retrouver l’intensité de façon théorique que de la mesurer car il y a une incertitude sur la constance de la résistance des voitures. En effet, des effets inductifs et capacitifs font que la loi d’Ohm est ici une approximation. Néanmoins, pour pouvoir avancer, nous prenons le parti de réaliser cette approximation, au moins dans un premier temps.

Nous voici donc prêts à tester un nouveau format de collecte de données, qui ne fait plus intervenir que la localisation des voitures et la tension à leurs bornes.

7. Nouveau format pour la collecte de données

Pour rappel, l’ancien format des lignes était le suivant :

[Data Rider] Ancien format des lignes de collectes de données

Le nouveau format, sans l’intensité, est désormais celui ci-dessous :

[Data Rider] Nouveau format des lignes de collectes de données

À nouveau, nous examinons la durée moyenne entre l’acquisition de deux lignes… Environ 2 millisecondes ! Nous gagnons un facteur 3 en termes de latence entre deux lignes données, et nous manquons beaucoup moins de jalons sur les signaux de localisation des voitures ! Ce n’est pas encore parfait, mais nous captons suffisamment de données pour globalement identifier les positions des voitures et nous décidons de revenir plus tard sur l’amélioration de ce code à paraître. (Cet article donnera des données chiffrées sur les performances).

Pour continuer le projet et pour le faire avancer, nous nous concentrons alors sur une nouvelle partie : le traitement de nos données dans l’ETL (Extract, Transform, Load). Pourquoi la prochaine étape de cette série d’articles consiste-t-elle à parler de la partie ETL ? Après tout, ce retour d’expérience ne concerne-t-il pas le périmètre de la collecte des données, et non de l’ETL ? En réalité, le développement des opérations à effectuer dans l’ETL nous a mené à une réflexion qui nous a poussés, à nouveau, à modifier la façon dont nous choisissons de collecter les données.

Prochaine étape de la collecte de données IoT : l’étude des opérations à réaliser dans l’ETL et l’influence sur les choix de collecte. À suivre…

>> Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn <<

Data ingénieure spécialisée en Big Data Orange Business - Digital Services France

Diplômée d’un master en Physique et d’un autre en Mathématiques avec une spécialisation en Ingénierie Statistique. Passionnée par les projets interdisciplinaires, j’aime mettre mes compétences en avant pour des initiatives nécessitant des connaissances pointues dans plusieurs domaines.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Sécurité des données

Identités numériques : tout comprendre sur ce domaine en pleine évolution

L'identité numérique est au cœur des interactions en ligne, des transactions commerciales, des processus administratifs et de la protection des données personnelles. Elle englobe non seulement la manière dont les...

Premium

Innovations Cloud

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

La maîtrise des coûts liés au cloud représente un enjeu crucial pour les entreprises en 2025. Cette vidéo, réalisée sous forme de webinar, met en lumière l'expérience d'un client ayant...

Actualités Data et IA

Revue de presse Data & IA – Mai 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : Salesforce s’offre Informatica, Meta va entraîner ses systèmes d'IA...

Premium

Innovation

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

Dans un monde de plus en plus digitalisé, l’accessibilité numérique est devenue un impératif. Elle garantit que chacun, quels que soient ses capacités ou ses outils, puisse accéder aux contenus...

Premium

Transformation digitale

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Les attentes des clients et des collaborateurs évoluent de plus en plus vite. Ainsi, pour rester compétitif, il ne suffit plus d’innover, il faut le faire vite, bien et en...

Solutions technologiques

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Les avancées en intelligence artificielle générative, notamment via les LLMs (Large Language Models), ouvrent des perspectives inédites d’amplification des capacités humaines dans les entreprises. Comme l’ont souligné Brynjolfsson et McAfee...

Stratégie Data

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

L’ascension de ChatGPT a été fulgurante, et a propulsé l'intelligence artificielle, notamment l'IA générative, sur le devant de la scène. Jamais une technologie n’est allée aussi vite dans son adoption...

Premium

Solutions technologiques

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

Comment maximiser la sécurité et l'efficacité de votre infrastructure ? Azure Arc peut transformer la gestion de vos serveurs SQL et Windows tout en restant sur site. Nos explications en...

Premium

Solutions technologiques

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Dans un marché en constante évolution, la rapidité de déploiement des expériences et applications digitales est essentielle pour garder une longueur d’avance. 70% des entreprises considèrent l’accélération du Time to...

Actualités Data et IA

Revue de presse Data & IA – Avril 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'entreprise Bleu franchit la première étape vers la qualification...

Stratégie Data

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

Alors que la course vers une IA générale mobilise des ressources considérables, les entreprises sont confrontées à des enjeux beaucoup plus concrets. Loin des effets d’annonce, il est impératif de...

Premium

Transformation digitale

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

La CSRD, récemment bousculée par l’Omnibus de la Commission Européenne, continue de transformer le reporting extra-financer. Il devient alors essentiel pour les entreprises d’intégrer l’ESG au cœur de leur stratégie....

Premium

Migration vers le cloud

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Les entreprises et administrations publiques sont soumises à de fortes exigences en matière de confidentialité. Comment allier innovation et maîtrise des données ? Retour d’expérience pour réussir votre migration vers le...

Tendances Data

Pourquoi votre cerveau est meilleur qu’une IA pour concevoir un tableau de bord ?

Bienvenue dans le passionnant univers des tableaux de bord ! Vous êtes ici parce que, comme moi, vous êtes convaincus qu’un bon tableau de bord ne se limite pas à...

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Comment élaborer votre stratégie numérique et transformer vos objectifs en résultats tangibles ?

1. Lister et définir les données à collecter

2. Mise en place de la collecte à partir des capteurs et du code Arduino

3. Analyse de cette première phase de collecte

4. Quelques précisions sur la chaîne de données

5. Analyse de la fréquence des données collectées

6. Retrait de la captation de l’intensité

7. Nouveau format pour la collecte de données

Découvrez aussi

Identités numériques : tout comprendre sur ce domaine en pleine évolution

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

Revue de presse Data & IA – Mai 2025

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Revue de presse Data & IA – Avril 2025

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Pourquoi votre cerveau est meilleur qu’une IA pour concevoir un tableau de bord ?

Informations sur la gestion de vos données et vos droits