Tutoriels outils et langages data

Comment développer et bien exploiter les fonctionnalités des outils et langages Data ?

Requêtage, indexation, agrégation, mise à jour, analyse, etc. Nos experts mettent à votre disposition une approche concrète des possibilités d'application et de déploiements des principaux outils et langages Data, à travers une série de tutoriels.

Certification Databricks Certified Associate Developer for Apache Spark : comment la passer avec brio ?

Certification Databricks Certified Associate Developer for Apache Spark : comment la passer avec brio ?

Dans ce guide, je vous partage mon expérience personnelle sur la préparation et le passage de la certification Databricks Certified Associate Developer for Apache Spark, ainsi que mes conseils pour...

Move2cloud : et si c'était le moment de repenser vos dashboards ?

Move2cloud : et si c'était le moment de repenser vos dashboards ?

Les avantages du cloud ne sont aujourd’hui plus à prouver. L’élasticité, les coûts réduits, la maintenance simplifiée des serveurs ont déjà convaincu grand nombre d’entreprises de migrer leurs plateformes data...

Utiliser les API REST de Microsoft Power BI avec Power BI Report Server

Utiliser les API REST de Microsoft Power BI avec Power BI Report Server

Comme promis lors d’un précédent article « Utiliser Power BI pour monitorer… Power BI », voici un tutoriel destiné à vous expliquer comment utiliser les API REST de Microsoft Power BI, mais...

Move2cloud : Tests de non-régression ? Arrêtez de perdre du temps !

Move2cloud : Tests de non-régression ? Arrêtez de perdre du temps !

De plus en plus d’entreprises migrent vers le cloud pour bénéficier de ses avantages. Elasticité, scalabilité, performances, coût à l’usage… La Data est alors extraite des bases de données On...

Utiliser Power BI pour monitorer… Power BI !

Utiliser Power BI pour monitorer… Power BI !

Vous êtes responsable de la gestion d’un environnement Power BI ? Des statistiques sur vos rapports Power BI vous aideraient à démontrer votre impact, à prioriser la mise en avant de...

Cas d'usage : créer un accélérateur de migration Data As Code

Cas d'usage : créer un accélérateur de migration Data As Code

Dans le cadre d’une migration/standardisation d’un patrimoine applicatif de Cloudera v6 vers Cloudera Data Platform v7, et au vu du nombre de projets (~70) écrits en Spark-Scala ou PySpark-Python à...

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

Dans le monde de la Data, on rencontre régulièrement les termes EL, ELT et ETL. Ce sont 3 acronymes qui se ressemblent, et signifient : Extract and Load (EL), Extract, Load,...

Supervision opérationnelle d'une plateforme Big Data Hadoop : les 5 étapes du processus

Supervision opérationnelle d'une plateforme Big Data Hadoop : les 5 étapes du processus

Dans ce nouvel article dédié à la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Horton Works (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data...

Supervision opérationnelle d'une plateforme Big Data Hadoop : périmètres et grands principes

Supervision opérationnelle d'une plateforme Big Data Hadoop : périmètres et grands principes

Dans cet article, nous allons aborder la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Hortonworks (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform...

Spark Structured Streaming : les tests de performance

Spark Structured Streaming : les tests de performance

Spark est un framework open source de calcul distribué. Plus performant qu'hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s'est rapidement taillé une place de choix au sein...

Apache Kafka expliqué à mes grands-parents

Apache Kafka expliqué à mes grands-parents

Quand on travaille dans le secteur des nouvelles technologies (souvent abstraites et complexes), ce n'est pas toujours simple d'expliquer le travail que nous réalisons ou encore le fonctionnement d'un programme....

Spark Structured Streaming : de la transformation des données aux tests unitaires

Spark Structured Streaming : de la transformation des données aux tests unitaires

Spark est un framework open source de calcul distribué. Plus performant qu'Hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s'est rapidement taillé une place de choix au sein...

BigQuery et Data quality testing : comment centraliser vos tests et les industrialiser

BigQuery et Data quality testing : comment centraliser vos tests et les industrialiser

Les utilisateurs de la Data ont besoin de données fiables, et pour les satisfaire nous pouvons être amenés à créer des requêtes SQL tous azimuts. On prend alors le risque...

Spark Structured Streaming : de la gestion des données à la maintenance des traitements

Spark Structured Streaming : de la gestion des données à la maintenance des traitements

Spark est un framework open source de calcul distribué. Plus performant qu'Hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s'est rapidement taillé une place de choix au sein...

Les vues matérialisées avec BigQuery

Les vues matérialisées avec BigQuery

En arrivant dans le monde de la Big Data en tant que consultant, j’ai été tout de suite confronté à l’un des problèmes majeurs de cette discipline : l’optimisation des requêtes...

Deep Learning : le Réseau neuronal convolutif (CNN)

Deep Learning : le Réseau neuronal convolutif (CNN)

Nous vous avons expliqué dans notre précédents articles la descente de gradient et son utilisation dans la régression linéaire, le fonctionnement et l’intérêt d’un réseau de neurones, mais aussi son...