Dans ce guide, je vous partage mon expérience personnelle sur la préparation et le passage de la certification Databricks Certified Associate Developer for Apache Spark, ainsi que mes conseils pour la réussir. À vous de jouer !
Matinale Data & IA
Je commencerai par une présentation générale de la certification, puis vous expliquerai comment réviser cette certification et, pour terminer, vous donnerai quelques astuces pour gagner du temps et réussir cette certification.
Il est important de noter que cette certification, délivrée par Databricks, est agnostique de la plateforme. Ce qui importe, ce sont vos connaissances du framework Apache Spark. Je vous encourage à explorer ce guide et à vous préparer de manière approfondie pour atteindre vos objectifs !
Présentation générale
La certification Databricks Certified Associate Developer for Apache Spark se distingue des autres certifications de Databricks en tant que Specialty Badge. Cette distinction est significative, car elle n’est pas considérée comme une certification comptant pour le niveau de partenariat.
Pour réussir cette certification (en anglais), vous disposez de 120 minutes, et vous devez répondre juste à 70% d’un QCM (Questionnaire à Choix Multiple) de 60 questions réparties en 3 catégories :
- Apache Spark Architecture Concepts – 17% (10/60)
- Apache Spark Architecture Applications – 11% (7/60)
- Apache Spark DataFrame API Applications – 72% (43/60)
Le passage de la certification est à ce jour au prix public de 200$, soit environ 220€. Vous avez la possibilité de choisir une version Scala ou Python de l’examen. Bien que l’API Spark soit identique, notez qu’il peut y a des variations dans les exemples de code. Je vous conseille de sélectionnez le langage avec lequel vous vous sentez le plus à l’aise.
Pour ma part, comme je développe principalement en Spark+Scala, j’ai choisi de passer la version Scala.
Dernière précision importante : cette certification se déroule exclusivement en ligne via Kryterion (WebAssessor) et nécessite d’installer un navigateur sécurisé sur Windows.
Le navigateur sécurisé restreint votre affichage à l’examen, à un espace dédié permettant de prendre des notes, ainsi qu’à la possibilité de consulter une liste de documents PDF sur l’API Spark.
L’idéal est d’avoir une expérience d’au moins 6 mois de pratique sur Apache Spark avant de passer la certification.
Révisions
Je recommande d’avoir une expérience d’au moins 6 mois de pratique sur Apache Spark avant de passer cette certification. Ensuite, il est essentiel de réviser de nombreux concepts et de bien comprendre les mécanismes sous-jacents de Spark.
Pour vous guider dans votre préparation, voici quelques ressources très intéressantes (en anglais) :
La documentation officielle de Spark est une ressource incontournable. Cependant, comme elle est dense, on peut vite s’y perdre. Utilisez-la pour creuser des points précis sur l’API, ou explorez la section Programming Guide, en particulier les pages suivantes :
L’article LinkedIn de Deepak Rajak est également très intéressant pour bien comprendre les concepts fondamentaux d’Apache Spark.
Le site SparkByExample est une mine d’exemples concrets et aide à comprendre des différences majeures comme :
De plus, Databricks fournit un examen blanc vraiment proche de l’examen final. Il y a un PDF dédié selon si on veut réviser avec Scala ou avec Python.
Je vous conseille de dérouler cet examen blanc pour bien identifier les fonctions de l’API et les concepts attendus. Il est crucial de maîtriser chaque concept en détail, car durant l’examen, les questions posées seront très similaires, mais avec une différence notable qui changera la réponse à choisir.
Par exemple, chez Business & Decision, j’organise une série de 3 sessions de révision avec les collaborateurs souhaitant passer la certification Spark. Ainsi, nous traitons 20 questions par sessions avec des explications détaillées sur le choix de la réponse.
Tutoriel
Spark Structured Streaming : de la gestion des données à la maintenance des traitements
Lire la suiteAstuces
QCM
Pour rendre l’examen blanc de Databricks plus interactif et engageant, j’ai élaboré trois quizz Klaxoon de 20 questions chacun. Au début de chaque session de révision, je transmets un lien vers un des quizz à réaliser en moins de 30 minutes.
Cette approche permet à tous les participants de s’entraîner dans des conditions similaires à celles de l’examen officiel. Après avoir terminé le questionnaire, nous consacrons du temps à analyser les réponses de chaque participant et à expliquer chacune des propositions pour déterminer celle qui est correcte.
À la fin de la session, je fournis un PDF contenant ces 20 questions et réponses, et qui s’avère être un outil utile pour l’auto-évaluation après les révisions. De plus, je partage quelques liens intéressants pour approfondir les connaissances en lien avec les thématiques vues.
L’anglais
Comme pour toutes les certifications, celle-ci est proposée en anglais. Si ce n’est pas votre langue maternelle, cela peut parfois compliquer la compréhension de certaines questions.
Il est essentiel d’être attentif aux négations présentes dans les questions, et voici quelques termes en anglais que j’ai rassemblés à partir des retours de collègues pour vous aider :
- coarcest ⇒ le plus brut
- boundary ⇒ limites
- fairly ⇒ assez
- least ⇒ le moins
Documentation API Spark
Durant l’examen, vous aurez accès à une liste déroulante avec environ 70 PDF différents décrivant l’API de Spark. L’usage de cette documentation est impossible durant l’examen si vous n’avez pas appris à vous en servir avant. Si vous ne savez pas dans quel PDF rechercher l’information, vous perdrez plus de temps à vous en servir.
La fenêtre affichant l’examen et cette aide est assez petite et non redimensionnable. La zone de lecture du PDF est donc très réduite, et la recherche dans le PDF n’est pas possible.
Bonne nouvelle, vous pouvez vous entraîner à utiliser et à parcourir cette documentation disponible directement sur le site de WebAssessor. Il est important de noter qu’en réalité, durant l’examen, la zone d’affichage au sein du navigateur sécurisé est encore plus petite.
Deux conseils pour améliorer votre efficacité :
- Les 2 PDF les plus utiles durant la certification sont scala-org-apache-spark-sql-1 et scala-org-apache-spark-sql-2.
- Évitez de consacrer du temps à cette documentation pendant la première passe de réponse. A la fin, si vous avez encore du temps, vous pouvez la consulter pour enlever des incertitudes concernant certaines fonctions.
Déroulé du QCM
Vous avez la possibilité de marquer les questions sur lesquelles vous avez des doutes pour y revenir plus tard facilement. En général, vous disposez d’assez de temps pour parcourir l’ensemble des questions en 1h30, ce qui vous laisse 30 minutes pour la vérification.
Il est important de ne pas rester bloqué sur les premières questions, car cela pourrait augmenter votre niveau de stress et vous retarder pour le reste de l’examen. Si le début de l’examen vous semble perturbant, n’hésitez pas à marquer les premières questions et à passer aux suivantes.
S’inscrire rapidement
Un dernier conseil qui me semble essentiel est de vous inscrire rapidement à la certification. Cette décision vous permettra de fixer un objectif clair avec une date limite. En conséquence, vos révisions pour la certification deviendront une priorité jusqu’à la date de l’examen. Le risque, si vous étalez ces préparations sur plusieurs mois, est de ne jamais vous sentir suffisamment prêt pour franchir le pas de l’inscription.
Dès que vous avez décidé d’obtenir une certification (Spark ou n’importe quelle autre), prenez immédiatement rendez-vous pour l’examen. Vous pouvez choisir une date qui vous laisse un délai d’un ou deux mois, pour avoir le temps de vous préparer suffisamment. L’essentiel est que la date soit déjà réservée, pour que vous vous engagiez pleinement à être prêt le jour J pour obtenir votre certification !
J’espère que ce guide sur la certification Spark vous a été utile. N’hésitez pas à me contacter directement ou à laisser un commentaire sous cet article si vous avez des questions complémentaires.
👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.