Accueil

Vidéo
Cliquez ici

Documents
Article
Diapositives


JRES 2013

Déploiement d’une architecture Hadoop pour analyse de flux

Auteur : François-Xavier ANDREU
131 : Déploiement d’une architecture Hadoop pour analyse de flux
Le GIP RENATER exploite les exports de flux NetFlow générés par les équipements de niveau 3 du « backbone » RENATER. Cette information permet de calculer la consommation des utilisateurs mais aussi de voir les incidents de sécurité et de les analyser. Jusqu’en 2012 ces deux traitements étaient réalisés en temps réel par un collecteur NetFlow qui ne conservait aucune donnée brute. Le besoin de pouvoir travailler sur un historique des flux nous a amené -après une étude des produits libres et commerciaux- à déployer une architecture HADOOP (framework pour le BIGDATA) afin de garder une trace des flux et de les analyser à posteriori.
Hadoop est une plate-forme libre de la fondation Apache conçue pour réaliser des traitements sur des volumes de données massifs (dans notre cas environ 150Go par jour). Il s’appuie sur son propre système de fichier : HDFS (Hadoop Distributed File System) et sur des outils d’analyse et de stockage de données. L’architecture logicielle à mettre en place est très simple, mais nous nous sommes vite aperçu que l’optimisation de la plate-forme était primordiale (utilisation des disques et/ou de la mémoire, nombre de jobs à paramétrer, réplication des données, spéculation…). Toutefois, l’installation et l’utilisation de Hadoop sont très simples. Les applications utilisatrices peuvent être réalisées en Java, en C ou en Python et le parcours des données est caché à l’utilisateur. Dans notre cas l’architecture retenue privilégie la recherche rapide sur les dernières 24 heures mais un traitement d’agrégation en continu est mis en place pour la détection d’anomalies.

Vidéo

Documents

Article

1,2Mo