Exporter la page au format Open Document

Le déluge de données, comment en tirer parti

Séminaire Aristote

Jeudi 9 juin 2011 Amphithéatre Becquerel, Ecole Polytechnique, Palaiseau.

Coordination scientifique: David Menga (EDF R&D), Jean-Michel Batto (INRA), Pierre Léonard (INRA).

Vous pouvez aussi télécharger les actes complets (programme, résumés et présentations).

Introduction

De nos jours, les données sont partout et constituent la matière première de notre monde numérique. Elles redéfinissent la façon dont on crée de la connaissance scientifique et offrent aux entreprises de nouveaux leviers de croissance et plus de performances opérationnelles aux gouvernements.

Décoder le génome signifie analyser 3 milliards de paires de base. Wallmart traite chaque heure 1 million de transactions clients avec une volumétrie totale de 2,5 Petaoctets. Nous vivons « une révolution industrielle » des données et nos outils actuels de stockage et de traitement des données sont inadaptés pour traiter de tels volumes en un temps acceptable.

Ce séminaire a pour objet de donner les clefs de compréhension de cet univers, de mettre en perspective les défis scientifiques et opérationnels et d’offrir des éléments de réponse à travers des travaux scientifiques de pointe et des solutions marché innovantes.

Le matin sera consacré à la définition de la problématique et donnera des réponses. L’après midi, nous aborderons les expériences des acteurs confrontés à ce défi, comme les électriciens, les biologistes et les astrophysiciens.

Programme et présentations

9h00-9h30 Accueil-Café
9h30-9h45 Pierre Léonard, Jean Michel Batto (INRA),
David Menga (EDF R&D)
Présentation du séminaire
9h45-10h30 Xavier Dalloz
(Consulting)
big data le fuel de l'Economie du XXI éme siècle
10h30-11h00 Pause café
11h00-11h45 Vincent Heuschling (D-FI) Cartographie des solutions big data du marché
11h45-12h30 Alexandru Costan (INRIA) Analyse des systèmes de stockage à grande échelle pour les applications de traitement intensif des données
12h30-14h00 Déjeuner (salle Detoeuf)
14h00-14h35 Joerg Bienert (ParStream) An innovation solution to manage heterogeneous big data
14h35-15h10 Ronan Keryell (HPC-Project) Environnement de programmation pour traitements massifs sur architectures modernes
15h10-15h20 Denis Caromel (ActiveEon-INRIA) Solutions ProActive pour Workflows Map/Reduce, Matlab/Scilab, CPU/GPU
15h20-15h45 Nicolas Pons (INRA) La métagénomique, un défi supplémentaire pour la loi de Moore
15h45-16h00 Pause
16h00-16h35 Patrick Furhmann (DESY) dCache : scaling out affordable storage
16h35-17h10 Marie-Luce Picard
(EDF R&D et ENST-Bilab)
Données massives pour les smart-grids
17h10-17h45 David Konopnicki
(IBM-Haïfa Research Labs)
Massive Scale Analytics for a Smarter Planet
17h45-18h00 Conclusions, questions-réponses avec les intervenants

Résumés des exposés

Xavier DALLOZ (Consultant) “Big data, le fuel de l’Economie du XXI éme siècle”

Régulièrement, une innovation majeure change tout avec à chaque fois de nouvelles technologies, de nouveaux métiers et de nouveaux enjeux. Après l’ère des mainframes, l’ère des mini computers, l’ère des PC, l’ère du software pour améliorer la productivité personnelle, l’ère de l’Internet, voici celle du « Big Data ».

Le Big Data va permettre notamment de repenser les modèles économiques en misant sur de nouvelles créations de valeur avec notamment l’intelligence collaborative et la shazamisation de notre environnement de telle sorte qu’il y ait une meilleure efficacité de « notre » capital : santé, énergie, éducation, équipements, stocks… Avec le « Big Data », la chasse aux gaspillages va enfin devenir une réalité. Nous n’avons encore rien vu… Tout va s’accélérer.

Que d’opportunités ! Que de leviers de croissance pour nos économies !

Vincent HEUSCHLING (D-FI) “Cartographie des solutions big data du marché”

Face au déluge de donnée, que nous vivons aujourd'hui, quelles sont les réponses des grands acteurs du marché ? Quels défis présente cette explosion du volume de données pour les infrastructures. Décryptage des offres des grands constructeurs que sont EMC, IBM, Oracle…, et des architectures innovantes du monde opensource.

Joerg BIENERT (ParStream) “An innovative solution for analyzing Big Data in realtime”

Analyzing Big Data is getting more and more important for companies in all industries, e.g. web analytics, fraud detection, smart metering, telco etc. Current established database products are not able and not designed to perform large scale data analytics. New approaches like Map reduce lack important features like short response times. ParStream is a novel inovative database technology focusing on processing large data sets (billions of records) in millisecondes and with low latency. Parstream is a columnar in memory database running on multiprocessor architectures and, as first product, on GPU based HPC-Servers.

Alexandru COSTAN (INRIA) “Analyse des systèmes de stockage à grande échelle pour les applications de traitement intensif des données”

Avec l’augmentation rapide des volumes de données dans de nombreux domaines d'application de la science, de l'ingénierie et des services d'information, les défis posés par les traitements intensifs des données présentent une importance croissante. Avec l'émergence des infrastructures récentes (plates-formes de type Cloud, architectures massivement parallèles pétaflopiques), réaliser une gestion des données capable de passer à l'échelle dévient un enjeu crucial, car les performances globales des applications dépendent des propriétés du service de gestion des données.

Nous définissons un ensemble de principes pour la conception de systèmes de stockage distribués, optimisés pour pouvoir passer à large échelle, tout en permettant autant de manipulations concurrentes des données que possible. Combinés, ces principes peuvent aider les développeurs de systèmes de stockage distribués à répondre aux exigences strictes de gestion de données à grande échelle.

Nous analysons ensuite plusieurs systèmes de stockage représentatifs afin d'évaluer la façon dont ils se conforment à ces principes de conception. Nous nous concentrons sur les systèmes de fichiers spécialisés qui ont été introduits pour cibler spécifiquement les besoins des applications de traitement intensif des données: HDFS, la couche de stockage standard utilisé par Hadoop MapReduce, GPFS proposé par IBM, ainsi que les systèmes de fichiers distribués massivement parallèles, comme Lustre ou PVFS, généralement utilisé pour les clusters de calcul à grande échelle. Avec l'émergence du calcul de type Cloud, des solutions de stockage spécialement conçues pour s'adapter à ce contexte ont été développés: nous présenterons Amazon S3.

Nous détaillons en particulier les avantages potentiellement importants du versionnage pour améliorer les performances d'accès hautement concurrents aux données des applications. Dans ce contexte, nous proposons une interface d'accès basé sur la gestion de versions des données, matérialisée au sein de la plate-forme BlobSeer développée par l’équipe KerData de l’INRIA à Rennes. Cette approche qui permet d'exploiter d’une manière efficace le parallélisme inhérent des flux de données: nous en illustrons utilisation avec une application d’analyse conjointe de données génétiques et de neuro-imagerie.

Ronan KERYELL (HPC Project) “Environnements de programmation pour traitements massifs sur architectures modernes”

L'ubiquité de l'informatique déclenche une avalanche de données à traiter de manière rapide et économique. Malheureusement, pour des raisons physiques, la loi de Moore ne fournit plus de processeurs plus rapides (dissipation thermique, vitesse de la lumière…) mais fournit néanmoins toujours plus de transistors. Le seul moyen d'utiliser ces transistors est d'utiliser du parallélisme massif, mais cela remet en question les architectures et les modes de programmation. Les architectures actuelles (GPU, MP-SoC, Tilera, FPGA…) seront présentées avec leurs avantages et leurs contraintes ainsi que leurs pendants logiciels permettant de lesutiliser au mieux. L'environnement de compilation source à source Par4All de HPC Project est un moyen de s'abstraire de certains détails de programmation.

Denis CAROMEL (INRIA & ActiveEon) “Solutions ProActive pour Workflows Map/Reduce, Matlab/Scilab, CPU/GPU”

ProActive Parallel Suite (http://ProActive.inria.fr) , un projet Open Sourced'OW2, offre une solution flexible pour regrouper des ressources de calcul et offrir aux entreprises un accès simple et unifié à ces ressources par le biais de Portails et d'API. ProActive optimise l'exécution des applications les plus exigeantes, les workflows d'entreprises, les simulations numériques et financières, l'analyse des données (avec un Map/Reduce qui supporte les APIs Hadoop sans nécessiter un cluster dédié). Un mécanisme de sélection de ressources permet de combiner les exécutions sur CPU et GPUs, sur des tâches simples ou au sein même de workflows dynamiques. Des analyses de donnés parallèles sur Cloud peuvent être initiées direcrement sans quitter les environnements Matlab et Scilab. Des benchmarks dans les Biotechs et des démonstrations interactives de Map/Reduce seront présentées sur une plate-forme en production.

Patrick FUHRMANN (DESY-Hamburg) “dCache : scaling out affordable storage.”

The presentation will briefly walk through the various facets of the dCache storage technology and its supporting collaborations. Functional objectives will be discussed, as well as some bits and pieces of the technical implementation. The presenter will touch upon the results of an ongoing detailed evaluation of supported file access protocols at the DESY Grid-Lab facility including a discussing on application level behaviour and pitfalls. Finally the most prominent dCache deployments will be presented and the involvement of dCache in other projects.

Marie-Luce PICARD (EDF-R&D) “Données massives pour les Smart-Grids.”

De nombreux projets smart-grids voient le jour à travers le monde, motivés par des aspects régulatoires, des contraintes économiques ou la prise en compte de besoins environnementaux ou sociaux. Ces projets reposent sur le déploiement de compteurs communicants et la mise en place d’une infrastructure de communication adéquate. Mais il ne s’agit là que de la première étape de la mutation technique et économique du secteur énergétique. Cette vision long terme de la problématique des réseaux intelligents sous-tend une capacité à gérer et traiter de larges volumes de données, provenant en particulier des compteurs intelligents ou encore de différents capteurs sur le réseau. Dans cette perspective, un certain nombre de travaux ont été menés à EDF R&D et seront présentés dans cet exposé, en particulier : le stockage de grandes quantités de séries temporelles, le traitement temps-réel de courbes de charge imparfaites, les perspectives d’évolution des approches de prévision de consommation en présence de données individuelles massives.

Nicolas PONS (INRA) “La métagénomique, un défi supplémentaire pour la loi de Moore”

Depuis le séquençage du premier génome en 1995, la production de données de séquençage d'ADN a révolutionné les possibilités de compréhension du vivant par la biologie moléculaire. Avec l'arrivée des technologies de séquençage à très haut-débit, on assiste aujourd'hui à une explosion des volumes de données avec un doublement des bases de données de séquence tous les 6 mois et une augmentation du débit d'acquisition d'un facteur 1000. Ce déluge de données ouvre de nouvelles perspectives scientifiques notamment dans le domaine de la métagénomique qui vise à caractériser l'ensemble des génomes bactériens d'un écosystème complexe: il est désormais possible de quantifier les génomes, gènes et fonctions de ces écosystèmes. Le traitement de ces “big data” constitue un défi majeur tant en matière d'optimisation des calculs qu'en matière de stockage et de leur mise à disposition aux biologistes. Nous illustrerons ces défis à travers l'exemple des projets MetaHIT et MicroObes qui proposent d'étudier le génome de l'ensemble des bactéries constituant la flore intestinale humaine afin de caractériser ses fonctions et ses implications sur la santé.

David KONOPNICKI (IBM Haïfa-Research) “Massive-scale Analytics for a Smarter Planet ”

Everyday, we create 2.5 quintillion bytes of data–so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: from sensors used to gather climate information, posts to social media sites, digital pictures and videos posted online, transaction records of online purchases, and from cell phone GPS signals to name a few. This data is Big Data. Big Data is more than a challenge; it is an opportunity to find insight in new and emerging types of data and to answer questions that, in the past, were beyond reach. Until now, there was no practical way to harvest this opportunity. Today, IBM’s platform for Big Data opens the door to a world of possibilities, giving organizations a solution that is designed specifically with the needs of the enterprise in mind and provides the infrastructure of a Smarter Planet: intelligence is being infused into the systems and processes that make the world work—into things no one would recognize as computers: cars, appliances, roadways, power grids, clothes, even natural systems such as agriculture and waterways.

public/seminaires/seminaire-2011-06-09.txt · Dernière modification: 2013/02/21 16:57 par aristote
CC Attribution-Noncommercial-Share Alike 3.0 Unported
www.chimeric.de Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0