Big Data : l'analyse de données en masse

Pour faire face à l'explosion du volume des données, un nouveau domaine technologique a vu le jour : le Big Data. Inventées par les géants du web, ces solutions sont dessinées pour offrir un accès en temps réel à des bases de données géantes.

Quelle est la promesse du Big Data ?

Face à l'explosion du volume d'informations, le Big Data vise à proposer une alternative aux solutions traditionnelles de bases de données et d'analyse (serveur SQL, plate-forme de Business Intelligence...). Confrontés très tôt à des problématiques de très gros volumes, les géants du Web, au premier rang desquels Yahoo (mais aussi Google et Facebook), ont été les tous premiers à déployer ce type de technologies. Selon le Gartner, le Big Data (en français "Grandes données") regroupe une famille d'outils qui répondent à une triple problématiques : unVolume de données important à traiter, une grande Variété d'informations (en provenance de plusieurs sources, non-structurées, structurées, Open...), et un certain niveau de Vélocité à atteindre - c'est-à-dire de fréquence de création, collecte et partage de ces données. C'est la règle dite des 3V.

Quelles sont les principales technologies de Big Data ?

Elles sont nombreuses. Pour optimiser les temps de traitement sur des bases de données géantes, plusieurs solutions peuvent entrer en jeu :

Des bases de données NoSQL (comme MongoDB, Cassandra ou Redis) qui implémentent des systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l'analyse de données en masse (orienté clé/valeur, document, colonne ou graphe).

Des infrastructures de serveurs pour distribuer les traitements sur des dizaines, centaines, voire milliers de nœuds. C'est ce qu'on appelle le traitement massivement parallèle. Le framework Hadoop est sans doute le plus connu d'entre eux. Il combine le système de fichiers distribué HDFS, la base NoSQL HBase et l'algorithme MapReduce.
Le stockage des données en mémoire (Memtables) permet d'accélérer les temps de traitement des requêtes.

Article JDN à lire ICI

Que recouvre la notion de Big Data ?

Le Big Data fait référence à l'explosion du volume des données dans l'entreprise et des nouveaux moyens technologiques proposés par les éditeurs, en particulier de laBusiness Intelligence, pour y répondre. Le terme même de Big Data a été évoqué la première fois par le cabinet d'études Gartner en 2008 mais des traces de la genèse de ce terme remontent à 2001 et ont été évoquées par le cabinet Meta Group racheté en 2005 par...le Gartner.

A quels enjeux répondent les solutions de Big Data ?

Les fournisseurs de solutions ont commencé à élaborer leurs offres à la fin des années 2000 et le mouvement s'est accéléré ces derniers temps avec l'arrivée sur ce créneau d'acteurs historiques comme Oracle, IBM et tout récemment Microsoft. En juin 2011, Informatica, acteur dans le domaine de l'intégration de données, a également annoncé son offre.

Les objectifs de ces solutions sont de traiter un volume très important de données aussi bien structurées que non structurées, se trouvant sur des terminaux variés (PC, smartphones, tablettes, objets communicants...), produites ou non en temps réel depuis n'importe quelle zone géographique dans le monde.

Sur quelles technologies reposent les solutions Big Data ?

Pour analyser les hautes et disparates volumétries de données, les solutions peuvent s'appuyer sur trois types de technologies distinctes : une accélération matérielle à l'aide de mémoires dynamiques DRAM ou Flash, le recours à des bases de données massivement parallèles (Massively Parallel Processing) ou encore les solutions utilisant des formats de bases de données non relationnelles basées sur NoSQL.

Quel est l'intérêt de proposer du Big Data basé sur NoSQL ?

L'un des principaux points forts de la base de donnée NoSQL est sa performance. Ce n'est d'ailleurs pas pour rien que des géants du Web comme Facebook, Twitter et ou encore LinkedIn ont choisi de migrer une partir de leurs données dessus. Les atouts de NoSQL sont au moins au nombre de trois : cohérence (visibilité par tous les nœuds d'un système des données identiques à un instant T), haute disponibilité des données même en cas de panne, et possibilité de partitionner tout système distribué.

Quels fournisseurs s'appuient sur NoSQL et Hadoop pour leurs solutions Big Data ?

Les fournisseurs proposant des solutions basées sur ce type de bases de données sont de plus en plus nombreux. Ils y associent également le plus souvent le framework Open Source d'analyse de données en masse Hadoop, comme c'est le cas pour Microsoft et IBM. Mais également Oracle qui de son côté propose une appliance (boîtier) dédiée au Big Data reposant à la fois sur Hadoop mais aussi une version personnalisée de NoSQL. Des pure players se positionnent également sur le terrain du Big Data. C'est le cas de Palantir et ParStream. Des acteurs du cloud y sont aussi présents, en intégrant Hadoop à leur infrastructure (Google, Microsoft Azure et Amazon Web Services par exemple).

Le Big Data fait-il partie des préoccupations centrales des DSI ?

Pour le cabinet d'études Gartner, aucun doute là-dessus. Elle arrive même devant le Cloud Computing et l'analyse en mémoire dans le palmarès des 10 tendances technologiques stratégiques pour l'année 2012. Mais le Big Data se fait tout de même voler la vedette par d'autres problématiques clés dont l'intégration dans le système d'information des tablettes ou encore l'Internet des objets.

PAUL-ANTOINE BISGAMBIGLIA | Mise à jour le 03/02/2014