[FRsAG] Recherche solution de backup adaptée à de fortes volumétries

Fabien Sirjean Wed, 03 Jan 2024 09:43:11 -0800

Bonsoir la liste,

En ce début d'année, je me creuse la cervelle autour des sauvegardes,alors je vous partage mes questionnements :)

Petit topo du contexte : je bosse dans un centre de recherchescientifique, dont les instruments produisent pas mal de données.

Ces données sorties des instruments "raw" sont ensuite traitées ettransformées pour analyse (données "processed"), en vue de publier despapiers de recherche.

Les données raw sont produites pendant des "cycles" de fonctionnement (3à 4 cycles par an) et l'approche est WORM (c'est la valeur produite parl'institut, les données raw sont impossibles à reproduire).

Les données processed sont produites en continu selon l'activité desscientifiques, parfois plusieurs années après la production des donnéesraw associées. Les données processed sont recalculables à partir desdonnées raw, mais ça peut être coûteux (temps et puissance de calcul).

On a actuellement 1.3 PiB de data (raw+processed) sur notre stockageprimaire. Ça tourne sur une infra Ceph en triple réplication,grosso-merdo ça fait 600 disques mécaniques de 20TB.

Évidemment on est sur un scénario loin d'être idéal pour le stockage :on a principalement de très nombreux petits fichiers (<128 KB). Mais ona aussi des fichiers >1TB, sinon c'est pas drôle...

Si vous voulez une idée de la tête de l'arborescence, ça ressemble à ça: https://pastebin.com/vVF31cv4

On aimerait changer de solution de backup pour ces données, au profitd'un truc qui coche au moins plusieurs de ces critères (tous, je sensque ça va être compliqué) :


 * Open Source
 * Pas trop complexe / usine à gaz
 * Scalable (marre de changer tout le matos tous les 4-5 ans parce que
   y'a plus de place...)
 * Qui permette de gérer indépendamment le backup des données "raw" (ça
   bouge pas mais on veut vraiment pas les perdre) des données
   "processed" (ça bouge, on peut se permettre de les perdre, on peut
   réduire la rétention pour les vieux cycles)
 * Qui fasse pas nécessairement tourner des tas de disques en
   permanence (les données raw pourraient très bien être sur de la
   bande magnétique, vu qu'elles ne bougent plus du tout une fois le
   cycle terminé)
 * Qui coûte un prix raisonnable

Jusqu'ici on fait du bacula et du rsync sur ZFS (un serveur avec pleinde baies JBOD en SCSI). Mais c'est plein, et il faut donc faire évoluertout ça.

Le plus simple pour nous serait probablement de continuer avec la mêmesolution sur le plan logiciel, en passant sur un stockage distribuécomme Ceph pour avoir la scalabilité souhaitée.

Mais ça fait la même techno pour le stockage primaire et le backup (pastop), et Ceph n'est pas très efficient (même si on peut faire des chosesen Erasure Coding). De plus, ça ne permet pas d'intégrer des bandesmagnétiques dans l'équation.

Voilà, n'hésitez pas à partager vos avis et expériences. Notamment jen'ai jamais bossé avec de la bande magnétique, je me questionne pas malsur la pertinence et la facilité de gestion.

Si des commerciaux passent par là : vous pouvez me contacter sur monmail pro (sirj...@ill.fr) mais je suis plutôt dans une phaseexploratoire (il y aura de toutes façon un appel d'offres).



Merci pour vos retours, et à bientôt :)

Fabien

_______________________________________________
Liste de diffusion du %(real_name)s
http://www.frsag.org/

[FRsAG] Recherche solution de backup adaptée à de fortes volumétries

Répondre à