Bonsoir, Tu devrais te rapprocher de OVH qui a fait le choix, cette année, de réintégrer un système moderne de stockage sur bandes magnétiques pour proposer du backup à froid, pas cher et distribué. Ils semblent avoir des temps d'accès à la donnée sous la minute, puis des temps de lecture de dingo, le tout répliqué/distribué sur plusieurs sites. Ca vaut le coup de les interroger.
Bien à toi, Théo > Le 3 janv. 2024 à 18:42, Fabien Sirjean <fsirj...@eddie.fdn.fr> a écrit : > > Bonsoir la liste, > > En ce début d'année, je me creuse la cervelle autour des sauvegardes, alors > je vous partage mes questionnements :) > > > > Petit topo du contexte : je bosse dans un centre de recherche scientifique, > dont les instruments produisent pas mal de données. > > Ces données sorties des instruments "raw" sont ensuite traitées et > transformées pour analyse (données "processed"), en vue de publier des > papiers de recherche. > > Les données raw sont produites pendant des "cycles" de fonctionnement (3 à 4 > cycles par an) et l'approche est WORM (c'est la valeur produite par > l'institut, les données raw sont impossibles à reproduire). > > Les données processed sont produites en continu selon l'activité des > scientifiques, parfois plusieurs années après la production des données raw > associées. Les données processed sont recalculables à partir des données raw, > mais ça peut être coûteux (temps et puissance de calcul). > > On a actuellement 1.3 PiB de data (raw+processed) sur notre stockage > primaire. Ça tourne sur une infra Ceph en triple réplication, grosso-merdo ça > fait 600 disques mécaniques de 20TB. > > Évidemment on est sur un scénario loin d'être idéal pour le stockage : on a > principalement de très nombreux petits fichiers (<128 KB). Mais on a aussi > des fichiers >1TB, sinon c'est pas drôle... > > Si vous voulez une idée de la tête de l'arborescence, ça ressemble à ça : > https://pastebin.com/vVF31cv4 > > > > On aimerait changer de solution de backup pour ces données, au profit d'un > truc qui coche au moins plusieurs de ces critères (tous, je sens que ça va > être compliqué) : > > Open Source > Pas trop complexe / usine à gaz > Scalable (marre de changer tout le matos tous les 4-5 ans parce que y'a plus > de place...) > Qui permette de gérer indépendamment le backup des données "raw" (ça bouge > pas mais on veut vraiment pas les perdre) des données "processed" (ça bouge, > on peut se permettre de les perdre, on peut réduire la rétention pour les > vieux cycles) > Qui fasse pas nécessairement tourner des tas de disques en permanence (les > données raw pourraient très bien être sur de la bande magnétique, vu qu'elles > ne bougent plus du tout une fois le cycle terminé) > Qui coûte un prix raisonnable > > > Jusqu'ici on fait du bacula et du rsync sur ZFS (un serveur avec plein de > baies JBOD en SCSI). Mais c'est plein, et il faut donc faire évoluer tout ça. > > Le plus simple pour nous serait probablement de continuer avec la même > solution sur le plan logiciel, en passant sur un stockage distribué comme > Ceph pour avoir la scalabilité souhaitée. > > Mais ça fait la même techno pour le stockage primaire et le backup (pas top), > et Ceph n'est pas très efficient (même si on peut faire des choses en Erasure > Coding). De plus, ça ne permet pas d'intégrer des bandes magnétiques dans > l'équation. > > > > Voilà, n'hésitez pas à partager vos avis et expériences. Notamment je n'ai > jamais bossé avec de la bande magnétique, je me questionne pas mal sur la > pertinence et la facilité de gestion. > > Si des commerciaux passent par là : vous pouvez me contacter sur mon mail pro > (sirj...@ill.fr <mailto:sirj...@ill.fr>) mais je suis plutôt dans une phase > exploratoire (il y aura de toutes façon un appel d'offres). > > > > Merci pour vos retours, et à bientôt :) > > Fabien > > _______________________________________________ > Liste de diffusion du %(real_name)s > http://www.frsag.org/
_______________________________________________ Liste de diffusion du %(real_name)s http://www.frsag.org/