Wenn eine Forschungseinrichtung wie das Max-Planck-Institut in den Tiefen der Galaxien nach neuen Erkenntnissen sucht, werden große Datenmengen erzeugt, die oftmals über viele Jahre hinweg erhoben werden. Das Datenarchiv muss dementsprechend langlebig sein und mit den steigenden Ansprüchen der Forscher mitwachsen können.
Die Forschungsgruppe für Radioastronomische Fundamentalphysik des Max-Planck-Institut beschäftigt sich mit der kosmischen Radiostrahlung und untersucht Pulsare, um die magnetischen Kräfte der Milchstraße zu studieren. Die Beobachtungen erlauben unter anderem Tests der Allgemeinen Relativitätstheorie und alternativer Gravitationstheorien.
Die Daten hierfür stammen von dem Radioteleskop Effelsberg, das bei einer Messung in nur 30 Minuten über 100 Gigabyte an Daten erzeugt. Monatlich werden rund 18 Terabyte (TiB) an Messdaten zur Berechnung und Analyse gespeichert. Die Auswertung der Daten dauert ungleich länger.
Die Forscher sind darauf angewiesen, dass die Daten viele Jahre hinweg gespeichert sind und ein ungehinderter Zugriff jederzeit möglich ist. Realisiert hat das Max-Planck-Institut die Speicherung dieser großen Datenmengen mit dem Grau Data ArchiveManager, einer HSM- und Archiv-Software, die mehrere Petabyte an Daten sehr effizient verwalten kann.
Der Fortschritt hat seine Wurzeln im Langzeitarchiv
Das Max-Planck-Institut ist führend in der radioastronomischen Fundamentalphysik, und die Mitarbeiter in den Forschungsgruppen messen und analysieren enorm große Datenmengen. Gesetzlich ist das Institut zwar für eine Datenhaltung von zehn Jahren verpflichtet, doch die Forschungsdaten müssen wesentlich länger vorgehalten werden.
Ständig werden neue Algorithmen entwickelt, für die auch alte Datenbestände in die Berechnungen einbezogen werden. Alle über die Radioteleskope erlangten Daten auf Festplatten, also auf Online-Speicher vorzuhalten, würde die Budgets des Instituts bei weitem sprengen. Hinzu kommt, dass die Daten nicht ständig benutzt werden und oftmals längere Zeit inaktiv auf den Speichereinheiten verbleiben. Die Lösung war ein hierarchisches Speichermanagement-Konzept auf Basis der Grau HSM & Archivierungssoftware mit LTO Magnetbändern als Langzeitarchivierungsmedium.
Test, Anpassung und Produktionssystem des ArchiveManagers
Im August 2011 startete das Max-Planck-Institut gemeinsam mit GRAU DATA das Projekt mit der HSM- und Archivierungssoftware ArchiveManager. Im ersten Schritt wurde die Software auf Wunsch des Max-Planck-Instituts in kurzer Zeit auf das Betriebssystem Debian/GNU Linux portiert. Bereits im Oktober wurden die Tests erfolgreich abgeschlossen, und im November wurde die Gesamtlösung produktiv in Betrieb genommen
Die astronomischen Messdaten vom Radioteleskop Effelsberg werden im ersten Schritt im 8-Gbit-FC-SAN auf einem 120-TByte-Platten-Online-Speicher gepuffert. Server-seitig stehen leistungsfähige Fujitsu-Primergy-RX-300-S6-Systeme zur Verfügung, welche die Daten mit Hilfe des Grau Data ArchiveManagers auf die Spectralogic LTO-5 Tape Libraries in Effelsberg und Bonn redundant verlagern.
Pro Library verwaltet die Archivsoftware heute rund 350 Bänder mit je 1,5 Terabyte (TiB) Fassungsvermögen, und die Datenbestände wachsen schnell. Insgesamt ist der Datenbestand bis Mai 2012 schon auf 525 Terabyte angewachsen; das Gesamtsystem kann nach dem derzeitigen Stand jedoch ohne größere Eingriffe bis auf 3,5 Petabyte erweitert werden.
Quelle: