Neues zu unserem Plattformbetrieb
In diesem Jahr haben wir bisher 21 Releases auf unserer Plattform veröffentlicht. Neben den vielen technischen Details möchten wir einige Veränderungen besonders hervorheben.
Seit einiger Zeit aktualisieren wir unsere Plattform synchron mit den halbjährlichen NixOS-Releases, um neben aktuellen Komponenten und Libraries auch Sicherheits-Updates noch zügiger anzubieten. Im März dieses Jahres haben wir – etwas verspätet – NixOS 22.11 für den Produktivbetrieb freigegeben, dafür aber Anfang Juni bereits NixOS 23.05 bereitgestellt, welches inzwischen bei etwa 60 % aller von uns betreuten Maschinen läuft.
Das neueste Upgrade war diesmal davon geprägt, veraltete, unsichere Passwort-Hash-Funktionen, die in NixOS inzwischen vollständig deaktiviert worden sind, für langlebige Systeme (z. B. Mailservern, in denen ein Erneuern der Hashes nicht vorgesehen ist) wieder in Abstimmung mit der Upstream-Community punktuell zu reaktivieren.
Gleichzeitig haben wir unsere Arbeit an der Upstream-Distribution intensiviert und werden in Zukunft viele Features direkt in Zusammenarbeit mit der NixOS-Community entwickeln und darauf hinarbeiten, dass Upgrades noch einfacher werden.
In letzter Zeit gab es eine ganze Reihe an CPU-Sicherheitslücken, sowohl bei AMD als auch Intel, die wir jeweils zeitnah und transparent im laufenden Betrieb durch Updates beheben konnten.
Im Bereich Storage haben wir in diesem Jahr unseren Cluster aufgrund neuer Projekte auf 1.5 Petabyte-Kapazität ausgebaut und verfolgen ab nun einen reinen NVMe-Ansatz. Aus Gründen der Nachhaltigkeit und Wirtschaftlichkeit bleiben laufende SSDs in ihrem Lebenszyklus noch im Cluster. Von alten HDDs verabschieden wir uns derzeit für den VM-Betrieb und den Object-Storage vollständig. Der Object-Storage unterläuft gerade eine Migration und wird in den kommenden Wochen dann als Erster vollständig auf NVMe-Speichermedien leben.
Um Denial-of-Service-Probleme mit SSH-Verbindungen zu vermeiden, die sich durch eine wachsende Anzahl von Attacken gehäuft haben, haben wir alle VMs auf unserer Plattform ab Version 22.11 mit „fail2ban“ ausgestattet, um Angreifer*innen automatisch zu blockieren.
Die automatische Planung unserer Wartungsfenster haben wir umfangreich verbessert: Wartungsfenster werden optimiert genutzt, um Wartungsarbeiten in komplexeren Clustern (Kubernetes, Slurm) oder auch anwendungsspezifisch über mehrere Knoten sauber zu koordinieren.