DataCore SANsymphony-V 10 – possible data corruption

DataCore meldet ein mögliches Treiber-Problem mit dem erst kürzlich veröffentlichten SANsymphony-V 10. Ein entsprechender Customer Alert würde heute versendet:

Potential for Data Corruption – Hotfix Available
In SANsymphony-V 10.0.0.0 we changed the way we work in order to support VMware Thin Provisioning Thresholds. In doing so, we have seen that there is now the potential for a timing issue to take place that can cause data corruption. In order to protect against the possibility of corrupting data, we have redesigned and tested a new driver. The revised driver will be included in SANsymphony-V 10.0 Update1, which we are hopeful will be released in early September, and we suggest holding back any upgrades to SSV10 until that update is available. If you already have customers running SSV 10.0 there is a Hotfix we can provide to protect against this until Update1 is released. Please open an incident and contact support requesting this hotfix for those customers, and when Update1 is released please upgrade as soon as possible after its release.

Es wird nicht genau erklärt, welcher Treiber problematisch ist und unter welchen Umständen. Die Haupaussage ist jedoch, man solle mit der Migration auf SSY10 abwarten bis das Update 1 veröffentlicht wurde. Interne Quellen hatten dies für Oktober 2014 angekündigt, möglicherweise wurde es jetzt aufgrund der Wichtigkeit auf September vorgezogen.

Ich konnte bis jetzt in der Testumgebung mit VMware und SSY10 keine negativen Auswirkungen sehen, obwohl diese unter Last arbeitet. Dennoch hat sich die Zurückhaltung bei der Migration von produktiven DataCore Umgebungen auf neue Hauptversionen wieder einmal bestätigt. Im Labor immer die neuste Version – beim Kunden das erste Update abwarten. 😉

Datacore SANsymphony-V 10: Purge Disk und gezielte Wiederherstellung

Eine der neuen Funktionen von SANsymphony-V 10 ist die gezielte Wiederherstellung (targeted recovery) von Storage-Allocation-Units (SAU) einer defekten Disk. Mit Hilfe des neuen Purge-Wizards können gezielt die fehlenden SAUs vom Spiegelserver kopiert werden, ohne ein Full Recovery des gesamten Storage Pools zu fahren.

Ich werde hier kurz demonstrieren wie dies in der Praxis abläuft.

Das Szenario

  • 2 Datacore Server mit lokalen Disks
  • 1 SSD mit 256 GB (Tier 1)
  • 2 SAS mit je 146 GB (Tier 2)
  • 2 SATA mit je 1 TB (Tier 3)
  • Auto Tiering mit 10 % reserved space pro Tier
  • 1 vDisk (mirrored), präsentiert an 2 ESX Server

vorher

Die Top Tiers sind zu 90% gefüllt (10% reserviert).

SSY10_smartRec01Action !

Die Platte SAS_2 wird per Hot-Unplug 😉 hart entfernt. Augenblicklich geht der Diskpool in den Fehlermodus. Die Physical Disk wird mit einem Fehlersymbol markiert.

SSY10_smartRec02Sobald eine Disk als ausgefallen gemeldet ist, kann der Purge Assistent im Kontextmenü aktiviert werden. Unter normalen Umständen ist dieser nicht wählbar. Es folgt eine Vorprüfung der Voraussetzungen zum Purge. In der Regel kann der Assistent mit ‘Next’ fortgesetzt werden.

Nach Abschluss des Purge Assistenten wird die fehlende (defekte) Disk nicht mehr angezeigt und die verbleibenden Disks im Pool erscheinen wieder. Der Kopiervorgang beginnt.

SSY10_smartRec03 Man erkennt im folgenden Bild deutlich, dass die wiederhergestellten SAUs zunächst auf den reservierten Bereichen der Top Tiers abgelegt werden – beginnend mit Tier 1, dann Tier 2 usw.

Ein Grund mehr für die neue Tier Reservierung. Denn würde man SAUs zunächst auf einem niederen Tier ablegen, könnte dies den Recovery Vorgang unnötig bremsen.

Wieder aktiv

SSY10_smartRec04Der Vorgang ist abgeschlossen. Alle Reservierungen sind ausgeschöpft, so dass die restlichen SAUs nun auf SATA (Tier3) abgelegt wurden.

SSY10_smartRec05In der Folge werden die Reservierungen wieder befreit, so dass noch mehr kalte SAUs auf den SATA Speicher wandern (nicht dargestellt). Der Diskpool ist wieder zu 100% funktionsfähig. Dazu mussten nur 136 GB vom Spieglserver geladen werden. Über die 1 Gbit Mirrorleitung der Demo-Umgebung war dies in weniger als einer halben Stunde erledigt.

Willkommen zurück

Die zuvor entfernte Disk SAS_2 wurde dem System wieder zurückgegeben. Da die darauf ligenden Daten inzwischen wertlos sind, muss das Volume im Datenträger-Manager gelöscht werden. Datacore erhält somit eine “neue” leere Disk. Im Bild unten befindet sie sich im Status Reclaimation. Man erkennt auch, dass inzwischen ein Teil der Reservierung auf der SSD befreit wurde.

SSY10_smartRec06Am Ende der Prozedur sind wieder alle Reservierungen frei und SAUs wurden von Tier 3 (SATA) auf den freien Raum auf Tier 2 (SAS_2) verschoben.

SSY10_smartRec07Die Verteilung ist sehr Ähnlich zur Anfangssituation vor dem provozierten Plattencrash.

 

Datacore SANsymphony-V 10 Neuheiten im Detail

Kurz nach dem Erscheinungdatum berichtete ich im Artikel Datacore SANsymphony-V 10 Release über die neuen Features von Datacore SANsymphony-V Version 10. Dabei handelte es sich jedoch nur um die Wiedergabe der Release-Notes. Ich möchte nun näher auf die neuen Funktionen eingehen und diese etwas näher beleuchten.

  • Virtual SAN
  • Smart Deployment
  • Auto Optimierung
  • Leistungsanalyse
  • High Performance Networking

„Datacore SANsymphony-V 10 Neuheiten im Detail“ weiterlesen