[China, Shenzhen, 14. Juli 2023] Huawei stellte heute seine neue KI-Speicherlösung für das Zeitalter der Großmodelle vor und bietet somit optimale Speicherlösungen für grundlegendes Modelltraining, branchenspezifisches Modelltraining und Inferenz in segmentierten Szenarien neue KI-Funktionen freisetzen.
Bei der Entwicklung und Implementierung groß angelegter Modellanwendungen stehen Unternehmen vor vier großen Herausforderungen:
Erstens ist die für die Datenvorbereitung erforderliche Zeit lang, die Datenquellen sind verstreut und die Aggregation ist langsam, sodass die Vorverarbeitung von Hunderten Terabytes an Daten etwa 10 Tage dauert. Zweitens beträgt die aktuelle Ladegeschwindigkeit für große kleine Dateien bei multimodalen großen Modellen mit umfangreichen Text- und Bilddatensätzen weniger als 100 MB/s, was zu einer geringen Effizienz beim Laden von Trainingssätzen führt. Drittens führen häufige Parameteranpassungen bei großen Modellen zusammen mit instabilen Trainingsplattformen etwa alle zwei Tage zu Trainingsunterbrechungen, sodass der Checkpoint-Mechanismus das Training wieder aufnehmen muss, wobei die Erholung über einen Tag dauert. Schließlich gibt es hohe Implementierungsschwellenwerte für große Modelle, komplexe Systemeinstellungen, Herausforderungen bei der Ressourcenplanung und eine GPU-Ressourcenauslastung, die häufig unter 40 % liegt.
Huawei folgt dem Trend der KI-Entwicklung im Zeitalter der Großmodelle und bietet Lösungen, die auf verschiedene Branchen und Szenarien zugeschnitten sind. Es stellt den OceanStor A310 Deep Learning Data Lake Storage und die FusionCube A3000 Training/Inference Super-Converged Appliance vor. OceanStor A310 Deep Learning Data Lake Storage zielt sowohl auf grundlegende als auch auf branchenspezifische Data-Lake-Szenarien mit großen Modellen ab und ermöglicht ein umfassendes KI-Datenmanagement von der Datenaggregation über die Vorverarbeitung bis hin zum Modelltraining und Inferenzanwendungen. Der OceanStor A310 in einem einzigen 5U-Rack unterstützt eine branchenführende Bandbreite von 400 GB/s und bis zu 12 Millionen IOPS mit linearer Skalierbarkeit auf bis zu 4096 Knoten und ermöglicht so eine nahtlose protokollübergreifende Kommunikation. Das Global File System (GFS) erleichtert die intelligente Datenverflechtung über Regionen hinweg und rationalisiert Datenaggregationsprozesse. Near-Storage-Computing ermöglicht eine datennahe Vorverarbeitung, reduziert die Datenbewegung und verbessert die Vorverarbeitungseffizienz um 30 %.
Das FusionCube A3000 Training/Inference Super-Converged Appliance wurde für branchenübliche Trainings-/Inferenzszenarien für große Modelle entwickelt und eignet sich für Anwendungen mit Modellen mit Milliarden von Parametern. Es integriert OceanStor A300-Hochleistungsspeicherknoten, Trainings-/Inferenzknoten, Schaltgeräte, KI-Plattformsoftware sowie Verwaltungs- und Betriebssoftware und bietet großen Modellpartnern ein Plug-and-Play-Bereitstellungserlebnis für eine Lieferung aus einer Hand. Es ist einsatzbereit und kann innerhalb von 2 Stunden bereitgestellt werden. Sowohl Trainings-/Inferenz- als auch Speicherknoten können unabhängig voneinander und horizontal erweitert werden, um verschiedenen Anforderungen im Modellmaßstab gerecht zu werden. Inzwischen nutzt FusionCube A3000 Hochleistungscontainer, um mehrere Modelltrainings- und Inferenzaufgaben zur gemeinsamen Nutzung von GPUs zu ermöglichen und so die Ressourcenauslastung von 40 % auf über 70 % zu erhöhen. FusionCube A3000 unterstützt zwei flexible Geschäftsmodelle: Huawei Ascend One-Stop Solution und die One-Stop-Lösung von Drittanbietern mit offener Computer-, Netzwerk- und KI-Plattformsoftware.
Zhou Yuefeng, Präsident der Produktlinie Datenspeicherung bei Huawei, erklärte: „Im Zeitalter der Großmodelle bestimmen Daten die Höhe der KI-Intelligenz.“ Als Datenträger wird die Datenspeicherung zur wichtigsten Grundinfrastruktur für KI-Großmodelle. Huawei Data Storage wird weiterhin Innovationen vorantreiben, vielfältige Lösungen und Produkte für das Zeitalter der KI-Großmodelle bereitstellen und mit Partnern zusammenarbeiten, um die KI-Befähigung in einer Vielzahl von Branchen voranzutreiben.“
Zeitpunkt der Veröffentlichung: 01.08.2023