Es heißt, dass Technologieunternehmen entweder auf der Suche nach GPUs sind oder auf dem Weg sind, diese zu erwerben. Im April kaufte Elon Musk, CEO von Tesla, 10.000 GPUs und erklärte, dass das Unternehmen weiterhin eine große Menge GPUs von NVIDIA kaufen werde. Auch auf Unternehmensseite drängen die IT-Mitarbeiter intensiv darauf, sicherzustellen, dass GPUs kontinuierlich genutzt werden, um den Return on Investment zu maximieren. Einige Unternehmen stellen jedoch möglicherweise fest, dass mit zunehmender Anzahl an GPUs auch der GPU-Leerlauf schwerwiegender wird.
Wenn uns die Geschichte etwas über Hochleistungsrechnen (HPC) gelehrt hat, dann ist es, dass Speicher und Netzwerke nicht auf Kosten einer zu starken Konzentration auf die Berechnung geopfert werden sollten. Wenn der Speicher Daten nicht effizient an die Recheneinheiten übertragen kann, erreichen Sie selbst mit den meisten GPUs der Welt keine optimale Effizienz.
Laut Mike Matchett, Analyst bei Small World Big Data, können kleinere Modelle im Speicher (RAM) ausgeführt werden, was eine stärkere Fokussierung auf die Berechnung ermöglicht. Größere Modelle wie ChatGPT mit Milliarden von Knoten können jedoch aufgrund der hohen Kosten nicht im Speicher gespeichert werden.
„Man kann nicht Milliarden von Knoten in den Speicher unterbringen, daher wird Speicher noch wichtiger“, sagt Matchett. Leider wird die Datenspeicherung im Planungsprozess oft vernachlässigt.
Im Allgemeinen gibt es unabhängig vom Anwendungsfall vier gemeinsame Punkte im Modelltrainingsprozess:
1. Modellschulung
2. Inferenzanwendung
3. Datenspeicherung
4. Beschleunigtes Rechnen
Beim Erstellen und Bereitstellen von Modellen priorisieren die meisten Anforderungen einen schnellen Proof-of-Concept (POC) oder Testumgebungen, um das Modelltraining zu initiieren, wobei Datenspeicherungsanforderungen nicht im Vordergrund stehen.
Die Herausforderung liegt jedoch darin, dass die Schulung oder Inferenzbereitstellung Monate oder sogar Jahre dauern kann. Viele Unternehmen vergrößern in dieser Zeit schnell die Größe ihrer Modelle und die Infrastruktur muss erweitert werden, um den wachsenden Modellen und Datensätzen gerecht zu werden.
Untersuchungen von Google zu Millionen von ML-Trainings-Workloads zeigen, dass durchschnittlich 30 % der Trainingszeit für die Eingabedaten-Pipeline aufgewendet werden. Während sich die Forschung in der Vergangenheit auf die Optimierung von GPUs konzentrierte, um das Training zu beschleunigen, bleiben bei der Optimierung verschiedener Teile der Datenpipeline noch viele Herausforderungen bestehen. Wenn Sie über eine beträchtliche Rechenleistung verfügen, besteht der eigentliche Engpass darin, wie schnell Sie Daten in die Berechnungen einspeisen können, um Ergebnisse zu erhalten.
Insbesondere die Herausforderungen bei der Datenspeicherung und -verwaltung erfordern eine Planung des Datenwachstums, die es Ihnen ermöglicht, im Laufe Ihres Fortschritts kontinuierlich den Wert der Daten zu extrahieren, insbesondere wenn Sie sich in fortgeschrittenere Anwendungsfälle wie Deep Learning und neuronale Netze wagen, die höhere Anforderungen stellen Speicher hinsichtlich Kapazität, Leistung und Skalierbarkeit.
Insbesondere:
Skalierbarkeit
Maschinelles Lernen erfordert den Umgang mit riesigen Datenmengen, und mit zunehmender Datenmenge verbessert sich auch die Genauigkeit der Modelle. Das bedeutet, dass Unternehmen jeden Tag mehr Daten sammeln und speichern müssen. Wenn der Speicher nicht skaliert werden kann, kommt es bei datenintensiven Arbeitslasten zu Engpässen, die die Leistung einschränken und zu kostspieligen GPU-Leerlaufzeiten führen.
Flexibilität
Eine flexible Unterstützung mehrerer Protokolle (einschließlich NFS, SMB, HTTP, FTP, HDFS und S3) ist erforderlich, um den Anforderungen verschiedener Systeme gerecht zu werden, und nicht auf eine einzige Art von Umgebung beschränkt zu sein.
Latenz
Die E/A-Latenz ist für die Erstellung und Verwendung von Modellen von entscheidender Bedeutung, da Daten mehrmals gelesen und erneut gelesen werden. Durch die Reduzierung der E/A-Latenz kann die Trainingszeit von Modellen um Tage oder Monate verkürzt werden. Eine schnellere Modellentwicklung führt direkt zu größeren Geschäftsvorteilen.
Durchsatz
Der Durchsatz von Speichersystemen ist entscheidend für ein effizientes Modelltraining. Bei Trainingsprozessen fallen große Datenmengen an, typischerweise im Terabyte-Bereich pro Stunde.
Paralleler Zugriff
Um einen hohen Durchsatz zu erreichen, teilen Trainingsmodelle Aktivitäten in mehrere parallele Aufgaben auf. Dies bedeutet häufig, dass Algorithmen für maschinelles Lernen gleichzeitig von mehreren Prozessen (möglicherweise auf mehreren physischen Servern) auf dieselben Dateien zugreifen. Das Speichersystem muss gleichzeitige Anforderungen bewältigen, ohne die Leistung zu beeinträchtigen.
Mit seinen herausragenden Fähigkeiten in Bezug auf niedrige Latenz, hohen Durchsatz und umfangreiche parallele E/A ist Dell PowerScale eine ideale Speicherergänzung für GPU-beschleunigtes Computing. PowerScale reduziert effektiv den Zeitaufwand für Analysemodelle, die Multi-Terabyte-Datensätze trainieren und testen. Im PowerScale-All-Flash-Speicher erhöht sich die Bandbreite um das 18-fache, wodurch E/A-Engpässe vermieden werden, und kann zu vorhandenen Isilon-Clustern hinzugefügt werden, um große Mengen unstrukturierter Daten zu beschleunigen und den Wert zu erschließen.
Darüber hinaus bieten die Multiprotokoll-Zugriffsfunktionen von PowerScale unbegrenzte Flexibilität für die Ausführung von Workloads, sodass Daten über ein Protokoll gespeichert und über ein anderes abgerufen werden können. Insbesondere helfen die leistungsstarken Funktionen, die Flexibilität, die Skalierbarkeit und die Funktionalität der PowerScale-Plattform für Unternehmen, die folgenden Herausforderungen zu bewältigen:
- Beschleunigen Sie Innovationen um das bis zu 2,7-fache und verkürzen Sie so den Modelltrainingszyklus.
- Beseitigen Sie E/A-Engpässe und sorgen Sie für schnelleres Modelltraining und -validierung, verbesserte Modellgenauigkeit, höhere Produktivität in der Datenwissenschaft und maximierten Return on Computing-Investitionen durch die Nutzung von Funktionen der Enterprise-Klasse, hoher Leistung, Parallelität und Skalierbarkeit. Verbessern Sie die Modellgenauigkeit mit tieferen Datensätzen mit höherer Auflösung, indem Sie bis zu 119 PB effektive Speicherkapazität in einem einzigen Cluster nutzen.
- Erzielen Sie eine skalierbare Bereitstellung, indem Sie klein anfangen und Rechenleistung und Speicher unabhängig skalieren und robuste Datenschutz- und Sicherheitsoptionen bereitstellen.
- Verbessern Sie die Produktivität der Datenwissenschaft mit In-Place-Analysen und vorab validierten Lösungen für schnellere und risikoarme Bereitstellungen.
- Nutzung bewährter Designs, die auf erstklassigen Technologien basieren, einschließlich NVIDIA GPU-Beschleunigung und Referenzarchitekturen mit NVIDIA DGX-Systemen. Die hohe Leistung und Parallelität von PowerScale erfüllen die Speicherleistungsanforderungen in jeder Phase des maschinellen Lernens, von der Datenerfassung und -aufbereitung bis hin zum Modelltraining und der Inferenz. Zusammen mit dem OneFS-Betriebssystem können alle Knoten nahtlos innerhalb desselben OneFS-gesteuerten Clusters betrieben werden, mit Funktionen auf Unternehmensebene wie Leistungsmanagement, Datenmanagement, Sicherheit und Datenschutz, was einen schnelleren Abschluss der Modellschulung und -validierung für Unternehmen ermöglicht.
Zeitpunkt der Veröffentlichung: 03.07.2023