Tutel von Microsoft verbessert das Training von KI-Modellen

0
18
Tutel von Microsoft verbessert das Training von KI-Modellen

Hören Sie auf dem Future of Work Summit am 12. Januar 2022 von CEOs, CEOs und anderen Top-Führungskräften auf C-Ebene und Chief Data Officers sowie KI-Strategien. erfahren Sie mehr


lassen Sie die OSS Enterprise . Newsletter dich führen Offen Quelle eine Reise! Hier registrieren.

Diese Woche kündigte Microsoft Tutel an, eine Bibliothek zur Unterstützung der Entwicklung eines Mix Model of Expert (MoE) – einer speziellen Art von groß angelegtem KI-Modell. Eine Erklärung von Microsoft machte deutlich, dass Tutel, ein Open-Source-Programm, das in Fairseq, eines der Tools von Facebook bei PyTorch, integriert ist, Entwicklern aller KI-Disziplinen ermöglichen soll, „die MOE-Implementierung einfacher und effizienter zu machen“.

MOE besteht aus kleinen Gruppen von “Neuronen”, die nur unter besonderen, spezifischen Bedingungen aktiv sind. Untere “Schichten” der Merkmale der MOE-Modellzusammenfassung Experten sind eingeladen, diese Merkmale zu bewerten. MoEs können beispielsweise verwendet werden, um ein Übersetzungssystem zu erstellen, wobei jede Expertengruppe lernt, mit einer separaten Wortart oder einer speziellen Grammatikregel umzugehen.

Im Vergleich zu anderen typischen Architekturen haben MoEs offensichtliche Vorteile. Sie können durch Spezialisierung auf Bedingungen reagieren, wodurch das Modell eine größere Bandbreite an Verhaltensweisen zeigen kann. Experten können eine Mischung von Daten empfangen, und wenn das Modell läuft, sind nur wenige Experten aktiv – selbst ein riesiges Modell benötigt nur eine winzige Menge an Rechenleistung.

Tatsächlich ist MoE eine der wenigen Methoden, bei denen nachgewiesen wurde, dass sie über eine Billion Parameter skalieren und den Weg für Modelle ebnen, die unter anderem Computer Vision, Spracherkennung, Verarbeitung natürlicher Sprache und maschinelle Übersetzungssysteme verbessern können. Beim maschinellen Lernen sind Parameter Teil des Modells, das aus historischen Trainingsdaten gelernt wird. Im Allgemeinen, insbesondere auf dem Gebiet der Sprache, hat sich die Beziehung zwischen Parameterzahl und Evolution gut bewährt.

Tutel konzentriert sich hauptsächlich auf Kontoverbesserungen für das Bildungsministerium. Insbesondere ist die Bibliothek für Instanzen der neuen Azure NDm A100 v4-Serie von Microsoft optimiert, die eine Gleitskalierung für Nvidia A100 GPUs bietet. Laut Microsoft hat Tutel eine “kurze” Schnittstelle, die die Integration in andere MOE-Lösungen erleichtern soll. Alternativ können Entwickler die Tutel-Schnittstelle verwenden, um unabhängige MoE-Schichten von Grund auf in ihre DNN-Modelle zu integrieren.

Oben: Für eine einzelne MoE-Schicht erreicht Tutel eine 8,49-fache Beschleunigung auf einem NDm A100 v4-Knoten mit 8 GPUs und eine 2,75-fache Beschleunigung auf einem 64-Knoten-NDm A100 v4 mit 512 A100-GPUs, behauptet Microsoft.

„Wegen des Fehlens effizienter Implementierungen verlassen sich MOE-basierte Modelle auf eine naive Kombination mehrerer Standardoperatoren, die von Deep-Learning-Frameworks wie PyTorch und TensorFlow bereitgestellt werden, um ein MoE-Konto zu konfigurieren“, schrieb Microsoft in einem Blogbeitrag. (Betreiber stellen ein Modell mit einem bekannten Datensatz bereit, der gewünschte Eingaben und Ausgaben enthält.) “Tutel entwirft und implementiert mehrere hochoptimierte GPU-Kerne, um Betreibern MOE-spezifische Berechnungen zu ermöglichen.”

Tutel ist als Open Source auf Github verfügbar. Laut Microsoft wird das Tutel-Entwicklungsteam “aktiv daran arbeiten”, die verschiedenen aufkommenden MOE-Algorithmen aus der Community in zukünftige Versionen zu integrieren.

“MOE ist eine vielversprechende Technologie. Sie ermöglicht ein umfassendes Training basierend auf Techniken aus vielen Bereichen, wie systematisches Routing und Netzwerkausgleich mit riesigen Knoten, und kann auch die GPU-basierte Beschleunigung nutzen. Wir haben eine effektive Implementierung von MOE, Tutel, demonstriert. was zu erheblichen Vorteilen gegenüber dem Fairseq-Rahmen führte.Tutel wurde integriert [with our] DeepSpeed-Framework, und wir glauben, dass Tutel und die damit verbundenen Integrationen von Azure-Diensten profitieren werden, insbesondere für diejenigen, die ihre großen Modelle effizient skalieren möchten“, fügte Microsoft hinzu.

VentureBeat

Die Mission von VentureBeat ist es, die digitale Stadtarena für technische Entscheidungsträger zu sein, um Wissen über transformative Technologien und Transaktionen zu erlangen. Unsere Website bietet wichtige Informationen zu Datentechnologien und -strategien, die Sie bei der Führung Ihrer Organisationen unterstützen. Wir laden Sie ein, Mitglied unserer Community zu werden, um Zugang zu erhalten:

  • Aktualisierte Informationen zu Themen, die Sie interessieren
  • Unsere Newsletter
  • Klassifizierte Inhalte für einen Vordenker und ermäßigter Zugang zu unseren preisgekrönten Veranstaltungen, wie zum Beispiel Konvertieren 2021: erfahren Sie mehr
  • Netzwerkfunktionen und mehr

Mitglied werden

LEAVE A REPLY

Please enter your comment!
Please enter your name here