Warum schnelle und effiziente Datenbenennung zum Wettbewerbsvorteil wird (VB Live)

0
18
Warum schnelle und effiziente Datenbenennung zum Wettbewerbsvorteil wird (VB Live)

angeboten von Labelbox


Die Iteration von Trainingsdaten ist für den Aufbau leistungsstarker Modelle von grundlegender Bedeutung, aber die Beherrschung und Verengung der Schleife bleibt selbst für die fortgeschrittensten Teams eine Herausforderung. Verpassen Sie nicht dieses VB Live-Event, um umsetzbare Einblicke in die schnelle Umstellung von Modellen auf die Leistung auf Produktionsebene mit hochwertigen Trainingsdaten zu erhalten.

Registrieren Sie sich hier kostenlos.


Die größte Herausforderung, der sich Ingenieure für maschinelles Lernen heute gegenübersehen, ist die Anzahl der zeitaufwändigen Schritte zwischen dem Sammeln von Daten und dem Erhalten eines leistungsstarken Modells. Diese Schritte können unglaublich entmutigend sein, und vielen Teams für maschinelles Lernen in Unternehmen fehlt die Infrastruktur oder die Tools, um dies schnell genug zu tun.

„Eines der größten Dinge, die wir als Gesellschaft in den letzten Jahrzehnten gelernt haben, ist, dass der Grundstein für den Erfolg in Technologie und Technik eine schnellere Iteration ist“, sagt Manu Sharma, CEO und Mitbegründer von Labelbox. “Der Erfolg führender KI-Unternehmen liegt darin, dass sie schnell iterieren. Sie lernen aus jedem Zyklus und werden schnell besser.”

Die meisten Teams verfügen jedoch nicht über optimierte Arbeitsabläufe oder die richtigen Tools, um schnell genug zu arbeiten, um ihre Modelle nach dem gewünschten Zeitplan in Produktion zu bringen.

Die größten Herausforderungen für Machine-Learning-Teams

Nahezu jedes Unternehmen von der Größe einer Organisation hat sich heute zum Ziel gesetzt, KI in einige Aspekte seines Geschäfts zu integrieren, von Finanzen über Marketing bis hin zum Kundenservice, um mehr Automatisierung, reibungslosere Prozesse und neue Produkte und Dienstleistungen zu ermöglichen, die zuvor unmöglich waren. Viele Herausforderungen behindern jedoch häufig den Zugang zu leistungsstarker KI.

Für ein Unternehmen, das KI-basierte Produkte herstellt, die in vielen verschiedenen Regionen oder geografischen Umgebungen funktionieren, müssen ihre Modelle sehr präzise und robust sein. Um sie zu erstellen, müssen die Teams die Modelle häufig trainieren und testen, was wiederum eine große Menge an Trainingsdaten für eine Vielzahl von Szenarien erfordert, da jedes Modell erfolgreich gegen jedes Szenario getestet werden muss.

Auch Teams mit KI-Modellen in der Produktion müssen ständig umgeschult und mit neuen Daten aktualisiert werden. Da diese Modelle so datenhungrig sind, besteht die erste Hürde bei der Iteration mit diesen Modellen darin, die Daten zu benennen. Der gängigste Weg, damit umzugehen, ist Outsourcing – was eine gültige Option ist – aber es gibt Möglichkeiten, die Art und Weise, wie es jetzt gemacht wird, zu verbessern. Die Datenklassifizierung lässt sich mit einer Trainingsdatenplattform verbessern: Software, die eine transparente Kommunikation und Zusammenarbeit zwischen Machine-Learning-Ingenieuren, Domänenexperten und externen Teams ermöglicht, damit diese Probleme sofort in einem iterativen Prozess erkennen und beheben können.

Eine weitere große Herausforderung für Machine-Learning-Teams ist der Prozess der Identifizierung und Änderung von Labels und Trainingsdaten für sich entwickelnde Fälle. Je nach Anwendungsfall, Datenquellen und anderen Variablen kann die Anzahl der Randfälle groß sein. Um sie im Trainingsprozess schnell zu erkennen, ist es wichtig, dass die Trainingsdatensätze vielfältig sind und möglichst viele reale Situationen abbilden.

Teams können die Automatisierung verwenden, um diese Randzustände zu erkennen, herauszufinden, welche wichtig sind und welche nicht, und dann genau an der Lösung dieser Probleme arbeiten. “Die Probleme werden gelöst, indem mehr Daten klassifiziert werden, die wie Kantenzustände sind, weil das Modell mehr Beispiele sehen muss”, sagt Sharma.

Nehmen Sie zum Beispiel selbstfahrende Modelle der künstlichen Intelligenz. Ein menschlicher Fahrer kann während der Fahrt sofort Entscheidungen über die unerwartetsten Situationen treffen, von einem Kind, das über die Straße läuft, bis hin zu einem durch Regen nassen Bürgersteig. Eine KI, die mit denselben Hürden konfrontiert ist, muss mit Daten trainiert werden, die alle möglichen Szenarien darstellen, denen ein Fahrer begegnen könnte.

Oder ziehen Sie Hausvermietungsfirmen in Betracht, die die Rechtmäßigkeit aller Inserate überprüfen müssen. Es kann teuer und unpraktisch sein, alle Fotos, die Benutzer hochladen, von jemandem überprüfen zu lassen. Daher haben einige Unternehmen Modelle für künstliche Intelligenz entwickelt, um automatisch zu beurteilen, ob eine Bildbeschreibung mit einem Bild übereinstimmt, und Fehlinformationen zu melden. Aber auch hier kann die Anzahl der Kantenzustände die Leistung des Algorithmus stark beeinflussen.

stelle dich der Herausforderung

Wenn ein KI-Modell durch Produkte und Dienstleistungen Entscheidungen im Namen des Unternehmens treffen kann, dann ist dieses Modell im Wesentlichen sein Wettbewerbsvorteil – und seine Leistung hängt ganz von der Qualität der klassifizierten Daten ab, mit denen es trainiert wurde. Unternehmensführer sollten Trainingsdaten als Wettbewerbsvorteil betrachten und deren Qualität und Pflege Priorität einräumen.

Es gibt jedoch keine magische Lösung: Der wichtigste Weg für Machine-Learning-Teams, Engpässe zu überwinden und Innovationen zu beschleunigen, besteht darin, in die Infrastruktur zu investieren – einschließlich Tools und Workflows, die es Machine-Learning-Teams ermöglichen, Datensätze in klassifizierte Daten umzuwandeln und davon zu profitieren. Diese Tools sollten es Teams leicht machen, jeden Teil der Kennzeichnungspipeline zu einem nahtlosen Prozess zu kombinieren, einschließlich des Sendens von Datensätzen an Designer, des Trainings von Labels zu Ontologie und Anwendungsfällen, Qualitätsmanagement- und Feedbackprozessen und Modellieren von Leistungsmetriken, die sich entwickelnde Fälle identifizieren. , und mehr.

„Die Wahl der richtigen Technologie bringt Stakeholder zusammen und vereinfacht ihre Arbeitsabläufe und Prozesse“, sagt Sharma. “Infolgedessen müssen Führungskräfte ihre Teams bitten, geeignete Technologien auszuwählen, um die Zusammenarbeit und Transparenz zu verbessern.”

Nehmen Sie an dieser VB Live-Veranstaltung teil, um mehr darüber zu erfahren, wie Sie den Iterationszyklus beschleunigen, Daten schnell und effektiv kennzeichnen, um Ihren Wettbewerbsvorteil zu verbessern, und wie Sie die richtigen Tools und Technologien auswählen.


Registrieren Sie sich hier kostenlos.


Du wirst lernen wie:

  • Visualisieren Sie Modellfehler und verstehen Sie besser, wo die Leistung schwach ist, damit Sie Ihre Trainingsdaten effektiver einsetzen können
  • Identifizieren Sie Trends bei der Modellleistung und finden Sie schnell sich entwickelnde Zustände in Ihren Daten
  • Reduzieren Sie die Kosten durch Priorisieren von Datenklassifizierungsbemühungen, die die Modellleistung drastisch verbessern
  • Verbesserung der Zusammenarbeit zwischen Domänenexperten, Datenwissenschaftlern und Labelern

Moderatoren:

  • Matthew McCauley, Senior Data Scientist, Allstate
  • Manu SharmaCEO und Mitgründer von Labelbox
  • Kyle Wiggers (Vermittler), Autor von KI-Mitarbeitern, VentureBeat

LEAVE A REPLY

Please enter your comment!
Please enter your name here