The DeanBeat: Jensen Huang, CEO von Nvidia, sagt, dass KI automatisch 3D-Bilder für Metaverse füllen wird

Möchten Sie wissen, was als nächstes für die Gaming-Branche kommt? Schließen Sie sich Gaming-CEOs an, um im Oktober beim GamesBeat Summit Next aufstrebende Teile der Branche zu diskutieren. Registrieren Sie sich heute.


Es braucht eine Art künstlicher Intelligenz, um eine virtuelle Welt zu erschaffen. Nvidia-CEO Jensen Huang sagte diese Woche während einer Frage-und-Antwort-Runde beim Online-Event GTC22, dass die KI automatisch 3D-Bilder für Metaverse füllen wird.

Er glaubt, dass KI den ersten Schritt bei der Erstellung von 3D-Objekten unternehmen wird, die die riesigen virtuellen Welten des Metaversums bevölkern – und dann werden menschliche Schöpfer die Zügel übernehmen und sie nach ihren Wünschen polieren. Und obwohl dies eine ziemlich große Behauptung darüber ist, wie intelligent KI ist, hat Nvidia Forschungen, um dies zu untermauern.

Heute Morgen kündigt Nvidia Research ein neues KI-Modell an, das dazu beitragen kann, zu riesigen virtuellen Welten beizutragen, die von einer ständig wachsenden Zahl von Unternehmen und Entwicklern geschaffen wurden und die problemlos mit einer Vielzahl von 3D-Gebäuden, Fahrzeugen, Charakteren und mehr bewohnt werden können.

Diese Art von beiläufigen Fotos bedeutet eine enorme Menge an harter Arbeit. Laut Nvidia ist die reale Welt voller Vielfalt: Die Straßen sind von einzigartigen Gebäuden gesäumt, durch die verschiedene Autos fahren und durch die verschiedene Menschenmengen laufen. Das manuelle Erstellen einer virtuellen 3D-Welt, die dies widerspiegelt, ist unglaublich zeitaufwändig und erschwert das Ausfüllen einer detaillierten digitalen Umgebung.

Diese Art von Aufgabe möchte Nvidia mit seinen Omniverse-Tools und seinem Cloud-Service erleichtern. Er hofft, das Leben von Entwicklern einfacher zu machen, wenn es darum geht, Metaverse-Apps zu erstellen. Und automatisch generierte Kunst – wie wir dieses Jahr bei DALL-E und anderen KI-Modellen gesehen haben – ist eine Möglichkeit, die Last des Aufbaus einer Welt virtueller Welten wie in zu verringern Schneefall oder Bereit Spieler eins.

Jensen Huang, CEO von Nvidia, spricht auf der GTC22-Keynote.

In einer Pressefragerunde Anfang dieser Woche fragte Huang, was das Metaversum beschleunigen könnte. Er deutete auf die Arbeit von Nvidia Research hin, obwohl das Unternehmen die Bohnen bis heute nicht verschüttet hat.

“Zunächst wissen Sie, dass das Metaverse von Benutzern erstellt wird. Wir haben es entweder manuell oder mit Hilfe künstlicher Intelligenz erstellt. “Huang sagte: “In Zukunft werden wir sehr wahrscheinlich einige Eigenschaften von beschreiben ein Haus oder ein Stadtgrundstück oder so etwas. Und es ist wie diese Stadt oder wie Toronto oder wie New York City, und es erschafft eine neue Stadt für uns. Wir mögen ihn vielleicht nicht. Wir können ihm weitere Ansprüche stellen. Oder wir können die Eingabetaste so lange drücken, bis automatisch eine erstellt wird, mit der wir beginnen möchten. Und dann, außerhalb dieser Welt, werden wir es modifizieren. Und so denke ich, dass künstliche Intelligenz zur Schaffung virtueller Welten wahr wird, während wir hier sprechen.“

GET3D-Details

Nvidia GET3D wird ausschließlich mit 2D-Bildern trainiert und generiert 3D-Formen mit hochauflösenden Texturen und komplizierten geometrischen Details. Diese 3D-Objekte werden im gleichen Format erstellt, das von gängigen Grafiksoftwareanwendungen verwendet wird, sodass Benutzer ihre Formen sofort in 3D-Monitore und Game-Engines zur weiteren Bearbeitung importieren können.

Die erstellten Objekte können in 3D-Darstellungen von Gebäuden, Außenbereichen oder ganzen Städten verwendet werden, die für Branchen wie Spiele, Robotik, Architektur und soziale Medien konzipiert sind.

GET3D kann auf Basis der trainierten Daten eine nahezu unbegrenzte Anzahl von 3D-Formen generieren. Wie ein Künstler, der ein Stück Ton in eine detaillierte Skulptur verwandelt, verwandelt das Modell Figuren in komplizierte 3D-Formen.

„Der Kern davon ist genau die Technologie, über die ich vor einer Sekunde gesprochen habe, die Big Language Models genannt wird“, sagte er. „Von allen Schöpfungen der Menschheit lernen zu können, sich eine dreidimensionale Welt vorstellen zu können. Und so werden Sie eines Tages aus Wörtern durch ein großes Sprachmodell herauskommen, Dreiecke, Geometrie, Texturen, Materialien. Und dann werden wir es modifizieren, und weil, was auch immer, nichts davon vorgefertigt ist, nichts vorgerendert ist, müssen alle Physiksimulationen und alle Lichtsimulationen in Echtzeit durchgeführt werden wichtig für das neurale Rendering von RTX. Weil wir es nicht mit roher Gewalt tun können. Wir brauchen künstliche Intelligenz, um das zu tun.“

Mit einem Trainingsdatensatz aus 2D-Bildern von Autos erstellt es beispielsweise eine Sammlung von Limousinen, Lastwagen, Rennwagen und Pickups. Wenn er mit Tierbildern trainiert wird, erfindet er Kreaturen wie Füchse, Nashörner, Pferde und Bären. Aufgrund der Stühle generiert das Modell verschiedene Drehstühle, Esszimmerstühle und ergonomische Stühle.

„GET3D bringt uns der Demokratisierung der KI-gestützten Erstellung von 3D-Inhalten einen Schritt näher“, sagte Sanja Fidler, Vizepräsidentin für KI-Forschung bei Nvidia und Leiterin des KI-Labors, das das Tool entwickelt hat. “Seine Fähigkeit, sofort 3D-Formen zu erstellen, kann für Entwickler ein Wendepunkt sein und ihnen helfen, virtuelle Welten schnell mit vielfältigen und interessanten Dingen zu füllen.”

GET3D ist eines von mehr als 20 von Nvidia verfassten Forschungspapieren und Workshops, das auf der NeurIPS AI Conference angenommen wurde, die vom 26. November bis Dezember in New Orleans auf der ganzen Welt stattfindet. 4.

Nvidia sagte, dass, obwohl es schneller als manuelle Methoden ist, frühere 3D-KI-Modelle in der Detailgenauigkeit, die sie erzeugen konnten, begrenzt waren. Selbst moderne inverse Rendering-Methoden können 3D-Objekte nur auf der Grundlage von 2D-Bildern erstellen, die aus verschiedenen Winkeln aufgenommen wurden, sodass Entwickler jeweils eine 3D-Form erstellen müssen.

GET3D kann stattdessen etwa 20 Formen pro Sekunde erzeugen, wenn die Inferenz auf einer einzelnen Nvidia-Grafikprozessoreinheit (GPU) läuft – es verhält sich wie ein 2D-bildgenerierendes gegnerisches Netzwerk, während es 3D-Objekte erstellt. Je größer und vielfältiger die Menge der daraus gelernten Trainingsdaten ist, desto vielfältiger und vielfältiger ist sie
Detaillierte Ausgabe.

Nvidia-Forscher trainierten GET3D mit synthetischen Daten, die aus 2D-Bildern von 3D-Formen bestehen, die aus verschiedenen Kamerawinkeln aufgenommen wurden. Das Team benötigte nur zwei Tage, um das Modell mit etwa 1 Million Bildern unter Verwendung von Nvidia A100 Tensor Core-GPUs zu trainieren.

GET3D hat seinen Namen von seiner Fähigkeit, 3D-Netze mit expliziter Textur zu erstellen – was bedeutet, dass die von Ihnen erstellten Formen eine dreieckige Gitterform haben, wie ein Pappmaché-Modell, das mit strukturiertem Material bedeckt ist. Auf diese Weise können Benutzer Objekte einfach in Game-Engines, 3D-Modellierer und Filmbetrachter importieren und bearbeiten.

Sobald Entwickler die von GET3D generierten Formen in eine Grafikanwendung exportiert haben, können sie realistische Lichteffekte anwenden, wenn sich das Objekt in einer Szene bewegt oder dreht. Durch die Integration eines anderen KI-Tools von NVIDIA Research, StyleGAN-NADA, können Entwickler Texteingabeaufforderungen verwenden, um einem Bild einen bestimmten Stil hinzuzufügen, z. B. ein Auto in ein brennendes Auto oder Taxi zu verwandeln oder ein gewöhnliches Haus in ein einziges Spukhaus zu verwandeln.

Die Forscher stellen fest, dass eine zukünftige Version von GET3D Techniken zur Schätzung der Kameraposition verwenden könnte, um es Entwicklern zu ermöglichen, das Modell auf realen Daten statt auf synthetischen Datensätzen zu trainieren. Es kann auch optimiert werden, um die globale Generierung zu unterstützen – was bedeutet, dass Entwickler GET3D auf alle Arten von 3D-Formen gleichzeitig trainieren können, anstatt es jeweils auf eine Objektklasse trainieren zu müssen.

Prolog ist das nächste Projekt von Brendan Greene.
Prolog ist das nächste Projekt von Brendan Greene.

Huang sagte, dass KI Welten erzeugen wird. Diese Welten werden simuliert, nicht nur animiert. Um all dies zu erreichen, rechnet Huang mit der Notwendigkeit, eine „neue Art von Rechenzentren auf der ganzen Welt“ zu schaffen. Es heißt GDN, nicht CDN. Es handelt sich um ein Grafikbereitstellungsnetzwerk, das von Nvidias Cloud-Gaming-Service GeForce Now getestet wurde. Nvidia nahm diesen Service und nutzte ihn, um Omniverse Cloud zu erstellen, eine Suite von Tools, mit denen Omniverse-Anwendungen jederzeit und überall erstellt werden können. GDN wird Cloud-Gaming sowie die Metaverse-Tools von Omniverse Cloud hosten.

Diese Art von Netzwerk kann das notwendige Echtzeit-Computing für das Metaverse bereitstellen.

“Dies ist die Interaktion, die im Grunde sofort erfolgt”, sagte Huang.

Irgendwelche Spieleentwickler, die danach fragen? Nun, eigentlich weiß ich, wer er ist. Brendan Greene, Schöpfer von Battle Royale PlayerUnknown’s Productions, forderte diese Art von Technologie in diesem Jahr, als er den Prolog ankündigte und dann Project Artemis enthüllte, einen Versuch, eine virtuelle Welt von der Größe einer Erde zu erschaffen. Er sagte, es könne nur mit einer Kombination aus Spieldesign, benutzergenerierten Inhalten und künstlicher Intelligenz erstellt werden.

Nun, heilige Scheiße.

SpieleBeat Credo Wenn die Berichterstattung über die Gaming-Branche „wo Leidenschaft auf Arbeit trifft“ ist. was bedeutet das? Wir möchten Ihnen sagen, wie wichtig Ihnen die Neuigkeiten sind – nicht nur als Entscheidungsträger in einem Spielestudio, sondern auch als Spielefan. Egal, ob Sie unsere Artikel lesen, unsere Podcasts anhören oder unsere Videos ansehen, GamesBeat hilft Ihnen dabei, mehr über die Branche zu erfahren und Spaß daran zu haben, mit ihr zu interagieren. Entdecken Sie unsere Briefings.

William

Leave a Reply

Your email address will not be published.