I.

Einführung in Extended Reality – VR, AR und MR

Geschichte und Entwicklung von Extended Reality

Im Laufe der Geschichte waren die Menschen stets bestrebt, ihrer Vorstellungskraft, ihrer Kreativität und ihrem Willen, die Grenzen der physischen Welt zu durchbrechen, visuell Ausdruck zu verleihen. Das Ziel ist, Szenen, Augenblicke und Erlebnisse darzustellen, damit andere Menschen sie mit all ihren Sinnen nachempfinden können, sodass Träume, Wünsche und Visionen wahr werden oder man gar in Traumwelten leben kann.

Mithilfe von Technologie sind heute immer realistischere, konkretere Erlebnisse möglich, in die man mit allen Sinnen eintauchen kann. Möglich wird dies durch die Virtualisierung und Erweiterung unserer Realität oder die Kombination aus beidem in einer gemischten Umgebung. In diesem Kapitel befassen wir uns mit Extended Reality (XR) und deren Unterformen Virtual Reality (VR), Augmented Reality (AR) und Mixed Reality (MR). (Hinweis: Auf Deutsch werden XR und AR beide mit „erweiterte Realität“ übersetzt, die englischen Begriffe sind gängig und werden hier aufgrund ihrer Klarheit bevorzugt.) Bevor wir diese Begriffe definieren, verschaffen wir uns kurz einen geschichtlichen Überblick.

Vom Saal der Stiere über das Stereoskop zum Sensorama

In der Geschichte finden sich viele Beispiele für den Wunsch, Eindrücke visuell darzustellen und nachzuerleben. Wir beginnen unsere Reise in prähistorischen Zeiten, vor 15.000 Jahren in der Höhle von Lascaux im heutigen Frankreich. Damals schufen Menschen Wandmalereien von ca. 600 großen Tieren in einem Raum, der „Saal der Stiere“ genannt wird. Dies ist eines der ältesten bekannten Beispiele für die Fähigkeit des Menschen, Realitäten über seine eigene individuelle Erfahrung in einem Zeitabschnitt hinaus zu projizieren und dadurch anderen die Nachempfindung dieser Realität durch Immersion zu ermöglichen.

Es gibt viele weitere geschichtliche Beispiele hierfür, doch ein Meilenstein in der Verwendung von Technologie zur Schaffung eines Gerätes zur Immersion in eine virtuelle Realität war die Erfindung des Stereoskops durch Charles Wheatstone im Jahr 1838. Durch sein Spiegelstereoskop sah man auf jedem Auge ein separates Bild, was in Kombination den Eindruck eines dreidimensionalen Bilds erzeugte. Dies stellte einen Durchbruch dar, da es eine tragbare, individuelle Erfahrung virtueller Realität ermöglichte. Viele Menschen erinnern sich wahrscheinlich aus ihrer Kindheit an eine Variante des Stereoskops, den sogenannten View-Master.

Ein View-Master
Ein View-Master

An dieser Stelle sollte auch das Sensorama erwähnt werden. Dieses Gerät war eines der ersten mit multisensorischer Immersionstechnik. Das Sensorama wurde 1962 von Morton Heilig erfunden. Es projizierte Bilder in stereoskopischem 3D-Format und verfügte über Stereosound, einen beweglichen Sitz, Wind und Gerüche. Damit handelte es sich um das erste VR-System.

Anfang der 1990er-Jahre wurde dann an der Universität Illinois das CAVE-System (Cave Automatic Virtual Environment) entwickelt. In dieser immersiven Umgebung sind mehrere Projektoren auf die Wände eines großen Raums gerichtet und die Benutzer tragen 3D-Brillen zur Erfahrung der virtuellen Realität. Diese Erfindung war ein Quantensprung für simulierte Umgebungen und wird heute bei Produktentwicklung, Flugsimulationen und Bauplanung genutzt.

Heute konzentriert sich die Entwicklung im Bereich AR/VR/MR auf tragbare, realistische, personalisierte und kosteneffiziente Lösungen, mit denen die Technologien für eine Vielzahl persönlicher und beruflicher Zwecke eingesetzt werden können. In der Zukunft werden diese Werkzeuge und Technologien so weitverbreitet sein, wie es heute PCs und andere intelligente Geräte sind. Bald schon wird man sich kaum noch eine Welt ohne virtuelle Realität vorstellen können.

Definition von AR/VR/MR

Augmented Reality

Die Definition der Swiss Society of Virtual and Augmented Reality (SSVAR) lautet: „Augmented Reality (AR) überlagert die reale Umgebung des Nutzers mit digitalen Inhalten. Dies reicht von Informationstext, der auf Objekten oder Standorten eingeblendet wird, bis hin zu interaktiven fotorealistischen virtuellen Objekten. AR unterscheidet sich von Mixed Reality dahingehend, dass AR-Objekte (z. B. Bild und Ton) die Umgebung des Nutzers überlagern und nicht darin integriert sind.“

Um das Konzept von Augmented Reality besser zu verstehen, denken Sie an Pokémon GO. Bei diesem Spiel geht es darum, digitale Wesen (die nicht Teil der physischen Welt sind) zu fangen, die in Form von Hologrammen als zusätzliche Schicht in der echten Welt eingeblendet werden. Oder denken Sie an die Filmreihe Iron Man, in der die analoge Welt mit digitalen Schnittstellen verbunden wird.

Virtual reality

Virtual Reality (VR) ist eine vollkommen immersive Nutzerumgebung, die Sinneseindrücke (z. B. Sehen, Hören, Fühlen und Riechen) beeinflusst oder verändert und eine Interaktion mit diesen Sinneseindrücken entsprechend des Verhaltens des Nutzers in der virtuellen Welt ermöglicht. Üblicherweise nutzt man dazu ein Head-Mounted Display („Bildschirm am Kopf“), räumliche oder andere Klänge und/oder Motion-Controller (Fernbedienung mit oder ohne haptische Eingabe oder Rückmeldung).“ (SSVAR, 2021)

Mit dem Film Matrix lässt sich das Konzept der virtuellen Realität veranschaulichen. Dort wird man in eine virtuelle, digitale Welt transportiert und lässt die analoge (physische) Welt hinter sich.

Doch wie stehen diese beiden Technologien zueinander und wie die reale zur digitalen Welt? Virtual Reality wird von einer komplett computergenerierten Umgebung gestützt. Augmented Reality befindet sich zwischen der computergenerierten Welt und der echten Welt.

Mixed reality

Mixed Reality (MR) stellt eine nahtlose Verbindung zwischen der Nutzerumgebung in der echten Welt und digitalen Inhalten her, sodass beide Umgebungen in einem hybriden Erlebnis koexistieren. Bei MR verhalten sich virtuelle Objekte in jeglicher Hinsicht so, als gehörten sie zur echten Welt. Sie werden z. B. von physischen Objekten verdeckt, Licht und Schatten auf ihnen entsprechen der Umgebung und sie klingen, als befänden sie sich im selben Raum wie der Nutzer. Bei der Interaktion des Nutzers mit realen und virtuellen Objekten reagieren die virtuellen Objekte auf Veränderungen in der Umgebung genauso wie die realen Objekte im selben Raum.“ (SSVAR, 2021)

Teils werden MR und AR verwechselt, da beide eine Mischung aus realer und digitaler Welt darstellen. Der Hauptunterschied ist, dass man in einer MR-Umgebung mit digitalen Geräten interagieren kann – sie überlagern nicht nur die reale Welt, sondern werden in diese integriert, sodass eine Interaktion möglich wird. Bei MR sind die physische und die digitale Welt miteinander in einer einzigen Realität verflochten.

Noch besser verstehen lassen sich diese Technologien vielleicht durch das Realitäts-Virtualitäts-Kontinuum, ein Konzept, das 1994 von Paul Milgram, Haruo Takemura, Akira Utsumi und Fumio Kishino geprägt wurde. Das Realitäts-Virtualitäts-Kontinuum ist eine Skala mit Abstufungen von der realen, physischen Welt am einen Ende bis zur virtuellen Realität am anderen Ende.

Auf dem folgenden Bild sieht man die Unterschiede zwischen VR, AR und MR.

Bild zu den Unterschieden zwischen VR, AR und MR
Bild zu den Unterschieden zwischen VR, AR und MR

Von links nach rechts: VR, AR und MR

Bei der Definition von VR, AR und MR ist es wichtig, zu wissen, wo sie jeweils im breiteren Spektrum der Extended Reality (XR) einzuordnen sind. XR ist der Oberbegriff für die drei spezifischen Bereiche VR, AR und MR.

Sichtfeld

Das Sichtfeld (Field of View, FOV) ist ein wichtiges Konzept für XR, egal ob VR, AR oder MR. Das Sichtfeld ist entscheidend für die Nutzererfahrung. Es bestimmt, wie viel man sieht, was sich stark darauf auswirkt, wie man sich fühlt und die Erfahrung wahrnimmt. Kurz gesagt: Das Sichtfeld ist der Bereich der beobachtbaren Welt, den man zu einem bestimmten Zeitpunkt sieht. Es wird in Grad gemessen. Nicht nur die Quantität (der Winkel des Sichtfelds) sondern auch die Qualität spielt dabei eine Rolle. Dies betrifft die Geräte, die für XR verwendet werden, seien es VR-Headsets oder MR/AR-Brillen. Deshalb ist es wichtig, die genauen Eigenschaften und Möglichkeiten von XR-Hardware zu kennen.

Bild zu den Unterschieden zwischen 3 und 6 Freiheitsgraden
Bild zu den Unterschieden zwischen 3 und 6 Freiheitsgraden

Freiheitsgrade (DoF)

Es gibt zwei Arten von Freiheitsgraden (Degrees of Freedom, DOF), welche die Qualität und Tiefe der Immersion bei VR- und AR-Erlebnisse beeinflussen: Grad 3 (3DoF) und Grad 6 (6DoF).

Der Freiheitsgrad hängt vom VR-Headset und dem zugrundeliegenden System ab. Der Freiheitsgrad eines VR- oder AR-Headsets bestimmt maßgeblich die Art der immersiven Erfahrung.

3 Freiheitsgrade (3DoF)

Bei 3DoF werden drei Arten von Bewegungen erkannt: Das System erfasst Rotationen entlang der x-, y- und z-Achse (Rollen, Nicken und Gieren genannt), aber keine Translationsbewegungen. Die physische Bewegung des Nutzers wird nicht erkannt, sondern nur die Bewegung des Kopfs entlang der drei Achsen. Das heißt, der Nutzer wird nicht in der virtuellen Welt dargestellt, wenn er läuft, springt oder sich zur Seite bewegt.

Beispiel für ein 3DoF-Headset: Oculus GO

6 Freiheitsgrade (6DoF)

Bei 6DoF werden sechs Bewegungen erkannt: Das System erfasst sowohl Rotations- als auch Translationsbewegungen des Körpers im dreidimensionalen Raum. Bei einem VR-System mit 6DoF sind also folgende Rotationsbewegungen möglich:

  • Drehen um die y-Achse (Querachse): Nicken/Stampfen (Pitch)

  • Drehen um die z-Achse (Hochachse): Gieren (Yaw)

  • Drehen um die x-Achse (Längsachse): Rollen/Wanken (Roll)

Zudem kann der Nutzer folgende Translationsbewegungen ausführen:

  • Auf- und Abwärtsbewegung entlang der y-Achse (Querachse): Schwojen (Heaving)

  • Vorwärts- und Rückwärtsbewegung entlang der x-Achse (Längsachse): Schnellen (Surging)

  • Links- und Rechtsbewegung entlang der z-Achse (Hochachse): Tauchen (Swaying)

Das bedeutet, dass alle Bewegungen des Nutzers in der virtuellen Welt wiedergegeben werden, nicht nur die Kopfbewegungen, sondern auch Gehen, Springen und seitliche Bewegungen.

Beispiel für ein 6DoF-Headset: Microsoft HoloLens 2

Wie funktionieren VR, AR und MR?

Wie wird eine VR-, AR- oder MR-Erfahrung möglich? Was ist nötig, um von der physischen in virtuelle Welten zu gelangen, digitale Objekte in der realen Welt einzublenden und sogar bearbeiten und mit ihnen interagieren zu können? Kurzum: Welche Hardware und Software sind erforderlich?

Die Antwort hängt davon ab, wie tief und realitätsnah das Erlebnis sein soll. Wenn Sie ein Smartphone (mit Standardsensoren wie Beschleunigungsmesser und Gyroskop für VR) haben, ist damit wahrscheinlich bereits eine VR- oder AR-Erfahrung möglich. Für ein VR-Erlebnis genügt ein Gerät wie Google Cardboard und eine VR-App oder Web-VR-Erfahrung im Format und Kontext einer Website.

Ihr Smartphone ist ein leistungsstarkes Gerät, mit dem Sie leicht Ihre physische Umgebung erkunden und verändern können. Dennoch gibt es einen großen qualitativen Unterschied zwischen dem Erlebnis mit Ihrem Mobilgerät im Vergleich zu einem System, das spezifisch für eine VR-/AR-Erfahrung konzipiert wurde, z. B. ein Head-Mounted Display (HMD). Die beiden folgenden Bilder zeigen, wie man per Smartphone VR und AR erleben kann.

Nutzung eines Smartphones für eine VR-/AR-Erfahrung
Nutzung eines Smartphones für eine VR-/AR-Erfahrung

Hardware- und Softwareanforderungen

Um in eine virtuelle, erweiterte oder gemischte Realität einzutauchen, braucht man die entsprechenden Hardware- und Softwarekomponenten. Diese bestimmen den Grad an Immersion, Eindrücken und Realismus. Smartphones bieten eine weniger immersive Erfahrung. Am anderen Ende der Skala stehen spezialisierte Geräte, die einen hohen Grad an Immersion und Eindrücken ermöglichen und üblicherweise in Lösungen für Unternehmen oder Spiele eingesetzt werden.

Hardwaregeräte für AR/VR- und MR-Erlebnisse

Es viele verschiedene Hardwaregeräte, die virtuelle Erlebnisse ermöglichen. Die Nutzung wird durch den spezifischen Kontext, in dem sie eingesetzt werden, bedingt. Die persönliche Nutzung (andere Orte mit 360°-Videos erkunden) bedeutet ein niedrigeres Level an Komplexität. Komplexer wird es, wenn man Spiele in einer virtuellen Umgebung spielen will und noch deutlich komplexer, wenn man eine Umgebung für Unternehmensschulungen schaffen möchte.

Head-Mounted Display (HMD)

Ein Head-Mounted Display (HMD) ist Wikipedia zufolge ein visuelles Ausgabegerät, das am Kopf oder als Teils eines Helms getragen wird und Kleinstbildschirme vor einem (monocular HMD) oder beiden Augen (binocular HMD) hat. HMDs werden in vielen Bereichen wie Gaming, Luftfahrt, Ingenieurwissenschaften und Medizin eingesetzt. Virtual-Reality-Headsets sind eine Kombination aus HMD und IMU (inertiale Messeinheit). Es gibt auch Optical Head-Mounted Displays (OHMD), die über einen tragbaren Bildschirm verfügen, der Bilder projizieren und durch den der Benutzer sehen kann.

In Bezug auf die Nutzung lassen sich zwei Arten von HMD unterscheiden:

  • Mobile HMDs, die nicht mit einem anderen Gerät verbunden werden müssen
    Beispiele: Oculus Go/Quest und Google Daydream

  • Teathered HMDs, die an einen Computer oder eine Spielekonsole angeschlossen werden müssen
    Beispiele: Oculus Rift S und HTC Vice

Karton-Displays

Ein Karton-Display ermöglicht günstige, einfache VR-Erfahrungen über das Smartphone und VR-Apps.

Ein Beispiel dafür ist Google Cardboard.

Augmented-Reality-Brillen

Hierbei handelt es sich um Brillen mit besonderen Funktionen, um dem Benutzer Zugang zur erweiterten Realität zu geben. AR-Brillen gibt es in vielen Formaten und für verschiedene Einsatzbereiche. Sie unterscheiden sich hauptsächlich hinsichtlich Prozessorleistung, Grafikleistung und Preis.

Beispiele hierfür sind Google Glass Enterprise und Vuzix Blade Smart Glasses.

Mixed-Reality-Geräte

MR-Geräte bieten eine immersive Erfahrung, in der die reale Welt und die virtuelle (digitale) kombiniert werden. Der Benutzer kann in der echten Welt mit virtuellen Objekten interagieren, als seien sie echt. Er kann sie z. B. berühren oder ihre Größe verändern.

Als Beispiele zu nennen wären Microsoft HoloLens 2, Magic Leap ONE und NReal.

Head-up-Display (HUD)

Ein Head-up-Display ist ein durchsichtiger Bildschirm, auf den digitale Information projiziert wird, die die visuelle Information in der analogen Welt ergänzt.

Head-up-Display im Auto mit Informationen für den Fahrer
Head-up-Display im Auto mit Informationen für den Fahrer

Haptik-Geräte

Bei VR und AR bringt die Integration von Haptik die Erfahrung auf eine neue Ebene der Immersion. Der Benutzer kann nicht nur sehen und hören, sondern dank Haptik auch fühlen und berühren. Beispiele für Haptik-Geräte sind digitale Handschuhe und Sitze sowie Bewegungsplattformen mit integrierter VR/AR-Lösung.

Virtuelle Erfahrungen schaffen

Um andere Welten zu erkunden und mit ihnen interagieren zu können, braucht es die entsprechende Hardware (wie eben erläutert) und Software. Die Software entscheidet über die Interaktionen und Erfahrungen in Welten, die sich mit unserer überschneiden oder in denen wir die Wirklichkeit hinter uns lassen und in eine neue digitale Realität eintauchen.

Mensch-Maschine-Schnittstelle

Ein kurzer Exkurs zum Thema Mensch-Maschine-Schnittstelle (Human Machine Interface, HMI) hilft, um zu verstehen, wie sich die Interaktion von Menschen mit der digitalen Welt entwickelt hat. Robert Scole und Shel Israel schreiben in ihrem Buch The 4th transformation: how AR and AI change everything, dass es hierbei vier entscheidende Entwicklung gab:

  1. Tippen (Text)

  2. Point-and-Click, d. h. Zeigen und Klicken (Maus)

  3. Touch-Berührungen (Smartphones – die momentan dominante Form)

  4. Natürliche Interaktion (MR-Brillen – die Zukunft der Interaktion?)

Unser Gehirn denkt und interagiert in drei Dimensionen (3D) – das ist die natürliche Form der Interaktion mit der Welt um uns herum. Wir sind nicht für die Nutzung von 2D-Bildschirmen geschaffen, wir haben uns nur daran gewöhnt. Jetzt wo es die Möglichkeit der Interaktion in 3D gibt, kehren wir zurück zu den Wurzeln unserer natürlichen Interaktion – selbst wenn in diesem besonderen Kontext die Interaktion digital ist.

Spatial Computing

Den Worten von Simon Greenwold (2003) zufolge ist Spatial Computing „die menschliche Interaktion mit einer Maschine, bei der die Maschine Referenzen auf reale Objekte und Räume speichert und bearbeitet“. Spatial Computing („räumliches Rechnen“) ist der entscheidende Schritt von 2D- hin zu 3D-Interaktionen. In ihrem Buch Spatial Computing (MIT Press, 2019) definieren Shashi Shekhar und Pamela Vold es als „eine Sammlung an Ideen und Technologien, die unser Leben verändern, ausgehend vom Verständnis der physischen Welt, dem Wissen und der Kommunikation unserer Beziehungen zu Orten in dieser Welt und der Navigation an diesen Orten“.

Für Extended Reality folgt daraus, dass das System sich der Umgebung bewusst ist. Das System nutzt die Umgebung als Hintergrund zur Interaktion mit dem Nutzer. Es nimmt die Interaktionen des Nutzers (Körperbewegungen, Gesten und andere Datenquellen) als Input für digitale Interaktionen in Kombination mit dem physischen Raum. Durch Spatial Computing lässt sich die reale mit der digitalen Welt verschmelzen. Zugleich kann man es als Rahmen für Software und Hardware betrachten, in dem XR-Erfahrungen möglich sind.

Spatial Computing hat heute ein neues Niveau erreicht, wodurch neue Funktionen und Fähigkeiten im XR-Universum möglich sind. Durch die Entwicklung von 3D-Bild-Technik und AR/VR-Headsets (oder hybriden Geräten mit beidem), AR-Brillen und haptischen Geräten wird die Interaktion mit diesen neuen Realitäten natürlicher und authentischer.

Note

Die Interaktion mit analogen und digitalen Geräten innerhalb desselben Kontextes begründete das Konzept der „digitalen Zwillinge“. Ein digitaler Zwilling ist die digitale Nachbildung eines Lebewesens oder Objekts.

Abhängigkeit von Geräten und Plattformen

Bei der Schaffung einer VR oder AR ist es wichtig, zu wissen, welche Art von Erlebnis gewünscht und für welche Plattform und Geräte es gedacht ist. Das ist entscheidend, um das bestmögliche Produkt zu schaffen.

Der Prozess ist komplex und erfordert verschiedene Fähigkeiten und Kompetenzen sowie Fachkenntnisse. Es braucht interdisziplinäre Teams, die zusammenarbeiten und von Fachleuten aus verschiedenen Bereichen unterstützt werden.

Hier ein Überblick über einige Software-Werkzeuge und -Plattformen, die für die Entwicklung von VR- und AR-Projekten genutzt werden:

  • 3D-Modellierung/Scannen: Blender, 3ds Max, MODO, Maya, SketchUP

  • VR- und AR-Plattform-Entwicklung: Unity, Unreal, Amazon Sumerian

  • Software Development Kits (SDK) / Rahmen: ARKit, Cardboard SDK, Oculus SDK, Windows Mixed Reality, ARCore, React 360, WikiTude, OpenVR, Vuforia, VRTK

  • Web-Umgebung: AFrame, Web XR API, AR.js

Next section
II. Augmented Reality und Virtual Reality im Alltag