Microsoft Copilot Vision & Voice: Das nächste Level der KI-Assistenz für die persönliche Unterstützung und digitale Hilfe!


Mit den neuen Updates „Microsoft Copilot Vision“ und „Copilot Voice“ hebt Microsoft seine KI-Assistenz auf ein neues Level. Copilot kann nun sehen und sprechen, also Inhalte visuell analysieren und per Sprache interagieren. So werden viele Aufgaben einfacher, schneller und intuitiver. Aktuell steht die Funktion nur Privatanwendern zur Verfügung, soll aber bald auch für Geschäftskunden von Microsoft 365 und Office 365 folgen.

1. Was ist Microsoft Copilot Vision? Features & Funktionsweise (inkl. Copilot Voice)

Copilot Vision“ ist eine Erweiterung der klassischen Microsoft Copilot KI-Technologie und ermöglicht der KI, nun auch visuelle Inhalte (auf Ihrem Bildschirm oder über Ihre Kamera) in Echtzeit zu erkennen, zu analysieren und kontextbezogene Unterstützung dazu zu liefern. Von alltäglichen und grundsätzlichen Fragen bis zu komplexen Aufgaben. Der KI-Assistent sieht durch das Vision-Update nun also auch das, was Sie als Nutzer auf Ihrem Bildschirm oder durch Ihre Kamera sehen – von Fotos und Webseiten über Grafiken und Diagramme bis zu Benutzeroberflächen in Apps oder der Funktionsweise von Computerspielen. Der große Vorteil: Sie müssen das künftig nicht mehr umständlich im Prompt beschreiben!

Mit dem Update „Copilot Voice“ verarbeitet Microsofts intelligenter KI-Chatbot zudem nicht mehr nur reine Texteingaben als Prompts, sondern versteht nun auch gesprochene Eingabeaufforderungen und liefert gesprochene Antworten – fast wie eine echte Unterhaltung. Diese neue Sprachsteuerungsfunktion wird seit Frühjahr 2024 schrittweise in die Copilot-App für Windows, macOS und Mobilgeräte sowie in den Edge-Browser eingeführt. Die neue Copilot Voice Funktion wird mittels des Mikrofon-Symbols im Chat-Eingabefeld aktiviert. Tipp: In den Einstellungen direkt daneben kann man zwischen verschiedenen Charakteren (Stimmen, Geschlecht und Art des Antwortverhaltens) auswählen.

Die Kernfunktionen von Microsoft Copilot Vision & Voice im Überblick:

  • Visuelle Bildschirm- und Kontextanalyse: Copilot Vision kann die Inhalte und Funktionsweise von geöffneten Apps, Webseiten, PDFs, Dokumenten und Benutzeroberflächen automatisch erkennen und interpretieren, ohne dass man diese der KI noch extra beschreiben muss. Der KI-Assistent liefert dann die dazu passenden Informationen, Ergänzungen, Erklärungen, Zusammenfassungen oder auch Anleitungen.
  • Komplett sprachgesteuerte Interaktion (Copilot Voice): In Kombination mit der neuen Voice-Funktion ermöglicht Copilot Vision, dass die Nutzer ganz natürlich, bequem und einfach mit dem KI-Assistenten sprechen können, anstatt die Texte wie bislang zeitaufwendig eintippen zu müssen. Und auch die Antworten der KI werden in gesprochener Sprache ausgegeben. Daraus ergibt sich eine beinahe echt anfühlende Konversation, bei der man schnell und bequem so lange über das spricht, was man sieht, nachfrägt und nachhakt, bis man die benötigten Informationen erhalten hat.
  • Kontextbezogene Hilfe: Die neue Copilot-Vision-Funktion erkennt nicht nur die visuellen Inhalte und Objekte auf dem Bildschirm des Nutzers (bzw. im Kamerafeed des Smartphones), sondern auch die kontextbezogenen Zusammenhänge. Daher kann die Copilot-KI die Szenerie auch interpretieren und dazugehörige Fragen beantworten. Zum Beispiel für die Reiseplanung: „An welchem Ort wurde dieses schöne Foto aufgenommen?“; als Navigationshilfe auf einer Webseite: „Wo kann ich mich hier anmelden?“; oder für eine Schritt-für-Schritt-Anleitung zur Funktionsweise und der Bedienung einer neuen Softwareanwendung (App oder Spiel).
  • Multifenster-Erkennung: Copilot Vision kann sogar die Zusammenhänge zwischen mehreren geöffneten Fenstern erkennen, um Informationen fensterübergreifend zu verknüpfen oder bestimmte Aktivitäten entsprechend zu koordinieren.
  • Mobile Kamerabildanalyse: Auf Smartphones und Tablets kann Copilot Vision mittels der integrierten Kamera reale Objekte inklusive abgebildeter Texte erkennen und dazu kontextbezogene Informationen und Hilfen anbieten. Sei es für die Objekterkennung, Texterklärung oder Navigation in fremden Umgebungen. Das eignet sich zum Beispiel gut im Urlaub für das schnelle Echtzeit-Übersetzen einer abfotografierten Speisekarte oder Reisebroschüre oder auch als Ausfüllhilfe bei ausgedruckten Formularen in Papierform.
  • Unterstützt die Barrierefreiheit: Copilot Vision kann umgekehrt auch visuelle Elemente für sehbeeinträchtigte Nutzer in gesprochener Sprache beschreiben und unterstützt so bei der digitalen Inklusion und Teilhabe. Zum Beispiel bei der Navigation im Web oder durch Apps oder für das Vorlesen von Hinweisen und Schildern im Alltag.
  • Datenschutzfreundlich: Im Vision-Modus speichert der Microsoft Copilot weder Bilder noch Texte und bleibt zudem rein beratend, führt also keine Aktionen im Namen der Nutzenden aus.
Microsoft Copilot Vision & Voice
Mit der neuen Kernfunktion von Copilot ist eine sprachgesteuerte Interaktion möglich.

Die Vorteile von Copilot Vision gegenüber der klassischen Microsoft Copilot-KI im Vergleich:

Das neue Copilot Vision-Feature erweitert die klassischen KI-Chatfunktionen nun also auch um die visuelle Dimension. Dadurch kann die Copilot-KI nun auch erkennen und verstehen, was die Nutzer auf ihrem Bildschirm oder durch ihre Smartphonekamera sehen und darauf in Echtzeit kontextbezogen reagieren. Damit zieht Microsoft mit der Konkurrenz gleich, die ähnliche Funktionen zum Teil bereits anbietet (zum Beispiel der Advanced Voice Mode in ChatGPT von OpenAI, Googles Gemini Live oder Meta AI). Im Vergleich zum klassischen Microsoft Copilot bietet Copilot Vision somit eine deutlich erweiterte Funktionalität. Hier der direkte Vergleich im Überblick:

Feature Microsoft Copilot (klassisch) Copilot Vision
Textbasierte Konversation ✅ Ja ✅ Ja
Sprachsteuerung mit gesprochenen Eingaben und gesprochenen Antworten ❌ Nein ✅ Ja
Visuelle Analyse und kontextbezogene Interpretation von Bildschirminhalten ❌ Nein ✅ Ja
Kamerafeed-Analyse und Objekt-erkennung auf mobilen Endgeräten ❌ Nein ✅ Ja
Echtzeit-Hilfe bei geöffneten Apps (Inhalte, Bedienung und Navigation) ❌ Nein ✅ Ja

→ Zur offiziellen Webseite des Microsoft Copilot (für Privatnutzer)
→ Mehr Details, was der Microsoft 365 Copilot alles kann (für Geschäftskunden)

2. Kosten, Verfügbarkeit & Release des Copilot Vision: Privatnutzer vs. Geschäftskunden

Microsoft Copilot Vision steht derzeit allen Privatnutzer mit einem persönlichem Microsoft-Konto kostenlos zur Verfügung – und das plattformübergreifend auf verschiedenen Endgeräten:

  • In der Copilot-App für Windows 10, Win 11 und macOS (vollintegriert)
  • Im Web-Browser Microsoft Edge (erkennt Webseiteninhalte und hilft beim Navigieren)
  • In den mobilen Copilot-Apps für Android, iOS und iPadOS (inklusive Analyse des Kamerabildes)

Die Ankündigung der Vorschau (Preview) erfolgte im 5. Dezember 2024, der offizielle Release in den USA am 12. Juni 2025. In Europa und dem Rest der Welt läuft der Rollout seitdem schrittweise ab.

Copilot Vision gibt es zunächst nur für Privatnutzer (kostenlos), noch kein beruflicher Einsatz in Unternehmen:

Für Microsoft 365 Firmen- und Schullizenzen (Geschäftskonten und Bildungseinrichtungen mit Entra ID, ehemals Azure AD) ist das Copilot Vision-Feature bislang noch nicht freigeschaltet worden und ist daher noch nicht verfügbar. Microsoft testet, bewertet und verbessert die Funktion zunächst bei den Privatnutzern, bevor sie auch für die technischen sowie regulatorischen Anforderungen von Unternehmen adaptiert wird. Microsoft meint wörtlich dazu: „Wir nehmen uns Zeit, um Feedback zu sammeln, die Technologie zu iterieren und den Zugriff auf weitere Copilot-Endpunkte in Kürze auszuweiten.“ Unternehmen können daher die aktuelle Copilot Vision Funktion noch nicht offiziell in ihren eigenen Microsoft-365-Umgebungen nutzen.

Warum ist Copilot Vision (noch) nicht für Geschäftskonten verfügbar?

Auch wenn Copilot Vision keine der eingegebenen, hochgeladenen oder analysierten Inhalte speichert (siehe unsere Datenschutzhinweise unten), erfolgt die Datenverarbeitung – anders als beim Premiumprodukt, dem Microsoft 365 Copilot – außerhalb der regulierten Microsoft-365-Tenant-Umgebung des jeweiligen Unternehmenskunden. Das birgt das Risiko einer möglichen Offenlegung sensibler Inhalte oder personenbezogener Daten, wie zum Beispiel vertrauliche Informationen, Kundendaten, Geschäftsgeheimnisse oder Vertragsdetails. Und das wäre ein Verstoß gegen die Compliance- und Datenschutzrichtlinien. Denn Unternehmen unterliegen der DSGVO und weiteren Compliance-Vorgaben. Der Einsatz von offiziell noch nicht freigegebenen Apps oder Features könnte daher zu Audit-Risiken führen.

Copilot Vision gibt es daher nur in der Copilot-App, noch nicht in der Microsoft 365 Copilot App:

Die Copilot App für Windows und macOS: Die Microsoft 365 Copilot App:

Dies ist eine kostenlos downloadbare App, die direkt in Windows 10, 11 und macOS integriert ist und auch für Android und iOS verfügbar ist. Die Copilot-App ist ein universeller KI-Chat-Assistent für Endnutzer und kann auch ohne eine Microsoft 365-Lizenz genutzt werden. Die Copilot-App ermöglicht schnelle Interaktionen für allgemeine Fragen oder kreative Aufgaben im persönlichen Alltag außerhalb des Office-Ökosystems (z.B. Fragen beantworten, Inhalte zusammenfassen, Bilder erstellen, Ideen generieren, Produkte recherchieren etc.).

Die Desktop-App der Premium-KI-Version Microsoft 365 Copilot (die frühere Microsoft 365 App) ist nur in Kombination mit einer kostenpflichtigen Microsoft 365 bzw. Office 365 Business- oder Enterprise-Lizenz nutzbar. Sie ist sowohl für Office-Dokumente wie auch die Compliance-Anforderungen im Business-Kontext optimiert, nutzt sicher die eigenen Unternehmensdaten und bietet erweiterte Funktionen (z.B. Excel-Tabellen analysieren, PowerPoint-Präsentationen entwerfen, Word-Dokumente formatieren etc.).

Download: Hier können Sie sich die kostenlose Copilot-App mit Copilot Vision herunterladen

Informationen für Unternehmer (Beratung bei Büro-Kaizen)

3. Datenschutzhinweise: Speicherung, Verarbeitung & Nutzung für das KI-Training

Copilot Vision arbeitet nur, wenn es aktiviert wird. Und nur mit dem Inhalt, den Sie in der aktuellen Sitzung freigeben (z.B. eine Website, ein Anwendungsfenster oder ein Handyfoto). Die KI speichert auch keine Informationen aus früheren Sitzungen, sondern nur das Chat-Transkript davon, das die Nutzer jederzeit manuell löschen können.

  • Die Funktion ist nur aktiv, wenn sie explizit eingeschaltet wird (Opt-in; im Unterschied zum umstrittenen Microsoft Recall).
  • Keine dauerhafte Speicherung der Inhalte: Alle visuellen Daten, Bilder und Bildschirminhalte werden nur flüchtig verarbeitet, nicht dauerhaft gespeichert und nach der Sitzung sofort wieder gelöscht.
  • Speicherung nur der Chatverläufe: Lediglich das Transkript des reinen Gesprächs zwischen Ihnen und der KI wird für Sie in Ihrem persönlichen Chatverlauf für das spätere Nachschlagen gespeichert – den Chatverlauf können Sie jederzeit löschen.
  • Rein beratend, nicht ausführend: In dem Vision-Modus führt Copilot keine Aktionen im Namen der bzw. des Nutzenden aus (weder Klicken, Navigieren noch Texteingabe).
  • Keine Nutzung für KI-Training: Die Inhalte (Bilder, Fotos, Dokumente, Apps, Bildschirminhalte, Kameradaten, Audio und Kontext) werden auch nicht für das Training der Copilot-KI verwendet.
  • Datenschutz und Compliance: Unternehmen unterliegen der DSGVO und weiteren Compliance Vorgaben. Die Nutzung nicht freigegebener Funktionen in Geschäftsumgebungen birgt Audit-Risiken und ist daher generell nicht zulässig.

Fazit/Empfehlung von Büro-Kaizen: Obwohl die volle Kontrolle über die Daten beim Nutzer liegt und Copilot Vision keine vertraulichen (oder geschäftlichen) Inhalte speichert, erfolgt die Datenverarbeitung außerhalb der regulierten Microsoft-365-Tenant-Umgebung von Geschäftskunden. Somit ist der Einsatz im Unternehmenskontext datenschutzrechtlich riskant. Eine sichere Nutzung ist daher derzeit nur im privaten Gebrauch gewährleistet. Unternehmen sollten daher auf die in Aussicht gestellte offizielle Freigabe der Vision-Funktion für Geschäftskunden warten.

Die einzelnen Beschäftigten können die neue Copilot-Vision-Funktion aber bereits für ihre privaten Angelegenheiten, Planungen, Recherchen und allgemein Organisatorisches produktiv nutzen, um so ihren persönlichen Alltag zu entlasten. Die Nutzung auf einem gemeinsamen Endgerät mit gemischten geschäftlichen und privaten Konten sollte jedoch aufgrund des Risikos einer Vermischung der privaten und geschäftlichen Daten (vorerst noch) vermieden werden.

4. Anwendungsbereiche & Praxisbeispiele: Mögliche Einsatzszenarien für Copilot Vision

Hinweis zur sicheren Nutzung: Alle folgenden Praxisbeispiele und Einsatzszenarien für den Copilot Vision (für Privatnutzer) basieren auf lokalen oder öffentlichen Inhalten ohne der Preisgabe vertraulicher oder sensibler Daten. Sobald Copilot Vision datenschutzseitig auch für Geschäftskonten verfügbar ist, wird die neue visuelle KI-Dimension auch dort das nächste Level der KI-Assistenz einläuten und vielfältige neue Einsatzszenarien ermöglichen – hier ein kleiner Vorgeschmack.

4.1 Praxisbeispiele des Copilot Vision für die private Nutzung:

  • Objekte deuten und erklären: Mit Copilot Vision und der Handykamera auf einen Gegenstand zeigen, die Copilot-KI erklärt dann die Funktion, Herkunft, Bezeichnung und anderes mehr.
  • Kamerafeed-Übersetzer für unterwegs: Fremdsprachige Texte auf Schildern, Plakaten oder Speisekarten einfach abfotografieren und in nahezu Echtzeit übersetzen (mit Copilot Voice vorlesen) und dabei auch gleich erklären lassen.
  • Inhalte verstehen: Die Inhalte von Webseiten, Apps, PDFs oder Fachtexten werden zusammenfassen und deren Bedeutung sowie Fachbegriffe erklären lassen – inklusive Rück- und Verständnisfragen. Zum Beispiel, um sich schneller in einem neuen Software-Tool oder einem Spiel zurechtzufinden.
  • Beim Lernen und Weiterbilden helfen: Copilot Vision kann auch komplexe Textpassagen oder Grafiken und Diagramme aus Büchern zusammenfassen, einfacher erklären und Fragen dazu beantworten. Oder auch selbst beispielsweise Lernfragen zum Inhalt stellen, um so beim Lernen und Weiterbilden zu helfen.
  • Intelligenter Ausfüll-Assistent: Unterstützung beim Verstehen und Ausfüllen von Rechnungen, Formularen, Verträgen oder Buchungsseiten. Die Felder werden erkannt und die Eingaben erklärt, um Fehler zu vermeiden.
  • Individueller Reiseberater: Per Spracheingabe die individuell besten Locations und Unterkünfte für eine Reise suchen und buchen. Zum Beispiel, wo es interessante Orte gibt, welche Viertel sich gut für Familien eignen, oder wo abends viel Trubel ist und viel geboten wird.
  • Fotos organisieren: Die Bilder in beispielsweise OneDrive können einfach per Spracheingabe nach Themen sortiert werden. Die Fotos werden dann automatisch den Themenordnern zugeordnet und dabei optional auch gleich noch alle Duplikate entfernt.
  • Eventplanung: Wenn man zum Beispiel ein großes Familienfest organisiert, kann Copilot Vision alle damit zusammenhängenden E-Mails zusammenfassen, beliebige Daten und Inhalte darin aufbereiten und Antwortvorschläge erstellen.
  • Barrierefreie Navigation: Copilot Vision kann visuelle Inhalte auf Webseiten beschreiben, Texte laut vorlesen und bei der Navigation helfen, um zum Beispiel Sehbeeinträchtigte durch eine App zu führen.

4.2 Mögliche Copilot-Vision-Einsatzszenarien im Unternehmenskontext (zukünftig):

  • Live-Unterstützung und Anleitung bei Software-Anwendungen während der Eingabe.
  • Automatische Dokumentenprüfung, Analyse und Zusammenfassung, z.B. von Verträgen, Berichten, Angeboten, Whitepapers, Mailings, Broschüren oder Vorträgen.
  • Individueller technischer Support bei IT-Problemen direkt auf dem eigenen Bildschirm, geduldig und ohne Wartezeit.
  • Onboarding und Fortbildung: Personalisierte und visualisierte Hilfe mit akustischer Ausgabe für das Einlernen neuer Mitarbeiter oder das Einführen neuer Tools und Funktionen.
  • Excel-Tabellen, Word-Dokumente und PowerPoint-Präsentationen: Copilot Vision erkennt die Struktur, Zusammenhänge und Muster, identifiziert Design- und Textfehler, liefert Verbesserungsvorschläge, erklärt Diagramme und Funktionen, zieht daraus Schlüsse, schlägt Optimierungen vor und gibt Tipps fürs Layout.
  • E-Mail-Flut effizienter bearbeiten: Wenn man mehrere E-Mail-Unterhaltungen in separaten Outlook-Fenstern öffnet, dann kann Copilot Vision diese gleichzeitig überblicken, zusammenfassen und wichtige Informationen darin erkennen, suchen und markieren. Und auch gleich Vorschläge für passende Antworten geben.

5. Fazit und Ausblick: Microsoft Vision & Voice in Unternehmen

Microsoft Copilot Vision & Voice sind zwei leistungsstarke, innovative KI-Features, die den digitalen Alltag für Privatnutzer bereits deutlich bereichern. Denn das Erschließen der neuen Dimensionen Sehen, Hören und Sprechen ermöglicht völlig neue Formen der Interaktion und Zusammenarbeit mit dem persönlichen KI-Assistenten. Für den professionellen Einsatz in Unternehmen wurde bereits eine angepasste Version in Aussicht gestellt, die die höchsten Datenschutzstandards und Compliance-Anforderungen erfüllen soll. Sobald Copilot Vision für Geschäftskonten im Microsoft 365 Ökosystem verfügbar ist, erfahren Sie hier auf www.buero-kaizen.de alle wichtigen Details zu den Funktionen, Einsatzmöglichkeiten und Best Practices. Bleiben Sie informiert – die Zukunft der digitalen Zusammenarbeit hat längst begonnen!

6. Extra-Tipps: Unsere kostenlosen Anleitungen & Video-Tutorials zum Microsoft Copilot

Auch ohne das neue Update für Copilot Vision ist der Microsoft 365 Copilot KI-Assistent eine extrem hilfreiche, wertvolle und vielseitige Unterstützung bei der täglichen Arbeit im Office-Ökosystem. Von der KI-Unterstützung bei der automatisierten E-Mail-Verarbeitung in Outlook über das automatische Tabellenerstellen, Analysieren und Visualisieren in Excel bis zum Entwurf von Präsentationen in PowerPoint oder der gezielten KI-Unterstützung in Teams, OneNote und Word. Richtig eingesetzt hilft die Copilot-KI in Microsoft 365 jedem einzelnen Anwender, die eigenen Aufgaben schneller, einfacher und meist auch besser zu erledigen – das bedeutet weniger Stress für jeden Einzelnen und einen enormen Effizienz- und Produktivitätsgewinn für das gesamte Unternehmen. Hier finden Sie unsere kostenlosen Anleitungen, Tipps und Tricks für den richtigen Einsatz des Microsoft 365 Copilot in Unternehmen, inklusive Video-Tutorials!

Was ist der Microsoft 365 Copilot: Übersicht über alle Versionen und Funktionen des KI-Assistenten.
→ Unsere Themenseite zum Microsoft Copilot: Alle unsere Anleitungen zum Copilot in Outlook, Excel, PowerPoint, Word, OneNote und Teams im Überblick.
→ Kostenloses Büro-Kaizen eBook: „Die besten Prompt-Vorlagen für den Copilot in Microsoft 365“ (als gratis Download).
→ Zu den Video-Tutorials in unserem YouTube-Kanal: Unsere vielen kostenlosen Video-Anleitungen rund um die wichtigsten Microsoft 365-Tools und die Copilot-KI (mit über 100.000 Abonnenten).

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

  1. Einleitung 00:00 
  2. [TEIL 1] AI effizient einsetzen mit Büro-Kaizen  00:29 
  3. In 3 Schritten zu einer neuen Arbeitsweise 00:48 
  4.  Die 5 zentralen Handlungsfelder im Selbst- & Teammanagement 02:00
  5.  Die Microsoft 365-Tools in einem Workflow 02:39
  6. Den Copilot verstehen: Wie er funktioniert & was er kann 04:15 
  7. Differenzierung: Prozesse vs. Projekte & Aufgaben 06:35 
  8. [TEIL 2] Das große Bild: Was ist die Aufgabe des Copiloten? 08:47 
  9.  Der Copilot ist unser neuer Kollege 09:33
  10. Studie: So viel Zeit wird am Arbeitstag verschwendet 10:13 
  11.  Mit dem Copilot mehr Zeit zurückgewinnen 11:01
  12. [TEIL 3] LIVE-Beispiele in den Microsoft 365-Programmen 11:43 
  13.  Outlook: E-Mails zusammenfassen & generieren lassen 11:46
  14.  Teams: Besprechungen zusammenfassen & Aufgaben ableiten 14:59
  15. Microsoft 365 Chat: Dateien finden & Suchzeiten reduzieren 19:15 
  16.  PowerPoint: Präsentationen aus einem Word-Dokument erstellen lassen 23:14
  17. Abschluss & Hinweis 25:39


0 0 votes
Article Rating
Abonnieren
Benachrichtige mich bei
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
Schlagwörter: