Home » Featured » Großer Schritt nach langer Wartezeit: Gemini und ChatGPT lernen sehen

Großer Schritt nach langer Wartezeit: Gemini und ChatGPT lernen sehen

Zum Jahresende geht es plötzlich Schlag auf Schlag an der KI-Front. Googles Gemini wird mit Version 2.0 deutlich leistungsfähiger und wenig später zieht OpenAI mit ChatGPT nach. Im Sommer angekündigte Funktionen werden damit nun ausgerollt.

Plötzlich geht es wieder ganz schnell: Innerhalb weniger Tage machen die KI-Modelle von Google und OpenAI große Fortschritte. Den Anfang machte Google mit Gemini 2.0. Die erste große neue Hauptversion von Gemini bringt nicht nur einige neue Möglichkeiten für Entwickler, Gemini wird nun auch erstmals vollständig multi-modal.

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Damit kann es nicht nur mit Nutzern sprechen, sondern auch auf die Kamera zugreifen und durch diese die Umgebung sehen und Fragen dazu beantworten. Diese neue Anwendung ist einer von vermutlich zahlreichen neuen KI-Agenten, also Ableitungen der bestehenden KI-Modelle, denen spezifische Fähigkeiten verliehen werden. Google nennt diesen Assistenten, der die Umgebung durch das Smartphone des Nutzers sieht und Informationen darüber liefern kann, Astra.

Die Ergebnisse sind teils erstaunlich. Derzeit ist diese neue Gemini-Funktionalität noch nicht Bestandteil der Gemini-App oder der regulären Gemini-Oberfläche, dafür allerdings kostenlos und so gut wie weltweit nutzbar.

OpenAI zieht nach und liefert Video für den Voice-Mode

Wenig später war es dann auch bei OpenAI so weit: Nun erhält auch ChatGPT die Neuerungen, die bereits im Mai angekündigt und für den Spätsommer versprochen worden waren: Der Voice-Mode wurde nun um den Zugriff auf die Kamera für Live-Video sowie eine Bildschirmfreigabe erweitert.

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Hierbei muss der Nutzer zunächst den Voice-Mode starten, aus dem überarbeiteten Interface heraus kann dann die Kamera aktiviert werden. Diese Neuerungen sind zwar derzeit nur für US-Nutzer verfügbar, lassen sich aber per VPN auch in Europa nutzen. Erste Tests scheinen eine leichte Überlegenheit des Google-Modells bei der Bewältigung von Alltagsaufgaben anzudeuten, etwa bei Kontextfragen zu Gegenständen oder Örtlichkeiten.

-----
Willst du keine News mehr verpassen? Dann folge uns auf Twitter oder werde Fan auf Facebook. Du kannst natürlich in Ergänzung unsere iPhone und iPad-App mit Push-Benachrichtigungen hier kostenlos laden.

Gefällt Dir der Artikel?

 
 
Roman van Genabith
twitter Google app.net mail

1 Kommentar zu dem Artikel "Großer Schritt nach langer Wartezeit: Gemini und ChatGPT lernen sehen"

  1. Quad112233 14. Dezember 2024 um 22:02 Uhr ·
    Ich setzte da auf ChatGBT. Ich hoffe da Apple alles auch demnächst in die EU bringt. Ich mag KI 🤖 Ausnahmen gibts natürlich trotzdem.
    iLike 0

Leider kann man keine Kommentare zu diesem Beitrag mehr schreiben.