„
Hallo und herzlich willkommen bei Eye on AI. In der heutigen Ausgabe… OpenAI veröffentlicht einen leistungsfähigeren Bildgenerator, während Microsoft seinen Anspruch auf Reasoning-Agenten festigt; Google bringt die Gemini 2.5 „denkenden“ Modelle auf den Markt; Amazon testet KI-Assistenten für Gesundheit und Einkäufe; Character.AI gibt Eltern einen Einblick in die Zeit ihrer Kinder auf der Plattform; und die aggressiven Crawler von KI-Unternehmen überwältigen Open-Source-Projekte.
In dieser Woche haben sowohl OpenAI als auch sein Unterstützer (und ehemaliger Rivale… es ist kompliziert) Microsoft einige ihrer neuesten und leistungsstärksten KI-Fähigkeiten in ihre Hauptplattformen integriert. OpenAI hat eine neue Bildgenerierungsfunktion für GPT-4o auf seinem Hauptdienst ChatGPT eingeführt, die verbesserte Bildgenerierung und feinere Bearbeitungsmöglichkeiten basierend auf Texteingaben bietet. Dies macht die Bildgenerierung weit über das hinaus, was mit seinem früheren DALL-E-Modell möglich war. Microsoft kündigte an, sein Microsoft 360 Copilot-Angebot mit zwei „Deep Reasoning Agents“ sowie „Agent Flows“ zu erweitern, die darauf abzielen, einige der Unvorhersehbarkeiten zu beseitigen, die bei der Verwendung von KI-Agenten auftreten.
ChatGPT hatte bereits einen Bildgenerator, und Microsoft hat bereits verschiedene Arten von Agenten für Unternehmen eingeführt. Beide Veröffentlichungen bieten jedoch eine neue Wendung dessen, was sie angeboten haben – und zeigen die Kraft, sofort eine neue Funktion auf einer Plattform ausrollen zu können, die bereits Hunderte von Millionen von Nutzern hat. Eine solche Verbreitung ist ein großer Vorteil, wenn der Wettbewerb zwischen ähnlichen Produkten zunimmt.
4o Bildgenerierung setzt Maßstäbe
Jetzt für ChatGPT Plus, Pro, Team und kostenlose Benutzer verfügbar, beschreibt OpenAI die neue Integration als seine „fortschrittlichste Bildgenerierung überhaupt“. Und ich muss sagen, die Ergebnisse sind beeindruckend.
Insgesamt kann 4o Bildgenerierung lebendige realistische Szenen erzeugen und beeindruckende „Style Transfer“-Transformationen hochgeladener Bilder basierend auf Eingaben erstellen. (Sie können auch Schlüsselfunktionen hochgeladener Bilder nur aus Eingaben heraus bearbeiten.) Basierend auf der Vielzahl von Bildern, die das ChatGPT-Subreddit überfluten, erfreut sich diese Style-Transfer-Fähigkeit großer Beliebtheit. Ein Bild, das das Modell erstellt hat, nachdem ein Benutzer es aufgefordert hatte, das „abgelenkte Freund“-Meme im Stil von „South Park“ zu ändern, ist beispielsweise ehrlich gesagt überraschend präzise im visuellen Look der Show – kein Wunder, dass Unternehmen, die generative KI-Modelle erstellen, mit Urheberrechtsklagen überhäuft werden. Andererseits testen Benutzer bereits die Grenzen, Bilder von öffentlichen Persönlichkeiten wie Donald Trump und Elon Musk zu erstellen. OpenAI bestätigte gegenüber Eye on AI, dass es das neue Bildmodell nicht davon abhält, Bilder von echten Personen zu erstellen, außer in Fällen von Nacktheit oder grafischer Gewalt. Dies stellt einen Wechsel von seinen Einschränkungen für DALL-E dar, das sich weigern würde, Bilder von echten Personen zu generieren.
Vielleicht der interessanteste Fortschritt ist jedoch der massive Sprung in der Fähigkeit des Modells, Text zu generieren. DALL-E und andere zuvor erstellte Bildgenerierungsmodelle würden normalerweise unlesbaren Text erstellen, aber 4o Bildgenerierung kann lange, detaillierte und genaue Textzeichenfolgen innerhalb von Bildern erstellen. Das erste Beispiel im Blogbeitrag von OpenAI zeigt eine ganze Tafel mit Text, der leicht lesbar und genau zur Eingabe ist.
Ein ‚Forscher‘ und ‚Analyst‘ kommen in Ihren 365-Arbeitsbereich
Microsoft beschreibt seine neuen „Deep Reasoning Agents“ für Microsoft’s 365 Copilot als konzipiert, um „komplizierte Aufgaben zu bewältigen, die detaillierte Analyse, methodisches Denken und nuanciertes Verständnis erfordern.“ Basierend auf OpenAI’s o1 Reasoning-Modell ist der Researcher-Agent auf mehrstufige Forschung ausgerichtet und integriert sich mit externen Plattformen wie Salesforce, ServiceNow und Confluence, um Erkenntnisse aus den Daten eines Unternehmens zu gewinnen. Dann gibt es den Analyst-Agent, der auf Open AI’s o3-mini Reasoning-Modell basiert. Microsoft behauptet, dass er zur fortgeschrittenen Datenanalyse bei der Arbeit optimiert ist, kettenförmiges Denken verwendet und Python ausführen kann, um komplexe Datenabfragen zu bewältigen. Beide sollen ab April eingeführt werden.
Zusätzlich zu den neuen Agenten kündigte Microsoft auch eine neue Funktion namens „Agent Flows“ an, die die Verwendung von Agenten vorhersehbarer machen soll. Agent Flows bieten strukturierte, regelbasierte Workflows, die KI-Aktionen integrieren und vordefinierten und deterministischen Pfaden folgen. Dies ist wichtig, denn wie ich in meinem Newsletter vom letzten Donnerstag geschrieben habe, haben KI-Agenten ernsthafte Probleme mit der Zuverlässigkeit und können riskant sein, insbesondere wenn es um kritische Aktionen oder sensible Daten geht.
Verschiedene Unternehmen haben in letzter Zeit KI-Agenten für „tiefe Forschung“ veröffentlicht, aber die zentrale Rolle von Microsoft 365 als Plattform vieler Unternehmen – und die Integration mit all den anderen Datenprodukten, die sie verwenden – verschafft Microsoft einen einzigartigen Vorteil. Das Feld der KI ist voll von Unternehmen, die mit ähnlichen Produkten konkurrieren, die alle um differenzierte Positionen ringen. Diese Updates machen fortgeschrittene KI-Funktionen leicht zugänglich, genau dort, wo die Nutzer beliebter Produkte bereits aktiv sind, was wahrscheinlich ein erheblicher Marktvorteil ist. Darüber hinaus haben sowohl Microsoft als auch Google beschlossen, ihre KI-Funktionen in ihre Unternehmenssoftware standardmäßig zu bündeln – und die Preise für die Kernprodukte erhöht -, nachdem sie den Kunden zuvor erlaubt hatten, sich gegen Aufpreis für die KI-Funktionen zu entscheiden. Das ist der Plattformvorteil.
Und damit sind hier weitere KI-Nachrichten.
Sage Lazzaro
sage.lazzaro@consultant.fortune.com
sagelazzaro.com
Dieser Artikel wurde ursprünglich auf Fortune.com veröffentlicht.
„