Le développeur d’intelligence artificielle OpenAI est entré en octobre avec plusieurs mises à jour de ses modèles, aidant ses modèles d’IA à engager de meilleures conversations et à améliorer la reconnaissance d’images.
Le 1er octobre, OpenAI a dévoilé quatre mises à jour qui introduisent de nouveaux outils conçus pour permettre aux développeurs de s’appuyer plus facilement sur ses modèles d’IA.
Ça parle !
Un majeur mise à jour est l’API Realtime, qui permet aux développeurs de créer des applications vocales générées par l’IA à l’aide d’une seule invite.
L’outil, disponible pour les tests, prend en charge les expériences multimodales à faible latence en diffusant des entrées et des sorties audio, permettant des conversations naturelles similaires au mode vocal avancé de ChatGPT.
Auparavant, les développeurs devaient « assembler » plusieurs modèles pour créer ces expériences. L’entrée audio devait généralement être entièrement téléchargée et traitée avant de recevoir une réponse, ce qui signifiait une latence plus élevée pour les applications en temps réel telles que les conversations vocales.
En rapport: Apple et Google utiliseront l’IA pour maintenir leur domination — ARK Invest de Cathie Wood
Grâce à la capacité de streaming de l’API Realtime, les développeurs peuvent désormais permettre des interactions immédiates et naturelles, un peu comme les assistants vocaux. L’API fonctionne sur GPT-4, publié en mai 2024, qui peut raisonner en temps réel sur l’audio, la vision et le texte.
L’IA peut voir clairement maintenant
Un autre mise à jour comprend un outil de réglage fin pour les développeurs, leur permettant d’améliorer les réponses de l’IA générées à partir d’images et de saisies de texte.
Les réglages précis basés sur les images permettent à l’intelligence artificielle d’avoir une meilleure capacité à comprendre les images, améliorant ainsi les capacités de recherche visuelle et de détection d’objets, selon le développeur. Le processus inclut les commentaires des humains qui fournissent des exemples de bonnes et de mauvaises réponses.
En plus de ses mises à jour vocales et visuelles, OpenAI roulé la « distillation de modèles » et la « mise en cache rapide », qui permettent aux modèles plus petits d’apprendre des modèles plus grands et de réduire les coûts et le temps de développement en réutilisant le texte déjà traité.
Les capacités avancées de ses modèles constituent un argument de vente clé, dans la mesure où une part importante des revenus d’OpenAI provient des entreprises qui créent leurs propres applications sur la technologie OpenAI.
Selon Selon Reuters, OpenAI prévoit que ses revenus atteindront 11,6 milliards de dollars l’année prochaine, contre 3,7 milliards de dollars estimés en 2024.
Revue: L’IA utilise peut-être déjà plus d’énergie que Bitcoin – et elle menace l’exploitation minière de Bitcoin