DALL E 2 d’OpenAI a certainement été un choc brutal pour ceux qui pensaient que l’intelligence artificielle ne commencerait jamais à infiltrer le domaine de la créativité, mais ce temps est maintenant venu, et avec Midjourney, le monde de l’intelligence artificielle pourrait changer radicalement ce monde.
Comment fonctionne DALL-E 2 ?
DALL-E 2 semble presque magique. La façon dont ces images extraordinaires et réalistes sont créées à partir de simples mots est presque incroyable. Il faut savoir que DALL-E 2 comporte deux éléments principaux : le premier est le GPT-3, l’algorithme d’apprentissage automatique du langage naturel le plus avancé actuellement disponible. DALL-E 2 utilise également un autre modèle OpenAI connu sous le nom de CLIP (Contrastive Language-Image Pre-training).
GPT-3 et CLIP permettent à un ordinateur de comprendre et de générer un langage naturel sophistiqué. En alimentant le réseau neuronal de DALL-E avec des milliards d’images et leurs descriptions en langage naturel provenant d’Internet, il apprend les relations entre les concepts.
Tout comme la célèbre application “Not a Hotdog” de la série télévisée Silicon Valley, la différence ici est qu’au lieu de demander à l’IA si l’image est un hotdog ou non, vous décrivez le hotdog et elle génère une image de hotdog tout à fait originale basée sur tout ce qu’elle a appris à leur sujet.
La deuxième partie importante de DALL-E est la façon dont il génère les images. Il utilise une méthode connue sous le nom de “diffusion”. Plus précisément, la compréhension d’une description d’image en langage humain qui a été créée est transformée en une image à l’aide d’un modèle OpenAI appelé GLIDE . GLIDE capture une image composée de bruit généré de manière aléatoire, puis élimine progressivement ce bruit jusqu’à ce qu’elle corresponde à l’image telle qu’elle est décrite en langage naturel.
DALL-E 2 n’est pas le premier logiciel d’apprentissage automatique capable de générer des images. Il existe de nombreux systèmes antérieurs et DALL-E 2 s’appuie sur les enseignements tirés de ces autres projets, mais il est devenu populaire parce que les images créées par DALL-E et DALL-E 2 sont les meilleures d’un point de vue esthétique. Les autres systèmes de génération d’images par l’IA créent souvent des images que les gens décrivent comme dérangeantes.
Le système est non seulement capable de créer de belles images haute résolution en quelques secondes à partir d’invites en langage naturel, mais aussi d’éditer et de modifier ces images ou de fournir de multiples variations d’une image existante, même si elle a été fournie par l’utilisateur.
Avec DALL-E 2, les artistes changeront, mais ne disparaîtront pas.
OpenAI a pris soin de ne pas divulguer sa technologie au monde entier. C’est logique, car il y a manifestement beaucoup de possibilités d’abus. Cependant, maintenant qu’ils ont montré que c’était possible, il ne faudra pas attendre longtemps avant que des chercheurs en IA commerciaux ou indépendants reproduisent ce que fait DALL-E et le mettent à la disposition de tous. Même les grands acteurs de l’apprentissage automatique ont leurs propres artistes de l’IA à haute performance qui attendent dans les coulisses, comme Imagen de Google.
La boîte de Pandore ne pouvant être refermée, nous devrons accepter que le monde des arts visuels change irrévocablement, mais cela ne signifie pas que les artistes appartiennent au passé.
Une façon de voir les choses est que cette technologie met le pouvoir de générer de l’art entre les mains de n’importe qui. L’accent n’est plus mis sur la capacité technique de créer des images, mais sur la capacité de décrire avec précision et d’itérer votre vision jusqu’à ce que ce que vous voyez à l’écran corresponde à ce que vous aviez à l’esprit. En d’autres termes, un plus grand nombre de personnes auront désormais la possibilité de s’exprimer visuellement, tout comme un plus grand nombre de personnes peuvent désormais effectuer des calculs précis grâce à l’existence des calculatrices.