Un médecin vietnamien utilise l'intelligence artificielle pour convertir du texte en image › - 1

>> Professeur vietnamien à l’Université d’Oklahoma

>> Un professeur vietnamien décoré de l’Ordre japonais du Soleil Levant

Le modèle Party permet aux utilisateurs de créer des images basées sur des invites de texte intégrées. Photo : CTV/CVN

Le Dr Luong Minh Thang, 34 ans, est le seul Vietnamien dans un groupe de recherche clé sur le modèle d’intelligence artificielle (IA) Parti (Pathways Autoregressive Text-to-Image). Ce travail a été soumis en 2021 par Google.

Le langage est l’un des éléments fondamentaux de la communication humaine, et c’est grâce à une meilleure compréhension de celui-ci que Party AI obtient d’aussi bons résultats dans la création d’images à partir de textes. Avec lui, les utilisateurs peuvent désormais transformer leurs propres idées créatives en images. « C’est un grand pas en avant dans le domaine de l’intelligence artificielle », a déclaré Thang.

Progrès technologique

Il a partagé que les modèles d’IA actuels sont appliqués aux langues via des modèles de chatbot qui peuvent interagir avec les gens via des messages texte. Dans le domaine de l’imagerie, l’IA peut reconnaître des objets dans des images. « Si nous combinons ces deux éléments pour convertir le langage textuel en images, cela créera un modèle d’IA très moderne qui pourra efficacement soutenir les personnes dans le domaine de la création d’images », a-t-il noté, expliquant pourquoi le modèle de parti a été créé.

Dr. Luong Minh Thang.

Le générateur de Parti vous permet de créer des images exactement comme décrit et souhaité par l’utilisateur. À l’avenir, ce sera un outil efficace pour les personnes spécialisées dans la création d’images, telles que les artistes, les photographes, les créateurs de mode, les graphistes, etc. Lorsqu’ils ont des idées, il leur suffit de les décrire avec suffisamment de détails, et l’IA fera le reste.

Parti AI commence par convertir un ensemble d’images en une séquence d’entrées de code, semblable à des pièces de puzzle. La commande de texte de l’utilisateur est ensuite convertie à l’aide de ces séquences de code, créant une nouvelle image. Ceci est important pour l’approche car cela facilite le traitement de commandes longues et complexes. Il aide également à créer des images de haute qualité. Ce modèle intègre efficacement et représente graphiquement les informations globales. D’autant plus qu’il restitue des images hyperréalistes à partir d’entrées de texte avec un encodeur-décodeur pouvant contenir jusqu’à 20 milliards de paramètres.

« Sur la base de données textuelles et d’images, l’intelligence artificielle les combinera pour créer une nouvelle photo, aidant les gens à trouver de nouvelles idées », a déclaré Thang.

Les sujets les plus représentés par le modèle Parti sont la nature, les animaux, les objets… Il existe de nombreuses images générées par l’IA sur le site Google Research qui peuvent passer pour de vraies photographies.

Selon l’équipe de recherche, les images liées aux personnes sont soigneusement traitées par l’équipe : il est absolument essentiel d’éviter d’impacter négativement les communautés en termes de genre, d’ethnie, de religion, etc., de les stigmatiser ou de reproduire des stéréotypes.

Opportunités et risques

Un médecin vietnamien utilise l'intelligence artificielle pour convertir du texte en image › - 3

L’inconvénient actuel est qu’avec des documents trop longs, contenant trop de détails ou décrivant des images incohérentes (comme la mer à côté d’un désert), l’IA peut mal interpréter ou même ne pas produire de résultats.

Le Dr Thang a déclaré que l’équipe surmonterait cette limitation à l’avenir pour développer un modèle d’IA plus complet. L’équipe a cherché à enseigner à l’IA comment éditer des images à la demande pour mieux correspondre aux textes des utilisateurs, ainsi que rechercher et créer des vidéos à partir de plusieurs photos avec un contenu similaire.

Aujourd’hui, les modèles d’images textuelles, y compris Parti, présentent de nombreuses opportunités, mais aussi des risques, notamment la reproduction de biais et de stéréotypes dans les ensembles de données d’IA, ou l’utilisation abusive d’un outil pour créer des faux profonds avec des implications notables pour la sécurité, la communication visuelle, la désinformation, la créativité. , et l’art. Face à cette situation, le géant américain de la technologie Google n’a pas utilisé le texte publié pour former l’IA. Il a également décidé de ne pas publier de modèles, de données ou de codes de fête pour des raisons de sécurité jusqu’à ce que des mesures de sécurité supplémentaires soient en place.

Luong Minh Thang était un ancien étudiant en mathématiques à l’Université nationale du Vietnam pour les surdoués à Ho Chi Minh-Ville (VNU-HCM Gifted High School). Après avoir obtenu son diplôme d’études secondaires, il a étudié l’informatique à l’Université nationale de Singapour. En 2011, il a reçu une bourse de doctorat de l’Université de Stanford (États-Unis). En septembre 2016, il a officiellement travaillé chez Google Brain, spécialisé dans l’apprentissage automatique et le traitement du langage naturel.

Ha An – Phuong Nga/CVN

.