Intelligence artificielle : la recherche d’informations sur internet va devenir à la fois visuelle et vocale

Aujourd'hui c'est demain Anicet Mbida Du lundi au vendredi à 5h51 et 7h26

En associant la voix et l'image, l'intelligence artificielle doit nous permettre de résoudre plein de problèmes et de répondre à des questions de plus en plus compliquées. Bien entendu, l'utilisation d'un smartphone est nécessaire.

Anicet Mbida

Radio France

Publié le 07/10/2024 12:14 Mis à jour le 07/10/2024 12:15

Temps de lecture : 2min

Le système va analyser l’image, décoder ce que l’on a dit et effectuer la recherche avec le maximum d’éléments de contexte (photo d'illustration, le 24 novembre 2021). (PICTURE ALLIANCE / PICTURE ALLIANCE)

Plutôt que de s’énerver avec ses gros doigts sur le tout petit clavier, il suffira, par exemple, de pointer le ciel et de dire : "quels sont ces nuages ?". De viser un sac qui nous a tapé dans l’œil et de dire : "combien ça coûte ?" ou "où est-ce qu’on peut l’acheter ?" Le système va analyser l’image, décoder ce que l’on a dit et effectuer la recherche avec le maximum d’éléments de contexte.

La fonction est déployée actuellement, en ce mois d'octobre, dans l’application Google Lens. Début 2025, elle sera intégrée en standard aux derniers iPhone via une mise à jour (pour l’activer, il suffira d’appuyer sur le bouton photo). L’objectif ? Faire des recherches plus naturelles, comme si l'on demandait à quelqu’un. On pourra être assez vague et dire "à quoi sert ce truc ?" C’est tout l’intérêt d’associer la voix et l’image. Cela permet de mieux comprendre dans quel contexte se fait la demande.
Autre nouveauté : on pourra également poser sa question sur une vidéo. Imaginez, vous avez un appareil en panne. Il y a plein de lumières qui clignotent. Eh bien, il suffit de les filmer et de demander "Quelle est cette panne ?". Là encore, il va interpréter la vidéo, comprendre la question et son contexte, puis récupérer les informations correspondantes sur les forums, les blogs et les sites web. Il est quand même plus facile de montrer son problème que d’essayer de le décrire. La fonction arrive également dans Google Lens, mais il faut d’abord l’activer sur Google Labs.

Le dispositif ne fonctionne pas encore avec les sons

Hélas, ça ne marche pas avec les modulations sonores Inutile de lui poser la question "pourquoi ma voiture fait ce drôle de bruit ?" C’est la limite des modèles d’intelligence artificielle derrière ces outils. Pour l’instant, ils ne sont entraînés que sur des images, des vidéos et du texte, pas encore sur du son. Bizarrement, ce n’est pas une priorité pour les géants de la tech. Mais cela le deviendra probablement s’ils veulent que les machines comprennent mieux l’environnement dans lequel elles évoluent.