Une jolie démonstration de reconnaissance d’images

Si pour les êtres humains, du moins pour la grande majorité d’entre eux, il est assez facile de reconnaître ce que représente une photo ou une image, faire effectuer la même tâche à un programme informatique n’est pas une sinécure. Les processus mis en œuvre sont complexes et pour le profane que je suis, je demeure émerveillé quand un vulgaire algorithme a assez d’intelligence pour décrire le contenu d’une photo.
C’est l’objectif de l’application en ligne Toronto Deep Learning qui sous la forme d’une démonstration très simple d’emploi montre l’étendue des avancées dans le domaine de la reconnaissance d’images. Pour les développeurs, les sources de l’application (essentiellement développée en C++) et des explications détaillées très techniques sont mises à disposition sur le site du projet.

toronto-deep-learning

La démonstration est scindée en deux parties. À partir du premier onglet Image Classification, à partir d’une image de démonstration, d’un lien vers une image ou d’une image à télécharger pour analyse, on obtient une liste de mots-clés censés caractériser une photo. C’est en général suffisamment exact, mais il est toujours possible d’aider à la reconnaissance en donnant son appréciation, bien humaine cette fois, à l’image analysée, en acceptant ou en rejetant les classifications de l’algorithme de reconnaissance. Des images similaires sont également proposées. Par exemple, l’application reconnaît à coup sûr un animal (chat, chien…), un monument, des éléments dans un paysage, etc.
Sur le second onglet Image to Text, avec les mêmes principes de fonctionnement, l’application est capable de décrire l’image ou la photo qui lui est soumise (par exemple : un chat qui se cache, un chat qui joue, un chat qui se sauve…) et de donner une appréciation qualitative sur la représentation : adorable, mignon, poilu…

Si techniquement, la démonstration informatique est plutôt impressionnante (même si je suis bon public), il n’en reste pas moins que ces techniques me font un peu froid dans le dos, surtout quand elles seront généralisées pour effectuer des besognes de basse police ou à des fins publicitaires, ce qui tôt ou tard ne manquera pas d’arriver.

Source : Toronto Deep Learning

Publicités

Les commentaires sont fermés.

%d blogueurs aiment cette page :