La France expérimente la vidéosurveillance algorithmique depuis les Jeux de Paris 2024. Une technologie « miracle » censée assurer la sécurité d’évènements exceptionnels qui pourraient entrer dans la loi malgré ses biais et ses limites.
Surveiller les foules avec l’assistance de l’IA, c’est la solution miracle qui a été adoptée par le gouvernement français pour assurer la sécurité des quelque 7 450 000 spectateurs présents dans les rues et les stades de la capitale lors des Jeux olympiques et paralympiques de Paris 2024. Ce mardi 14 janvier, un rapport attendu du comité d’évaluation a été remis au ministère de l’Intérieur avant d’être consulté par Le Monde. Les résultats ne sont pas glorieux.
La période de liesse estivale coïncidait avec un fort besoin de sécurité afin d’éviter les mouvements de foules et contrecarrer les potentielles attaques terroristes. Un dispositif sans précédent a été déployé en France, notamment lors de la cérémonie d’ouverture des JO qui a rassemblé près de 45 000 policiers et gendarmes pour 326 000 spectateurs, selon les chiffres du COJO. Un déploiement de force de l’ordre utile, puisqu’aucun évènement majeur n’a été déploré, mais la star des Jeux au niveau de la surveillance reste : la vidéosurveillance algorithmique (VSA). Un terme barbare qui décrit une technologie complexe au principe simple. La VSA désigne l’incorporation d’un algorithme de traitement et d’identification des comportements « suspects » dans des caméras de vidéosurveillance. La part de l’intelligence artificielle est importante dans le processus de reconnaissance des évènements à risques. L’association Quadrature du Net, qui lutte contre la propagation des VSA propose cette analyse sur leur site : « ces logiciels sont entrainés avec l’aide de l’IA dans le but de rendre automatique l’analyse des images captées par caméras, jusqu’à présent réalisée par des humains, des opérateurs vidéo au sein de centres de supervision urbains (CSU). »
« À situation exceptionnelle, moyens exceptionnels »
Voté en mars 2023 à l’Assemblée nationale, l’article 7 de la loi relative à l’organisation des Jeux olympiques et paralympiques autorise l’expérimentation du traitement par des algorithmes des images captées par des caméras ou des drones. Cette disposition sécuritaire devait se cantonner au cadre unique des Jeux à titre d’expérimentation. « À situation exceptionnelle, moyens exceptionnels », a justifié l’ancien ministre de l’Intérieur, Gérald Darmanin. L’exception pourrait pourtant se muer en règle. Si le texte de loi affirmait déjà une prolongation de la VSA jusqu’en mars 2025, l’ancien premier ministre, Michel Barnier, proposait en octobre une « généralisation de la méthode expérimentée pendant les Jeux olympiques ». Cette décision devait se baser sur les conclusions du rapport d’évaluation qui s’avère médiocre.
Selon les informations rapportées par Le Monde, le rapport d’évaluation met en évidence les limites de ce système. « Certaines possibilités offertes par la loi, comme l’analyse des images prises par des drones, n’ont ainsi pas été mises en œuvre, en raison d’une maturité technologique insuffisante. Si ces nouveaux outils sécuritaires ont été pensés pour un test de grande ampleur pendant les JO, la présence hors norme des forces de l’ordre sur le terrain a rendu, en fin de compte, la VSA moins utile qu’escompté. » Le logiciel de vidéosurveillance algorithmique Cityvision, développé par la société Wintics, agrégeait les données de centaines de caméras de la RATP ou de la SNCF par exemple. La SNCF a recensé « 270 alertes du logiciel, dont 62 % étaient erronées et seulement 21 ont été jugées pertinentes ». Ces chiffres ne sont pas à la hauteur des attentes démesurées. Difficile alors de soutenir une politique de pérennisation de cette technologie dans l’espace public.
Une solution spectaculaire et peu fiable
La vidéosurveillance algorithmique se base sur une idée spectaculaire d’avoir des caméras en mesure d’identifier le moindre comportement « suspect » de façon fiable grâce à l’entrainement de l’IA (machine learning). Ces logiciels emmagasinent des flux d’images gigantesques et s’entrainent à reconnaitre tout ce qui sort de l’ordinaire à force de répétition (deep learning). Toutefois, pour déterminer ce qui relève du « suspect » ou non, ces algorithmes doivent se fier aux critères qui leur sont fournis. C’est là que se trouve le problème. La création de ces critères est totalement subjective, puisque basée sur des réflexions humaines. La VSA cherche à copier le comportement que pourrait avoir un agent des centres de supervision urbains pour filtrer le flux d’images et en dégager des alertes.
La vidéo de l’association la Quadrature du Net, Les dangers de la vidéosurveillance algorithmique, révèle que la conception des logiciels entraine des biais algorithmiques. Pour la caméra, le comportement normal dans la rue est un piéton qui passe d’un point A à un point B, sans courir, mais sans s’arrêter. Les attitudes les plus suspectes, et donc les plus susceptibles d’être envoyées en alertes, sont les gens qui restent longtemps immobiles. Les membres de la Quadrature du Net ont donc prédit que les personnes les plus soupçonnées seraient les « sans-abris ». Elles qui vivent précisément dans l’endroit scruté. Cette association qui lutte contre les VSA ne s’est pas trompée. Le rapport d’évaluation rapporte que « des alertes ont été envoyées après que des bancs ou des poubelles, voire des personnes assises, comme les sans domicile fixe, ont été pris à tort pour des colis suspects. ». La notion d’identifier ce qui est suspect, à la base l’intérêt pour cette technologie, s’avère alors largement discutable. Pour la Quadrature du Net : « Cette technologie de normalisation des espaces publics s’en prend donc particulièrement aux personnes les plus précaires et marginalisées. Les VSA, développées en toute opacité, laissent la police et les entreprises de la sécurité décider de ce qui sera considéré comme suspect. ». Le cadre légal qui encadre le développement des VSA étant encore léger, il donne toutes libertés aux sociétés de déterminer des critères subjectifs sans droits de regard.
La vidéosurveillance algorithmique est une jeune technologie, peu mature, et en proie aux dérives. Un consultant juridique en cybersécurité spécialiste des nouvelles technologies, Ivan Stievenard, nous a d’ailleurs confié : « Il y a une instrumentalisation politique qui est faite sur l’importance de la vidéoprotection et de la vidéosurveillance algorithmique. » Avant d’ajouter, « la vidéosurveillance est utile dans des cas précis, mais le déploiement d’énergie et d’argent public qui est investi n’est clairement pas à la hauteur des enjeux juridiques, politiques et éthiques que cela soulève. Il faudrait réfléchir à des alternatives moins attentatoires aux libertés individuelles. » En effet, pour apprendre, les logiciels ont besoin d’immenses bases de données. Il faut énormément de data sur chacun d’entre nous pour permettre à une IA de reconnaitre un visage depuis une image de vidéosurveillance.
Ne reste que les attraits politiques et économiques pour justifier la pérennisation de la VSA dans la loi dans le futur. La vidéosurveillance assistée permet de soutenir une politique sécuritaire devant les conseils municipaux ou des électeurs. Elle permet aussi de diminuer les coûts en automatisant des compétences jusque-là détenues par des agents formés.
Tomas Jeusset
Boîte noire : Dans le cadre de mon article sur la vidéosurveillance algorithmique, j’ai échangé avec un consultant en droit du numérique spécialisé dans les nouvelles technologies et l’IA pendant 1 h 30. Pour gagner un peu de temps dans la retranscription de l’interview, j’ai essayé la version gratuite du logiciel Trint. L’opération a été rapide, mais je n’ai pas été convaincu. Le texte était parsemé d’erreurs, d’hallucinations et d’approximations. Reprendre au propre et corriger l’interview m’aurait demandé plus de temps que de la retranscrire moi-même. La version premium, 45 € par mois, est au-delà de mes moyens. J’ai tenté le coup avec la fonction transcription du logiciel de montage Adobe Premier. Le résultat s’est avéré bien plus probant. Moins de fautes et de corrections nécessaires. Afin de m’assurer du sérieux de l’ensemble, j’ai tout de même vérifié chaque mot de l’interview sur le tableau de transcription. Je pense avoir gagné du temps avec cette méthode, mais l’IA n’est pas encore tout à fait au point dans la retranscription. J’ai eu besoin de revérifier à chaque étape. Ensuite, j’ai demandé à Chat GPT de mettre en forme l’interview afin de la rendre plus claire et de souligner les phrases qui semblaient entrer dans mon angle avant de les revérifier. La mise en forme s’est avérée utile, mais pas les suggestions de citations. J’ai souhaité illustrer mon article avec une animation générée par IA. Pour ce faire, j’ai utilisé différents logiciels. Voici ma démarche pour la réalisation de cette animation : Préparation de la chronique : J’ai tout d’abord rédigé la version écrite de mon sujet. Ensuite, j’ai défini une direction artistique et un style visuel. J’ai demandé à Chat GPT de produire des images cohérentes en lien avec mon sujet. Cette étape a nécessité de nombreux ajustements dans les prompts pour obtenir des résultats. Puis, j’ai fait un storyboard du scénario et j’ai demandé à Chat GPT de générer une bande dessinée. Une case par séquence. La bande dessinée est la seule méthode que j’ai trouvée pour assurer une cohérence visuelle. J’ai demandé à Chat GPT de me générer un prompt d’animation pour chaque case et je l’ai écris dans le logiciel Runway en veillant à garder des mouvements subtils pour éviter les erreurs ou hallucinations visuelles de l’IA. Enfin, j’ai assemblé l’audio et les animations dans un logiciel de montage vidéo Adobe Premier. Cette expérience m’a permis d’explorer les potentialités de l’IA dans la production journalistique, mais elle m’a aussi montré les limites actuelles de ces outils, notamment dans la précision et la cohérence des résultats. |