AAP Entrelacé·es

AAP'2026 Projet Entrelacé·es

Résumé : Dans un cadre spécifique mêlant spectacle vivant, performance artistique et briques technologiques, le projet Entrelacé·es, conjointement mené à l’Université Paris 8 et à la Fabrique de la Danse, a pour premier objectif l’étude, la conception et la réalisation d’une solution de suivi temps-réel de silhouettes à partir de captation sans marqueurs. Plus spécifiquement, il s’agit d’extraire, dans des conditions scéniques contraignantes, les informations nécessaires pour analyser la performance d’un couple de danseur·euses de Tango tout en générant des images projetées directement sur les corps distinctement identifiés des interprètes. Entrelacé·es s’insère ainsi dans une problématique plus large : comprendre, modéliser et interpréter le mouvement de deux corps en interaction étroite. Le Tango constitue un cas particulièrement exigeant, car il repose sur un entrelacement dynamique : distinguer, suivre et caractériser en temps-réel deux silhouettes fortement imbriquées constitue donc un défi majeur, tant sur le plan mise en place d’un dispositif de captation/projection facilement (re)exploitable que sur le plan algorithmique.
Enfin, cette recherche s’articule de manière plus large avec les enjeux artistiques du projet Amour, proposé par A.D.T. Company compagnie théâtrale engagée dans une lecture actualisée et vivante du Tango Argentin et en incarne une vision physique, sensible et créative.

Objectifs et premières étapes : Les objectifs du projet sont de fournir à terme, un protocole d'entraînement (si nécessaire) et des solutions logicielles (qui seraient disponibles en Open Source) pour les briques “captation” et “projection” peu dépendantes, ou du moins avec des contraintes minimales, sur le matériel devant être utilisé.
L'intérêt est ainsi porté en priorité sur la segmentation d'instances et la détection d'objets, plus particulièrement “la posture humaine” , en temps-réel, domaine lié à la vision par ordinateurs et généralement appliqué à la robotique, usant souvent de matériel spécifique ou fonctionnant dans des conditions in vitro. Sans écarter les approches algorithmiques (ie. explicables) [1], le domaine est depuis plus d’une décennie largement dominé par les approches neuronales (ou modèles à apprentissage automatique) [2] qui seront étudiées et devront être ajustées (ie. fine tuning) en fonction des captations réalisées in situ. Plusieurs défis sont à relever dont celui de différencier les silhouettes des deux interprètes, ou encore ceux liés aux conditions d’éclairage [3] (cf. figure 1), même lors de l’acquisition des données “d'entraînement” , sans négliger les interférences (boucle de rétroaction) qui seront produites par la projection guidée par la captation.
Ainsi, la première partie du projet se déroule en plusieurs étapes conduisant à la réalisation d'une PoC fonctionnelle :

Étude et consolidation de de l’état de l’art spécifique aux contraintes du projet.
Choix du matériel de captation en conséquence : pas de marqueurs ni dispositifs embarqués (incompatibles avec les choix artistiques, perturbe la performance) ; caméra temps de vol (peu probable, interférences) ; une à deux caméras semi-professionnelles (estimation de la profondeur [4]) ; caméra IR avec capteur de profondeur (Kinect(1)-like, interférences possibles, peut être combinée avec RGB) ; captation du son pour un usage futur (aspect temporel / cohérence par rapport à la chorégraphie).
Définition du protocole expérimental et premières captations (sans projection).
Choix du type de réseau, dimensionnement (IA frugale) et filtrage des entrées si nécessaire afin d’établir un premier modèle de pipeline GPU fonctionnel avec les données acquises.
Interfaçage avec le module projection (prototype existant chez A.D.T., portage si besoin), tests et adaptation du pipeline.

Quelques références liées au projet :
[1] Thomas B. Moeslund, Adrian Hilton, Volker Krüger. A survey of advances in vision-based human motion capture and analysis. Computer Vis. Image Underst., Volume 104, Issue 2 (2006).
[2] C. Zheng, W. Wu, C. Chen, T. Yang, S. Zhu, J. Shen, N. Kehtarnavaz, M. Shah. Deep Learning-based Human Pose Estimation: A Survey. ACM Comput. Surv. 56(1) (2024).
[3] C. Chen, Q. Chen, M. Do et V. Koltun. Seeing Motion in the Dark. IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), pp. 3184-3193 (2019).
[4] Reiner Birkl, Diana Wofk, Matthias Müller. MiDaS v3.1 – A Model Zoo for Robust Monocular Relative Depth Estimation. CoRR abs/2307.14460 (2023).

Contacts : Farès Belhadj et Louis Falissard