AAP'2026 Projet Entrelacé·es
Résumé :
Dans un cadre spécifique mêlant spectacle vivant, performance
artistique et briques technologiques, le projet Entrelacé·es,
conjointement mené à l’Université Paris 8 et à la Fabrique de
la Danse, a pour premier objectif l’étude, la conception et la
réalisation d’une solution de suivi temps-réel de silhouettes
à partir de captation sans marqueurs. Plus spécifiquement, il
s’agit d’extraire, dans des conditions scéniques
contraignantes, les informations nécessaires pour analyser la
performance d’un couple de danseur·euses de Tango tout en
générant des images projetées directement sur les corps
distinctement identifiés des interprètes. Entrelacé·es
s’insère ainsi dans une problématique plus large : comprendre,
modéliser et interpréter le mouvement de deux corps en
interaction étroite. Le Tango constitue un cas
particulièrement exigeant, car il repose sur un entrelacement
dynamique : distinguer, suivre et caractériser en temps-réel
deux silhouettes fortement imbriquées constitue donc un défi
majeur, tant sur le plan mise en place d’un dispositif de
captation/projection facilement (re)exploitable que sur le
plan algorithmique.
Enfin, cette recherche s’articule de manière plus large avec
les enjeux artistiques du projet Amour, proposé
par A.D.T. Company compagnie théâtrale engagée
dans une lecture actualisée et vivante du Tango Argentin et en
incarne une vision physique, sensible et créative.
Objectifs et premières étapes :
Les objectifs du projet sont de fournir à terme, un protocole
d'entraînement (si nécessaire) et des solutions logicielles
(qui seraient disponibles en Open Source) pour les briques
“captation” et “projection” peu dépendantes, ou du moins avec
des contraintes minimales, sur le matériel devant être
utilisé.
L'intérêt est ainsi porté en priorité sur la segmentation
d'instances et la détection d'objets, plus particulièrement
“la posture humaine” , en temps-réel, domaine lié à la vision
par ordinateurs et généralement appliqué à la robotique, usant
souvent de matériel spécifique ou fonctionnant dans des
conditions in vitro. Sans écarter les approches algorithmiques
(ie. explicables) [1], le domaine est depuis plus d’une
décennie largement dominé par les approches neuronales (ou
modèles à apprentissage automatique) [2] qui seront étudiées
et devront être ajustées (ie. fine tuning) en fonction des
captations réalisées in situ. Plusieurs défis sont à relever
dont celui de différencier les silhouettes des deux
interprètes, ou encore ceux liés aux conditions d’éclairage
[3] (cf. figure 1), même lors de l’acquisition des données
“d'entraînement” , sans négliger les interférences (boucle de
rétroaction) qui seront produites par la projection guidée par
la captation.
Ainsi, la première partie du projet se déroule en plusieurs
étapes conduisant à la réalisation d'une PoC fonctionnelle :
-
Étude et consolidation de de l’état de l’art spécifique
aux contraintes du projet.
Choix du matériel de captation en conséquence : pas de
marqueurs ni dispositifs embarqués (incompatibles avec les
choix artistiques, perturbe la performance) ; caméra temps
de vol (peu probable, interférences) ; une à deux caméras
semi-professionnelles (estimation de la profondeur [4]) ;
caméra IR avec capteur de profondeur (Kinect(1)-like,
interférences possibles, peut être combinée avec RGB) ;
captation du son pour un usage futur (aspect temporel /
cohérence par rapport à la chorégraphie).
Définition du protocole expérimental et premières
captations (sans projection).
Choix du type de réseau, dimensionnement (IA frugale)
et filtrage des entrées si nécessaire afin d’établir un
premier modèle de pipeline GPU fonctionnel avec les données
acquises.
Interfaçage avec le module projection (prototype
existant chez A.D.T., portage si besoin), tests et
adaptation du pipeline.
Quelques références liées au projet :
[1] Thomas B. Moeslund, Adrian Hilton, Volker Krüger. A survey
of advances in vision-based human motion capture and
analysis. Computer Vis. Image Underst., Volume 104, Issue 2
(2006).
[2] C. Zheng, W. Wu, C. Chen, T. Yang, S. Zhu, J. Shen,
N. Kehtarnavaz, M. Shah. Deep Learning-based Human Pose
Estimation: A Survey. ACM Comput. Surv. 56(1) (2024).
[3] C. Chen, Q. Chen, M. Do et V. Koltun. Seeing Motion in the
Dark. IEEE/CVF International Conference on Computer Vision
(ICCV), Seoul, Korea (South), pp. 3184-3193 (2019).
[4] Reiner Birkl, Diana Wofk, Matthias Müller. MiDaS v3.1 – A
Model Zoo for Robust Monocular Relative Depth Estimation. CoRR
abs/2307.14460 (2023).
Contacts : Farès Belhadj et Louis Falissard