On parle de plus en plus d' »analyse video par IA » dans le sport. Mais que se passe-t-il concretement quand un algorithme « regarde » un match de football ou de basket ? Quelles technologies entrent en jeu ? Quelles sont leurs limites ? Un tour d’horizon clair, sans jargon inutile.
Qu’est-ce que la computer vision ?
La computer vision (ou vision par ordinateur en francais) est le champ de l’intelligence artificielle qui apprend aux machines a « voir » et a interpreter des images et des videos. L’objectif : permettre a un systeme informatique de comprendre le contenu visuel d’une image aussi bien qu’un humain — voire mieux, pour certaines taches specifiques.
Pour un etre humain, voir un match de football semble naturel et instantane. Notre cerveau detecte les joueurs, le ballon, les lignes de terrain, les mouvements — le tout simultanement et sans effort conscient. Pour un ordinateur, c’est un probleme extremement complexe qui a necessite des decennies de recherche pour atteindre des niveaux de performance utiles.
La revolution est survenue dans les annees 2010 avec l’avemement des reseaux de neurones profonds (deep learning), qui ont permis des bonds de performance spectaculaires sur des taches de reconnaissance visuelle. Aujourd’hui, les meilleurs modeles de computer vision surpassent les humains sur certaines taches specifiques — comme compter le nombre exact d’actions dans une video de match ou detecter des mouvements subtils qui echappent a l’oeil nu.
Les briques techniques de la computer vision sportive
1. La detection d’objets
La premiere brique est la detection d’objets : identifier et localiser des elements specifiques dans une image. Dans le contexte sportif, cela signifie detecter les joueurs, le ballon, les lignes de terrain, les buts, les arbitres.
L’algorithme le plus utilise aujourd’hui pour la detection d’objets en temps reel s’appelle YOLO (You Only Look Once). Son nom reflete son approche : au lieu d’analyser l’image en plusieurs passes, YOLO traite l’image entiere en une seule passe du reseau de neurones. Cela le rend extrêmement rapide — capable de traiter des dizaines d’images par seconde — tout en maintenant une tres bonne precision.
Concretement, YOLO divise l’image en une grille, et pour chaque cellule de la grille, predit si elle contient un objet d’interet, ou est cet objet (coordonnees du rectangle englobant), et de quelle classe il s’agit (joueur, ballon, arbitre…).
Les modeles sont entraines sur des milliers d’images annotees manuellement — des images ou un humain a trace le rectangle autour de chaque joueur et du ballon, et indique leur classe. Ce processus d’annotation est couteux et chronophage, ce qui explique pourquoi les donnees d’entrainement specialisees pour le sport sont precieuses.
2. Le tracking multi-objets
Detecter des objets image par image, c’est bien. Mais pour l’analyse sportive, il faut aller plus loin : suivre chaque joueur de maniere continue tout au long du match, en lui attribuant un identifiant unique qui persiste meme quand il sort du champ de camera ou est momentanement cache par un autre joueur.
C’est la tache du tracking multi-objets (Multi-Object Tracking, MOT). Deux algorithmes dominent ce domaine aujourd’hui :
- ByteTrack : un algorithme particulierement robuste qui utilise toutes les detections, y compris celles avec un score de confiance faible, pour maintenir le suivi meme dans des situations difficiles (occlusion partielle, mouvements rapides, joueurs proches les uns des autres).
- DeepSORT : une approche qui combine le mouvement predit (via un filtre de Kalman) avec des caracteristiques visuelles (l’apparence du joueur) pour maintenir les identites dans le temps. Particulierement utile quand des joueurs en maillots similaires se croisent.
En pratique, la confusion entre joueurs de la meme equipe (meme maillot, morphologie similaire) reste un des defis majeurs du tracking sportif. Les meilleures solutions combinent plusieurs sources d’information : la position predite, l’apparence visuelle, le numero de maillot (si lisible), et la logique du jeu.
3. La reconnaissance d’actions
Une fois les joueurs et le ballon detectes et trackés, on peut passer a la couche superieure : comprendre ce qui se passe. Un joueur court-il ou marche-t-il ? Est-ce un tir, une passe, un dribble, un tacle ? Une action implique-t-elle le ballon ou non ?
La reconnaissance d’actions (action recognition) analyze des sequences de plusieurs images successives pour identifier des patterns temporels. Un tir en basketball n’est pas un etat statique — c’est une sequence de mouvements qui s’etend sur plusieurs dixiemes de secondes. Les reseaux de neurones recurrents (LSTM, transformers video) sont particulierement adaptes a cette tache car ils capturent les dependances temporelles.
La granularite de la reconnaissance d’actions est un compromis entre la difficulte technique et l’utilite pratique. Distinguer « joueur avec ballon » de « joueur sans ballon » est relativement simple. Distinguer « tir a deux points depuis le milieu de la raquette » de « tir a deux points depuis le coin basse » demande un niveau de precision beaucoup plus eleve.
4. L’estimation de pose
Une brique plus recente et de plus en plus utilisee est l’estimation de pose (pose estimation) : detecter les points cles du corps humain (epaules, coudes, poignets, hanches, genoux, chevilles) et reconstruire la posture corporelle en 2D ou en 3D.
Dans le sport, l’estimation de pose ouvre des applications comme l’analyse de la technique individuelle (la posture d’un tireur, l’angle d’appui d’un sauteur), la detection precoce de risques de blessure (asymetries de charge), ou la quantification precise de l’effort physique.
La difficulte principale est la robustesse dans les situations de contact ou d’occlusion partielle — quand deux joueurs sont proches l’un de l’autre, l’algorithme peut confondre les membres. C’est un axe de recherche tres actif.
Application au sport : comment tous ces elements s’assemblent
Dans un logiciel comme ASTRA, ces briques technologiques sont integrees dans un pipeline complet :
L’entrainement des modeles : d’ou vient « l’intelligence » ?
Les modeles de computer vision ne sont pas programmes a la main. Ils apprennent a partir de donnees. Le processus d’entrainement fonctionne ainsi :
Des milliers (parfois des millions) d’images sont annotees manuellement par des humains : on trace les rectangles, on nomme les elements, on identifie les actions. Ces donnees annotees sont utilisees pour « entrainer » le reseau de neurones — un processus d’optimisation mathematique ou le modele ajuste progressivement ses millions de parametres pour minimiser ses erreurs de prediction sur les donnees connues.
La qualite et la diversite des donnees d’entrainement sont determinantes. Un modele entraine uniquement sur des matchs de football filmees en pleine journee avec une camera professionnelle aura du mal a analyser un match de handball en salle sous eclairage artificiel filmé avec un smartphone. Les meilleures solutions sportives investissent massivement dans la diversite de leurs donnees d’entrainement pour assurer la robustesse dans les conditions reelles.
La difference avec le suivi GPS
Une question revient souvent : quelle est la difference entre la computer vision et le suivi GPS utilise par certains clubs professionnels ?
| Aspect | Computer vision | GPS / capteurs |
|---|---|---|
| Materiel requis | Camera standard | Gilet GPS sur chaque joueur |
| Cout d’equipement | Faible (camera existante) | Eleve (gilets + infrastructure) |
| Donnees generees | Video + statistiques + trajectoires | Trajectoires + donnees physiologiques |
| Analyse du ballon | Oui | Non (le ballon n’a pas de capteur) |
| Analyse post-match | Oui (video disponible) | Donnees numeriques uniquement |
| Precision de localisation | Tres bonne (sub-metre en conditions favorables) | Excellente (GPS) / tres bonne (UWB) |
| Applicable aux adversaires | Oui (analyse de video) | Non (pas de capteurs sur l’adversaire) |
Les deux approches sont complementaires. Le GPS/capteurs excellent pour le suivi physiologique et la charge d’entrainement. La computer vision excelle pour l’analyse tactique et la preparation adverse.
Precision et limites : etre honnete sur ce que l’IA peut et ne peut pas faire
La computer vision sportive a fait des progres enormes ces cinq dernieres annees. Mais elle a aussi des limites qu’il est important de connaitre :
- Qualite de la video : les modeles sont sensibles a la qualite d’image. Un match filme en basse resolution, avec une camera qui bouge, ou dans des conditions de lumiere difficiles donnera des resultats moins bons.
- Situations de contact : quand plusieurs joueurs se chevauchent dans l’image, la detection et le tracking deviennent plus difficiles.
- Contexte tactique : un algorithme peut detecter qu’un joueur se positionne a tel endroit, mais ne peut pas (encore) comprendre si c’est un choix tactique delibere ou une erreur. L’interpretation reste du domaine humain.
- Sports moins representes : les modeles sont generalement plus precis sur les sports avec plus de donnees d’entrainement (football en tete) que sur des sports moins filmes.
Le futur : vers la 3D et le temps reel
Les avancees actuelles de la recherche pointent vers deux directions principales :
La reconstruction 3D a partir de videos 2D : en combinant plusieurs angles de camera ou en utilisant des modeles de profondeur monoculaire (estimation de la profondeur a partir d’une seule camera), il devient possible de reconstruire la position tridimensionnelle des joueurs et du ballon. Cela permet une analyse spatiale encore plus precise des distances, des angles et des volumes de jeu.
L’analyse en temps reel : les premiers systemes d’analyse video IA en temps reel font leur apparition dans les sports professionnels — capables de detecter les evenements et de generer des statistiques dans les secondes qui suivent l’action. Les contraintes de puissance de calcul restent un frein, mais la tendance est clairement a l’acceleration du traitement.
Pour approfondir le sujet de l’IA dans le sport, consultez notre article sur comment l’intelligence artificielle revolutionne l’analyse video sportive.
Questions frequentes
Pret a transformer votre club ?
Ils soutiennent ORION SporTech




