Le Deep Learning AF est à la base de l’incroyable autofocus des derniers appareils photo Canon, mais qu’est-ce que le Deep Learning ?
Canon a fait beaucoup de bruit autour de son nouveau système AF Deep Learning, qui semble incroyablement intelligent et avancé en tant que système, mais de nombreuses questions se posent. Qui l’enseigne ? Le système apprend-il au fur et à mesure de la prise de vue ? S’agit-il vraiment d’une intelligence artificielle dans un appareil photo ? Améliore-t-il réellement l’autofocus ?
Les mécanismes de mise au point automatique du Canon EOS-1D X Mark III sont incroyablement intelligents et prennent en charge deux systèmes AF distincts. Le premier est le système optique, qui enregistre 16 images par seconde dans le viseur, en utilisant un capteur de mesure de 400 000 pixels associé à un processeur Digic 8 dédié, pour l’AF 191 points capable de suivre les visages.
Il y a ensuite le système Live View, capable de prendre 20 images par seconde, en utilisant les 20,1 millions de pixels du capteur d’image combinés au nouveau processeur Digic X, pour 3 869 points CMOS Dual Pixel capables d’exécuter l’AF Full Eye Detect.
Ces deux systèmes sont alimentés par la technologie EOS iTR AFX de Canon, la dernière itération de l’autofocus à détection et reconnaissance intelligente, qui a fait ses débuts dans l’EOS-1D X original (et qui a ensuite été intégrée aux familles 7D Mark II et 5D). L’algorithme d’apprentissage profond (Deep Learning) est enfoui dans ses circuits.
Il ne s’agit pas d’intelligence artificielle
Tout d’abord, il est important de préciser que le Deep Learning ne doit pas être confondu avec l’intelligence artificielle (IA). Un système d’intelligence artificielle est un système en développement permanent. Le Deep Learning, ou machine learning, est un sous-ensemble de l’intelligence artificielle.
Contrairement à l’intelligence artificielle proprement dite, le deep learning est un processus fermé. Il s’agit d’un algorithme de pré-assemblage qui permet à l’architecture de la caméra d’apprendre par elle-même, beaucoup plus rapidement qu’elle ne pourrait être programmée manuellement par des ingénieurs humains. Une fois cet apprentissage terminé, il est verrouillé et chargé dans l’appareil photo.
En donnant à l’algorithme de Deep Learning l’accès à une vaste bibliothèque d’images, allant de gymnastes renversés à des joueurs de hockey portant des protections et des casques, il est capable d’apprendre et de différencier la forme humaine dans une variété infinie de situations – et est finalement capable d’effectuer cette “détection de tête”, de sorte que même si le visage de la personne n’est pas visible, la tête est toujours le point focal principal.
En fait, l’algorithme crée deux bases de données : l’une pour servir le système AF du viseur optique et la mesure, en utilisant le Digic 8, et l’autre pour servir le système AF Live View, en utilisant le Digic X. Comme c’est le Digic X qui effectue tous les calculs de suivi de la tête, dès que l’algorithme AF détecte une personne dans le cadre, tout est transféré au nouveau processeur.