Le Perceptron — Pourquoi Une Seule Ligne Compte Encore

En 1958, Frank Rosenblatt construisit une machine capable d’apprendre. Non pas d’être programmée—d’apprendre. Le Perceptron Mark I était une pièce de câbles et de potentiomètres motorisés reliés à une grille de quatre cents photocellules, et lorsqu’on lui montrait des images, il s’ajustait lui-même jusqu’à pouvoir les distinguer. Le New York Times rapporta que la Marine s’attendait à ce qu’il puisse bientôt « marcher, parler, voir, écrire, se reproduire et être conscient de sa propre existence. » Il ne pouvait faire aucune de ces choses. Ce qu’il pouvait faire, c’était tracer une ligne.

Voilà toute l’histoire, et elle mérite d’être racontée lentement, car la ligne que Rosenblatt traça en 1958 est la même ligne qui traverse chaque système que nous appelons aujourd’hui intelligence artificielle. Le perceptron n’a pas échoué. Nous avons simplement appris à l’empiler.

I. Le Classifieur le Plus Simple Possible

Réduisez un perceptron à sa logique et presque rien ne subsiste. Il prend une poignée d’entrées, multiplie chacune par un poids, les additionne et pose une seule question : le total est-il au-dessus d’un seuil ou en dessous ? Au-dessus, il s’active ; en dessous, il se tait. Voilà le mécanisme entier.

Géométriquement, c’est une ligne. Ou, en dimensions supérieures, un plan qui tranche l’espace en deux. Les poids inclinent et déplacent la ligne ; apprendre signifie pousser les poids jusqu’à ce que la ligne tombe entre vos deux classes—chats au-dessus, chiens en dessous. La contribution de Rosenblatt fut la règle de l’ajustement : une procédure qui, exposée à assez d’exemples étiquetés, convergeait vers une ligne séparatrice si une telle ligne existait. Sans caractéristiques codées à la main, sans humain rédigeant des règles sur l’apparence d’un chat. La machine trouvait la frontière elle-même. En 1958, ce n’était pas de l’ingénierie ; c’était quelque chose de plus proche de la prophétie.

II. Le Plafond du XOR

La prophétie avait un mur, et Marvin Minsky et Seymour Papert le trouvèrent. Leur livre de 1969, Perceptrons, démontra, avec une rigueur irréfutable, qu’un seul perceptron ne peut calculer le XOR—la fonction qui renvoie vrai lorsque ses deux entrées diffèrent et faux lorsqu’elles coïncident.

Tracez les quatre cas du XOR sur un plan et le problème saute aux yeux. Les deux points vrais se trouvent dans des coins opposés ; les deux points faux dans les deux autres. Aucune ligne droite ne peut séparer une paire de l’autre. Il faudrait deux lignes, ou une courbe—et un perceptron solitaire n’a qu’une ligne à offrir.

Le problème du XOR : quatre points sur un plan, deux points vrais dans des coins opposés, deux points faux dans les deux autres coins, et une seule ligne incapable de les séparer.

La preuve était impeccable ; ses conséquences ne l’étaient pas. Perceptrons fut lu moins comme « voici une limite précise d’une architecture » que comme « voici pourquoi toute cette direction est une impasse. » Le financement s’évapora. Le domaine se tut pendant près d’une décennie—le premier hiver de l’IA. L’ironie est tranchante : le XOR est un jouet, deux bits en entrée et un en sortie, et toute la promesse des machines qui apprennent fut classée à cause d’un problème qu’un enfant résout sans s’en apercevoir.

III. Ce Qu’achète une Seconde Couche

L’issue était cachée à la vue de tous. Un perceptron trace une ligne. Mais nourrissez les sorties de deux perceptrons à un troisième, et les lignes se combinent. Vous pouvez désormais découper une région—au-dessus de cette ligne et en dessous de celle-là—et le XOR se dissout. Le mur n’a jamais été un mur autour des réseaux de neurones ; c’était un mur autour des réseaux d’une seule couche de profondeur.

La solution du XOR : deux lignes qui s’intersectent pour créer une région isolant les deux points vrais dans un coin.

Ce qui fait fonctionner l’empilement, c’est le pli entre les couches : une non-linéarité. Sans elle, une pile de couches linéaires s’effondre en une seule ligne, quel que soit le nombre que vous entassez—des fonctions linéaires de fonctions linéaires restent linéaires. Insérez une cassure—une sigmoïde, une tanh, ou la brutalement simple ReLU qui renvoie zéro pour tout ce qui est négatif et la valeur elle-même sinon—et chaque couche peut plier l’espace d’entrée. Pliez-le assez de fois et un enchevêtrement qu’aucune ligne ne pouvait séparer devient, dans les coordonnées pliées, trivialement séparable. En 1989, les mathématiques étaient formelles : le théorème d’approximation universelle montra qu’un réseau doté d’une couche cachée et d’une non-linéarité peut approximer essentiellement n’importe quelle fonction continue. Les détracteurs du perceptron avaient raison à propos d’un perceptron et tort à propos de la phrase qui commençait par le mot mais.

IV. Le Gradient, et Pourquoi Il Attendit Jusqu’en 1986

Savoir qu’un réseau peut représenter une fonction n’est pas savoir comment trouver les bons poids. Avec un perceptron, la règle de Rosenblatt suffisait. Avec de nombreuses couches, la question devient : lorsque le réseau se trompe, lequel de ses milliers de poids mérite le blâme, et dans quelle direction ?

La réponse est la rétropropagation, rendue pratique par David Rumelhart, Geoffrey Hinton et Ronald Williams dans leur article de 1986, Learning representations by back-propagating errors. Faites passer un exemple vers l’avant à travers les couches, mesurez l’erreur à la fin, puis remontez l’erreur vers l’arrière, en utilisant la règle de la chaîne du calcul différentiel pour calculer exactement combien chaque poids a contribué. Ajustez chaque poids un peu à l’encontre de sa part de blâme. Répétez quelques millions de fois. La technique n’est rien de plus exotique que la règle de la chaîne appliquée avec une discipline de comptable—ce qui explique pourquoi, rétrospectivement, il est légèrement embarrassant qu’elle ait attendu jusqu’en 1986. Les idées existaient en morceaux depuis des années ; ce qui manquait, c’était la conviction qu’empiler des couches et moudre le gradient fonctionnerait réellement. Cela fonctionne, même si le paysage de l’erreur est une chaîne de montagnes non convexe sans garantie de trouver la vallée la plus basse. Empiriquement, une vallée suffisamment bonne se trouve partout.

V. Quand le Calcul Rendit la Théorie Secondaire

Un réseau de neurones, sous les métaphores, est une multiplication de matrices—de vastes grilles de nombres multipliés et additionnés, le même produit scalaire qu’exécutait le perceptron, répété des milliards de fois. Un CPU les fait l’une après l’autre. Un GPU, conçu pour ombrer des millions de pixels à la fois, les fait toutes en parallèle. Le matériel que l’industrie du jeu vidéo construisit pour rendre des explosions se révéla être le moteur exact dont l’apprentissage profond avait besoin.

Le moment où tout le monde cessa de discuter fut 2012. Alex Krizhevsky, Ilya Sutskever et Hinton entrèrent dans le concours ImageNet avec un réseau profond entraîné sur deux GPU grand public et gagnèrent—AlexNet—avec une marge si grande que le résultat ressemblait à une faute de frappe. C’était le perceptron, empilé en profondeur, nourri de vraies photographies, et exécuté sur un matériel assez bon marché pour essayer. Cette dernière phrase compte plus que la théorie. Les GPU ne rendirent pas l’algorithme possible ; l’algorithme était possible depuis 1986. Ils le rendirent assez bon marché pour l’essayer à grande échelle—et à grande échelle, une machine simple dotée d’assez de paramètres et d’assez de données cessa de ressembler à de l’approximation et commença à ressembler à de la compréhension.

VI. Les Architectures Qui Rendirent les Fonctions Apprenables

L’approximation universelle promet qu’un certain réseau représente la fonction que vous voulez. Elle ne dit rien sur la capacité de la descente de gradient à la trouver, ni sur la quantité de données que la recherche coûtera. C’est dans cet écart que vit l’architecture. Les réseaux convolutifs intègrent l’hypothèse que ce qui importe est local et répété—un bord est un bord n’importe où dans l’image—et ils sont rapides et brillants en vision, mais peinent à relier des choses éloignées. Les réseaux récurrents lisent les séquences pas à pas, en portant la mémoire vers l’avant, mais le gradient doit voyager à travers chaque pas, et sur de longues distances il s’évanouit ou explose.

Le déverrouillage fut l’attention, présentée dans l’article de 2017 dont le titre était une thèse : Attention Is All You Need. Le transformeur laisse chaque élément d’une séquence regarder directement chaque autre élément en un seul pas—pas de longue chaîne par laquelle le gradient doit ramper en retour, chaque relation à un saut de distance, et tout cela en parallèle, c’est-à-dire en forme de GPU. Et l’attention elle-même est, une fois de plus, la vieille machinerie : des produits scalaires pour évaluer combien chaque token doit prêter attention à chaque autre, une softmax pour transformer ces scores en une pondération non linéaire. Comparaison linéaire, porte non linéaire. Le perceptron, vêtu d’un manteau neuf.

VII. Le Perceptron, Toujours

Ouvrez n’importe quel grand modèle de langage et regardez de près et vous ne trouvez aucun objet fondamental nouveau—seulement celui de 1958, répété à une échelle que Rosenblatt n’aurait pu imaginer. Chaque tête d’attention est faite de produits scalaires et d’une softmax. Chaque bloc de propagation vers l’avant est fait de poids, d’une somme, d’une non-linéarité. LayerNorm, connexions résiduelles, quantification—des raffinements de plomberie, non une physique nouvelle. Le Mark I de Rosenblatt apprenait de quatre cents pixels ; un transformeur moderne apprend de billions de mots, et la différence entre les deux est presque entièrement une question de quantité—plus de couches, plus de paramètres, plus de données, plus d’arithmétique en parallèle.

Voilà la leçon que les gros titres ne cessent de manquer. L’intelligence de ces systèmes ne se cache pas dans quelque tour de passe-passe ingénieux que nous n’aurions pas encore nommé. C’est la même ligne à travers les mêmes données, tracée mille milliards de fois, pliée à travers assez de dimensions pour que le pli devienne indiscernable de la pensée. Minsky et Papert avaient raison : une seule ligne ne peut résoudre le XOR. Ils se trompaient seulement sur la distance que l’on peut parcourir en traçant davantage de lignes. Nous n’avons pas encore trouvé le fond de cette réponse, et la chose la plus honnête à dire du perceptron est que, soixante-huit ans plus tard, nous découvrons encore ce qu’une seule ligne peut accomplir dès lors qu’on est prêt à en empiler suffisamment.

Il y a un gag récurrent dans Austin Powers où le Dr. Denfer, fraîchement décongelé après trente ans dans la glace, dévoile sans cesse des plans diaboliques que le monde a déjà tranquillement inventés et dépassés—menaçant de le prendre en otage contre une somme qui n’impressionne plus personne dans la pièce. Le domaine de l’IA joue le même gag à l’envers. Tous les deux ou trois ans, quelqu’un sort une architecture révolutionnaire sous les acclamations et les gros titres, et quelqu’un de plus âgé doit se pencher pour expliquer que, sous le manteau neuf, ce sont des entrées pondérées, une somme et un seuil—la machine de Rosenblatt de 1958, décongelée et rebaptisée. La différence, c’est qu’ici la vieille idée n’a jamais été la chute du gag. Elle était la réponse depuis le début.

I. Le Classifieur le Plus Simple Possible#

II. Le Plafond du XOR#

III. Ce Qu’achète une Seconde Couche#

IV. Le Gradient, et Pourquoi Il Attendit Jusqu’en 1986#

V. Quand le Calcul Rendit la Théorie Secondaire#

VI. Les Architectures Qui Rendirent les Fonctions Apprenables#

VII. Le Perceptron, Toujours#

Further reading#