En 1958, Frank Rosenblatt construyó una máquina capaz de aprender. No de ser programada—aprender. El Perceptrón Mark I era una habitación de cables y potenciómetros motorizados conectados a una rejilla de cuatrocientas fotoceldas, y cuando le mostrabas imágenes, se ajustaba a sí misma hasta poder distinguirlas. El New York Times informó que la Marina esperaba que pronto pudiera “caminar, hablar, ver, escribir, reproducirse y ser consciente de su propia existencia.” No podía hacer ninguna de esas cosas. Lo que sí podía hacer era trazar una línea.
Esa es toda la historia, y vale la pena contarla despacio, porque la línea que Rosenblatt trazó en 1958 es la misma línea que atraviesa cada sistema que hoy llamamos inteligencia artificial. El perceptrón no fracasó. Simplemente aprendimos a apilarlo.
I. El Clasificador Más Simple Posible
Reduce un perceptrón a su lógica y casi nada queda. Toma un puñado de entradas, multiplica cada una por un peso, las suma y hace una sola pregunta: ¿el total está por encima de un umbral o por debajo? Por encima, se dispara; por debajo, calla. Ese es el mecanismo entero.
Geométricamente, esto es una línea. O, en dimensiones superiores, un plano que corta el espacio en dos. Los pesos inclinan y desplazan la línea; aprender significa empujar los pesos hasta que la línea caiga entre tus dos clases—gatos arriba, perros abajo. La contribución de Rosenblatt fue la regla del empujón: un procedimiento que, mostrado suficientes ejemplos etiquetados, convergía en una línea separadora si tal línea existía. Sin características codificadas a mano, sin un humano escribiendo reglas sobre cómo luce un gato. La máquina encontraba el límite por sí misma. En 1958 esto no era ingeniería; era algo más cercano a la profecía.
II. El Techo del XOR
La profecía tenía un muro, y Marvin Minsky y Seymour Papert lo encontraron. Su libro de 1969, Perceptrons, demostró, con un rigor irrefutable, que un solo perceptrón no puede computar el XOR—la función que devuelve verdadero cuando sus dos entradas difieren y falso cuando coinciden.
Grafica los cuatro casos del XOR en un plano y el problema salta a la vista. Los dos puntos verdaderos están en esquinas opuestas; los dos falsos en las otras dos. Ninguna línea recta puede separar un par del otro. Necesitarías dos líneas, o una curva—y un perceptrón solitario solo tiene una línea que ofrecer.
La prueba era impecable; sus consecuencias no. Perceptrons se leyó menos como “aquí está un límite preciso de una arquitectura” y más como “aquí está por qué toda esta dirección es un callejón sin salida.” El financiamiento se evaporó. El campo guardó silencio durante casi una década—el primer invierno de la IA. La ironía es filosa: el XOR es un juguete, dos bits de entrada y uno de salida, y toda la promesa de las máquinas que aprenden quedó archivada por un problema que un niño resuelve sin notarlo.
III. Lo Que Compra una Segunda Capa
La salida estaba escondida a plena vista. Un perceptrón traza una línea. Pero alimenta las salidas de dos perceptrones a un tercero, y las líneas se combinan. Ahora puedes recortar una región—por encima de esta línea y por debajo de aquella—y el XOR se disuelve. El muro nunca fue un muro alrededor de las redes neuronales; era un muro alrededor de las redes de una sola capa de profundidad.
Lo que hace funcionar el apilamiento es el doblez entre las capas: una no linealidad. Sin ella, una pila de capas lineales colapsa de vuelta en una sola línea, por muchas que amontones—funciones lineales de funciones lineales siguen siendo lineales. Inserta un quiebre—una sigmoide, una tanh, o la brutalmente simple ReLU que devuelve cero para todo lo negativo y el valor mismo en caso contrario—y cada capa puede doblar el espacio de entrada. Dóblalo suficientes veces y una maraña que ninguna línea podía separar se vuelve, en las coordenadas dobladas, trivialmente separable. Para 1989 las matemáticas eran formales: el teorema de aproximación universal mostró que una red con una capa oculta y una no linealidad puede aproximar esencialmente cualquier función continua. Los críticos del perceptrón tenían razón sobre un perceptrón y se equivocaban sobre la frase que empezaba con la palabra pero.
IV. El Gradiente, y Por Qué Esperó Hasta 1986
Saber que una red puede representar una función no es saber cómo encontrar los pesos correctos. Con un perceptrón, la regla de Rosenblatt bastaba. Con muchas capas, la pregunta se vuelve: cuando la red se equivoca, ¿cuál de sus miles de pesos merece la culpa, y en qué dirección?
La respuesta es la retropropagación, vuelta práctica por David Rumelhart, Geoffrey Hinton y Ronald Williams en su artículo de 1986, Learning representations by back-propagating errors. Pasa un ejemplo hacia adelante por las capas, mide el error al final, y luego camina el error hacia atrás, usando la regla de la cadena del cálculo para computar exactamente cuánto contribuyó cada peso. Ajusta cada peso un poco en contra de su parte de la culpa. Repite unos cuantos millones de veces. La técnica no es nada más exótico que la regla de la cadena aplicada con disciplina de contador—razón por la cual, en retrospectiva, resulta ligeramente vergonzoso que tardara hasta 1986. Las ideas existían en pedazos desde hacía años; lo que faltaba era la convicción de que amontonar capas y moler el gradiente realmente funcionaría. Funciona, aunque el paisaje del error sea una cordillera no convexa sin garantía de hallar el valle más bajo. Empíricamente, un valle lo bastante bueno resulta estar en todas partes.
V. Cuando el Cómputo Hizo Secundaria a la Teoría
Una red neuronal, debajo de las metáforas, es multiplicación de matrices—vastas rejillas de números multiplicados y sumados, el mismo producto punto que ejecutaba el perceptrón, repetido miles de millones de veces. Una CPU las hace una tras otra. Una GPU, construida para sombrear millones de píxeles a la vez, las hace todas en paralelo. El hardware que la industria de los videojuegos construyó para renderizar explosiones resultó ser el motor exacto que el aprendizaje profundo necesitaba.
El momento en que todos dejaron de discutir fue 2012. Alex Krizhevsky, Ilya Sutskever y Hinton entraron a la competencia ImageNet con una red profunda entrenada en dos GPUs de consumo y ganaron—AlexNet—por un margen tan grande que el resultado parecía un error de tipeo. Era el perceptrón, apilado en profundidad, alimentado con fotografías reales, y corrido en hardware lo bastante barato para intentarlo. Esa última frase importa más que la teoría. Las GPUs no hicieron el algoritmo posible; el algoritmo había sido posible desde 1986. Lo hicieron lo bastante barato para intentarlo a escala—y a escala, una máquina simple con suficientes parámetros y suficientes datos dejó de parecer aproximación y empezó a parecer comprensión.
VI. Las Arquitecturas Que Hicieron Aprendibles las Funciones
La aproximación universal promete que alguna red representa la función que quieres. No dice nada sobre si el descenso de gradiente puede encontrarla, ni cuántos datos costará la búsqueda. Esa brecha es donde vive la arquitectura. Las redes convolucionales hornean la suposición de que lo que importa es local y repetido—un borde es un borde en cualquier parte de la imagen—y son rápidas y brillantes en visión, pero les cuesta relacionar cosas distantes. Las redes recurrentes leen secuencias paso a paso, llevando memoria hacia adelante, pero el gradiente debe viajar por cada paso, y a lo largo de grandes distancias se desvanece o explota.
El desbloqueo fue la atención, presentada en el artículo de 2017 cuyo título era una tesis: Attention Is All You Need. El transformador deja que cada elemento de una secuencia mire directamente a cada otro elemento en un solo paso—sin una cadena larga por la que el gradiente deba arrastrarse de vuelta, cada relación a un salto de distancia, y todo en paralelo, es decir, con forma de GPU. Y la atención misma es, una vez más, la vieja maquinaria: productos punto para puntuar cuánto debe cada token atender a cada otro, una softmax para convertir esas puntuaciones en una ponderación no lineal. Comparación lineal, compuerta no lineal. El perceptrón, con abrigo nuevo.
VII. El Perceptrón, Todavía
Abre cualquier modelo grande de lenguaje y mira de cerca y no encuentras ningún objeto fundamental nuevo—solo el de 1958, repetido a una escala que Rosenblatt no podría haber imaginado. Cada cabeza de atención es productos punto y una softmax. Cada bloque de propagación hacia adelante es pesos, una suma, una no linealidad. LayerNorm, conexiones residuales, cuantización—refinamientos de plomería, no física nueva. El Mark I de Rosenblatt aprendía de cuatrocientos píxeles; un transformador moderno aprende de billones de palabras, y la diferencia entre ambos es casi enteramente una de cantidad—más capas, más parámetros, más datos, más aritmética en paralelo.
Esa es la lección que los titulares siguen perdiendo. La inteligencia en estos sistemas no se esconde en algún truco ingenioso que aún no hemos nombrado. Es la misma línea a través de los mismos datos, trazada un billón de veces, doblada a través de suficientes dimensiones para que el doblez se vuelva indistinguible del pensamiento. Minsky y Papert tenían razón: una sola línea no puede resolver el XOR. Solo se equivocaron sobre cuán lejos puedes llegar trazando más líneas. Todavía no hemos hallado el fondo de esa respuesta, y lo más honesto que se puede decir del perceptrón es que, sesenta y ocho años después, seguimos descubriendo lo que una sola línea puede hacer una vez que estás dispuesto a apilar suficientes.
Hay un chiste recurrente en Austin Powers donde el Dr. Maligno, recién descongelado tras treinta años en hielo, presenta una y otra vez planes maestros diabólicos que el mundo ya inventó y superó en silencio—amenazando con secuestrarlo a cambio de una suma que ya no impresiona a nadie en la sala. El campo de la IA ejecuta el mismo chiste al revés. Cada par de años alguien saca a relucir una arquitectura revolucionaria entre titulares y suspiros, y alguien más viejo tiene que inclinarse y explicar que, bajo el abrigo nuevo, son entradas ponderadas, una suma y un umbral—la máquina de Rosenblatt de 1958, descongelada y rebautizada. La diferencia es que aquí la vieja idea nunca fue el remate del chiste. Fue la respuesta desde el principio.
Further reading
- Frank Rosenblatt, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain (1958) — el artículo fundacional
- Marvin Minsky & Seymour Papert, Perceptrons (1969) — la prueba rigurosa del techo de una sola capa
- Rumelhart, Hinton & Williams, Learning representations by back-propagating errors (1986) — la retropropagación vuelta práctica
- Krizhevsky, Sutskever & Hinton, ImageNet Classification with Deep Convolutional Neural Networks (AlexNet, 2012) — el momento GPU
- Vaswani et al., Attention Is All You Need (2017) — el transformador
- LeCun, Bengio & Hinton, Deep Learning (Nature, 2015) — la retrospectiva del propio campo
- El teorema de aproximación universal — por qué una capa oculta es, en principio, suficiente
- YouTube: The Perceptron — un recorrido visual por el perceptrón y el problema del XOR
