Seamos honestos, la IA es increíblemente genial, hasta que también es increíblemente predecible.
A estas alturas, probablemente hayas visto algunos ejemplos de IA generativa que han aparecido en los titulares y que han creado arte surrealista, imágenes deslumbrantes o diseños increíblemente creativos. Pídele que imagine ciudades alienígenas bañadas por luces de neón o bosques donde los árboles producen flores bioluminiscentes y, ¡boom!, te aparecerán imágenes que superan los límites de lo que los humanos normalmente concebirían.
Pero entonces, le pides a una IA que dibuje un reloj. Y toda la magia se detiene de golpe. ¿Qué obtienes? Un reloj atascado obstinadamente en las 10:10.
Es casi ridículo: no importa cómo le pidas a la IA que dibuje —“¡dibuja un reloj de pulsera antiguo!”, “¡un reloj futurista!” o incluso “¡un reloj derretido como el de Dalí!”—, las manecillas del reloj de alguna manera encuentran el camino hacia esa extraña y alegre posición de las 10:10. Si se supone que la IA debe entender los matices, la aleatoriedad y la creatividad, ¿por qué está tan obsesionada con esto?
La respuesta no es solo un artefacto divertido de modelos de entrenamiento, sino una mirada microcósmica a los desafíos más grandes que enfrenta la IA cuando se trata de comprender la creatividad, el sesgo y liberarse de las convenciones trilladas. Así que, abróchese la pulsera y profundicemos en este misterio sorprendentemente filosófico y profundamente técnico.
Antes de empezar a señalar con el dedo a la IA, hablemos de nosotros . La razón de la predilección de la IA por el 10:10 no proviene de que el algoritmo decida: "Sí, aquí es donde el tiempo se siente perfecto". No, simplemente está regurgitando un comportamiento que los humanos hemos incorporado al diseño de relojes durante décadas.
Prácticamente todos los anuncios de relojes que hayas visto utilizan la misma marca de tiempo icónica, las 10:10. Y no, esto no se debe a que todos los fotógrafos de productos del mundo se hayan unido colectivamente a un "culto a las 10:10". He aquí por qué esta elección horaria es tan dominante:
La simetría se ve bien : a las 10:10, las manecillas del reloj crean una agradable sensación de armonía visual. Es simétrico, pero no excesivamente rígido. También enmarca perfectamente el logotipo de la marca, que suele estar justo en la posición de las 12 en punto en la mayoría de los relojes.
El efecto del "reloj sonriente" : observe con atención: en el minuto 10:10, las manecillas curvadas hacia arriba imitan la forma de una sonrisa. Ya sea de manera consciente o subliminal, las marcas comprenden que los detalles de diseño alegres y acogedores venden más productos.
Sobrecarga de marketing : una vez que esta convención se volvió dominante, se convirtió en una bola de nieve. Desde anuncios hasta imágenes de archivo y fotografías de catálogos, en todas partes donde aparecía un reloj, el 10:10 era el estándar. Se convirtió en una regla de diseño que se perpetuó a sí misma.
Durante décadas, hemos alimentado al mundo con esta imagen de forma constante, volviéndola tan omnipresente que incluso nuestro cerebro la utiliza por defecto cuando imagina la esfera de un reloj. Ni siquiera pensamos en ella, simplemente la esperamos.
Y ahora, la IA también lo hace.
Para entender por qué la IA, a veces llamada “la gran imitadora”, no puede liberarse del 10:10, analicemos rápidamente cómo aprenden estos modelos.
Todos los modelos de IA generativa (incluidos los más potentes, como Stable Diffusion, DALL-E 2 y MidJourney) dependen de conjuntos de datos masivos para su entrenamiento. Estos conjuntos de datos son enormes colecciones de imágenes (a menudo miles de millones) extraídas de Internet: fotografías de archivo, repositorios en línea, contenido generado por el usuario, etc.
Cuando una IA aprende el concepto de “reloj” a partir de estas imágenes, no solo analiza la estética o la función de un reloj, sino que busca patrones de repetición.
¿Adivina qué es lo que predomina en las imágenes de relojes en Internet? Sí, 10:10.
Para la "mente" acrítica de la IA, la verdad estadísticamente más significativa sobre los relojes no es que indiquen la hora, sino que casi siempre tienen este aspecto:
Si el 95% de las imágenes de "relojes" que ve el algoritmo son básicamente idénticas, ¿adivine qué sucede cuando le pide que cree un reloj? La IA no sabe más. Supone que desea la versión de reloj que le resulte más familiar: 10:10.
Quizás estés pensando: "Un momento, ¡se supone que la IA es creativa! ¿Por qué no se rebela?"
Ahí es donde las cosas se complican. La IA puede parecer creativa, como si sacara ideas de la nada, pero no es así. En cambio, trabaja de manera probabilística, extrayendo patrones que ha aprendido durante el entrenamiento. Permítanme desmitificar esto.
Piense en el cerebro de la IA como un gigantesco juego de “autocompletar”. Imagine que escribe “razas de perros” en Google: aparecen sugerencias de autocompletar como “labrador” o “pastor alemán” porque son las más comunes. De manera similar, cuando una IA genera una imagen de “un reloj de pulsera”, toma una muestra de cómo cree que se ve un reloj de pulsera promedio en función de los patrones que ya ha visto.
He aquí un detalle técnico clave:
Los modelos generativos crean imágenes explorando su "espacio latente", una representación matemática de alta dimensión de todo lo que han aprendido. Imaginemos este espacio latente como una galaxia densa formada por patrones, ideas y formas. Los objetos como las "esferas de los relojes" forman cúmulos en esta galaxia y, en el caso de los relojes... la parte más densa y de más fácil acceso de ese cúmulo es (lo adivinaste) 10:10.
Cuando el modelo comienza a generar una imagen, estas áreas densas actúan como pozos gravitacionales. Es más probable que detecte algo cercano en lugar de perderse en una "aleatoriedad creativa".
También hay algo más en juego aquí: el colapso del modo.
El colapso de modos es un error común en el aprendizaje automático, en el que un modelo de IA comienza a favorecer solo un subconjunto reducido de posibilidades, ignorando las opciones que se ven con menos frecuencia. Es como un foco que ilumina solo los ejemplos más comunes mientras el resto se desvanece en la oscuridad. Debido a que los relojes a las 10:10 están sobrerrepresentados dramáticamente en los conjuntos de datos de entrenamiento de IA, se convierten en la opción "predeterminada". Cada vez que se le solicita a la IA, esta recurre a esta opción segura y familiar.
La cuestión es la siguiente: no se trata solo de relojes. El mismo sesgo se infiltra en todo tipo de resultados generativos. Si le pedimos a una IA que genere, por ejemplo, una imagen genérica de “un hombre de negocios”, a menudo obtendremos un estereotipo de hombre occidental con traje y corbata, porque eso es lo que predomina en las imágenes de archivo. La IA es tan imparcial como sus datos, y los conjuntos de datos, como sabemos, están cargados de décadas, incluso siglos, de sesgo humano.
En teoría, sí. ¿Técnicamente? Es un hueso mucho más duro de roer.
Para que la IA pueda salir de su rutina 10:10 (o de cualquier otro sesgo cultural profundamente arraigado), necesita datos y algoritmos que resistan activamente la red de seguridad del promedio. Esto podría ser así:
Diversificación de los conjuntos de datos : en primer lugar, hay que asegurarse de que los conjuntos de datos de entrenamiento incluyan alternativas poco representadas . Si los datos de entrenamiento de una IA incluyeran relojes en momentos aleatorios con una frecuencia tan alta como las 10:10, podríamos suavizar este sesgo. Pero escalar esto a conjuntos de datos masivos no es tarea fácil, y limpiar los conjuntos de datos requiere recursos humanos y computacionales significativos.
Reponderación de probabilidades : los ingenieros podrían modificar los algoritmos de recompensa de una IA para promover activamente resultados más inusuales. Por ejemplo, podrían agregar penalizaciones por inclinarse demasiado hacia resultados predeterminados como 10:10.
Inyección de ruido en los mensajes : los sistemas avanzados podrían introducir “ruido en los mensajes”, forzando explícitamente a la IA a aleatorizar aspectos sutiles de sus resultados, como la posición de las manecillas de un reloj o, más ampliamente, explorar áreas poco exploradas del espacio latente.
Ajuste personalizado : los modelos también se pueden ajustar para impulsar las creaciones hacia una mayor creatividad. Al entrenar modelos más pequeños y especializados con datos más diversos o de nicho (como un conjunto de datos de relojes a las 7:13 o a las 4:47), los creadores pueden sesgar ciertos resultados para romper el molde.
Dicho esto, aquí hay una pendiente resbaladiza. Fomentar demasiada aleatoriedad significa que la IA podría perder su fundamento por completo, creando resultados que parecen inconexos o sin sentido en lugar de "creativos". Encontrar el punto justo entre los patrones predeterminados y la verdadera innovación sigue siendo uno de los mayores dilemas en el desarrollo de la IA en la actualidad.
La razón por la que la IA sigue dibujando relojes atascados en las 10:10 no tiene que ver solo con sus datos de entrenamiento o con peculiaridades de codificación: es un microcosmos de cómo la IA generativa refleja los límites de nuestra creatividad, nuestros sesgos y nuestros datos. Cuando esperamos que la IA "piense fuera de la caja", olvidamos que, para empezar, se creó dentro de nuestra caja.
Lo que me fascina de esto no es la monotonía técnica de cómo funcionan los espacios latentes o las distribuciones de entrenamiento (aunque admito que eso es increíblemente genial en sí mismo). Lo sorprendente aquí es cómo la IA nos obliga a tener en cuenta nuestros propios patrones . Hicimos del 10:10 el símbolo universal de los relojes. Y hasta que cambiemos nuestras convenciones (o enseñemos a la IA a valorar la diversidad por encima de la familiaridad), seguirá repitiendo esas elecciones.
Así que, la próxima vez que le pidas a una IA que cree un reloj anclado en el pasado, considéralo un amable recordatorio: la creatividad no siempre se trata de algoritmos, sino de intenciones.
Y por ahora, la esfera del reloj de AI todavía te sonríe, congelada para siempre a las 10 y 10.