paint-brush
La IA sabe más, pero solo si estás de acuerdo con ellapor@modeltuning
453 lecturas
453 lecturas

La IA sabe más, pero solo si estás de acuerdo con ella

por Model Tuning4m2025/02/17
Read on Terminal Reader

Demasiado Largo; Para Leer

La IA reduce el costo de acceso a la información, pero su tendencia a favorecer el conocimiento general podría resultar en un "colapso del conocimiento", lo que limitaría la diversidad y sofocaría la innovación. Este estudio modela cómo la dependencia del contenido generado por IA afecta las creencias públicas y sugiere estrategias para contrarrestar el declive del conocimiento.
featured image - La IA sabe más, pero solo si estás de acuerdo con ella
Model Tuning HackerNoon profile picture
0-item

Autor:

(1) Andrew J. Peterson, Universidad de Poitiers (andrew.peterson@univ-poitiers.fr).

Tabla de enlaces

Resumen e introducción

Trabajo relacionado

Los medios de comunicación, las burbujas de filtro y las cámaras de eco

Efectos de red y cascadas de información

Colapso del modelo

Sesgos conocidos en los LLM

Un modelo de colapso del conocimiento

Resultados

Discusión y referencias


Apéndice

Comparando el ancho de las colas

Definición del colapso del conocimiento

Abstracto

Si bien la inteligencia artificial tiene el potencial de procesar grandes cantidades de datos, generar nuevos conocimientos y generar una mayor productividad, su adopción generalizada puede conllevar consecuencias imprevistas. Identificamos condiciones en las que la IA, al reducir el costo de acceso a ciertos modos de conocimiento, puede perjudicar paradójicamente la comprensión pública. Si bien los modelos de lenguaje de gran tamaño se entrenan con grandes cantidades de datos diversos, naturalmente generan resultados hacia el "centro" de la distribución. Esto es generalmente útil, pero la dependencia generalizada de los sistemas recursivos de IA podría conducir a un proceso que definimos como "colapso del conocimiento", y sostenemos que esto podría dañar la innovación y la riqueza de la comprensión y la cultura humanas. Sin embargo, a diferencia de los modelos de IA que no pueden elegir con qué datos se entrenan, los humanos pueden buscar estratégicamente diversas formas de conocimiento si perciben que valen la pena. Para investigar esto, proporcionamos un modelo simple en el que una comunidad de estudiantes o innovadores elige utilizar métodos tradicionales o confiar en un proceso asistido por IA con descuento e identificamos las condiciones en las que se produce el colapso del conocimiento. En nuestro modelo predeterminado, un descuento del 20 % en el contenido generado por IA genera creencias públicas 2,3 veces más alejadas de la verdad que cuando no hay descuento. Por último, en función de los resultados, consideramos otras líneas de investigación para contrarrestar estos resultados.

Introducción

Antes de la llegada de la IA generativa, todos los textos y las ilustraciones eran producidos por humanos, en algunos casos con la ayuda de herramientas o sistemas informáticos. Sin embargo, la capacidad de los grandes modelos lingüísticos (LLM) para generar texto con un esfuerzo humano casi nulo, junto con los modelos para generar imágenes, audio y vídeo, sugieren que los datos a los que están expuestos los humanos pueden llegar a estar dominados por procesos generados o asistidos por IA.


Los investigadores han observado que el entrenamiento recursivo de modelos de IA en texto sintético puede conducir a una degeneración, conocida como “colapso del modelo” (Shumailov et al., 2023). Nuestro interés se centra en lo inverso de esta preocupación, centrándonos en cambio en los efectos de equilibrio sobre la distribución del conocimiento dentro de la sociedad humana. Nos preguntamos en qué condiciones el aumento de contenido generado por IA y el acceso a la información mediado por IA podrían dañar el futuro del pensamiento humano, la búsqueda de información y el conocimiento.


Se supone que el efecto inicial de la información generada por IA es limitado, y los estudios existentes sobre los daños de la IA se centran acertadamente en los efectos inmediatos de la información falsa difundida por los “deepfakes” (Heidari et al., 2023), el sesgo en los algoritmos de IA (Nazer et al., 2023) y la desinformación política (Chen y Shu, 2023). Nuestro enfoque tiene un horizonte temporal algo más largo y analiza el impacto de la adopción generalizada, en lugar de marginal.


En la actualidad, los investigadores e ingenieros están construyendo una variedad de sistemas mediante los cuales la IA mediaría nuestra experiencia con otros humanos y con fuentes de información. Estos van desde aprender de los LLM (Chen, Chen y Lin, 2020), clasificar o resumir los resultados de búsqueda con LLM (Sharma, Liao y Xiao, 2024), sugerir términos de búsqueda o palabras para escribir como con el autocompletado tradicional (Graham, 2023; Chonka, Diepeveen y Haile, 2023), diseñar sistemas para emparejar colaboradores (Ball y Lewis, 2018), completar bases de conocimiento basadas en LLM obtenidas de Wikipedia (Chen, Razniewski y Weikum, 2023), interpretar datos gubernamentales (Fisher, 2024) y ayudar a los periodistas (Opdahl et al., 2023), por citar solo algunos de una lista cada vez mayor.


Con el tiempo, la dependencia de estos sistemas y la existencia de interacciones multifacéticas entre ellos pueden crear una “maldición de la recursión” (Shumailov et al., 2023), en la que nuestro acceso a la diversidad original del conocimiento humano está cada vez más mediado por un subconjunto parcial y cada vez más estrecho de puntos de vista. Con la creciente integración de los sistemas basados en LLM, ciertas fuentes o creencias populares que eran comunes en los datos de entrenamiento pueden llegar a reforzarse en la mentalidad pública (y dentro de los datos de entrenamiento), mientras que otras ideas de “cola larga” se descuidan y finalmente se olvidan.


Este proceso podría verse reforzado por una “cámara de eco” o efecto cascada de información, en el que la exposición repetida a este conjunto restringido de información lleva a los individuos a creer que las colas de conocimiento desatendidas y no observadas son de poco valor. En la medida en que la IA puede descontar radicalmente el costo de acceso a ciertos tipos de información, puede generar más daño a través del “efecto de la farola”, en el que se realiza una cantidad desproporcionada de búsquedas debajo del área iluminada no porque sea más probable que contenga las llaves, sino porque es más fácil buscar allí. Sostenemos que la reducción resultante de las colas del conocimiento humano tendría efectos significativos en una serie de preocupaciones, entre ellas la equidad, la inclusión de la diversidad, las ganancias perdidas en innovación y la preservación del patrimonio de la cultura humana.


Sin embargo, en nuestro modelo de simulación también tenemos en cuenta la posibilidad de que los seres humanos sean estratégicos al seleccionar activamente sus fuentes de información. Si, como sostenemos, hay un valor significativo en las áreas de conocimiento que quedan desatendidas por el contenido generado por IA, algunas personas pueden hacer un esfuerzo adicional para obtener ganancias, suponiendo que estén suficientemente informadas sobre el valor potencial.

Resumen de las principales contribuciones

Identificamos una dinámica en la que la IA, a pesar de que sólo reduce el coste de acceso a ciertos tipos de información, puede conducir a un “colapso del conocimiento”, descuidando las colas largas del conocimiento y creando una perspectiva degeneradamente estrecha a lo largo de las generaciones. Ofrecemos un modelo de derrame de conocimiento positivo en el que los individuos deciden si confiar en una tecnología de IA más barata o invertir en muestras de la distribución completa del conocimiento verdadero. Examinamos mediante simulaciones las condiciones en las que los individuos están suficientemente informados para evitar el colapso del conocimiento dentro de la sociedad. Por último, concluimos con una visión general de las posibles soluciones para prevenir el colapso del conocimiento en la era de la IA.


Este artículo está disponible en arxiv bajo la licencia CC BY-NC-SA 4.0 DEED.