#5: supervolcanes, la “rebelión” de la IA y What We Owe the Future
Aunque creamos que la perspectiva de la existencia previa es más plausible que la perspectiva total, debemos reconocer que podríamos estar equivocados y, por tanto, asignar cierto valor a la vida de un futuro posible. El número de seres humanos que llegarán a existir únicamente si logramos evitar la extinción es de tal magnitud que incluso con un valor relativamente bajo, reducir el riesgo de la extinción humana a menudo será una estrategia con una excelente relación costo-eficacia para maximizar la utilidad, siempre y cuando tengamos cierto entendimiento de lo que reduciría ese riesgo..
— Katarzyna de Lazari-Radek y Peter Singer
Future Matters es un boletín sobre largoplacismo creado por Matthew van der Merwe y Pablo Stafforini. Cada mes, recopilamos y resumimos investigaciones relevantes, compartimos noticias de la comunidad del largoplacismo, y publicamos una conversación con un investigador prominente. Puedes suscribirte a este Substack, seguirnos en Twitter y visitar nuestro sitio web. También puedes leer Future Matters en inglés.
Investigación
What We Owe the Future de William MacAskill salió a la venta y en su primera semana se situó en la lista de los más vendidos del New York Times, lo que generó una avalancha de cobertura mediática sobre el largoplacismo. Exhortamos a nuestros lectores a que adquieran una copia del libro, ya que está lleno de nuevas investigaciones, nuevas ideas y nuevos planteamientos, incluso para quienes están familiarizados con el tema. En la sección de Noticias presentamos un resumen de la cobertura del libro hasta la fecha.
En Samotsvety's AI risk forecasts, Eli Lifland resume los resultados de algunas predicciones relacionadas con la “rebelión” de la IA, los plazos de la IA y la IA transformadora realizadas recientemente por un grupo de pronosticadores experimentados1 En total, el grupo calcula una probabilidad del 38% de que se produzca una catástrofe existencial relacionada con la IA, con la condición de que para 2070 se haya desarrollado una IAG, y una probabilidad del 25% de que se produzca una catástrofe existencial derivada de la “rebelión” de una IA no alineada para 2100. (Aproximadamente, la “rebelión” representa cuatro quintos del riesgo total que implica la IA.) Calculan una probabilidad del 32% de que se desarrolle una IAG dentro de los próximos 20 años.
John Halstead publicó un extenso informe sobre cambio climático y largoplacismo, así como un resumen del mismo en el Foro de AE. En dicho informe se presenta un análisis actualizado del riesgo existencial que supone el calentamiento global. Uno de los puntos más importantes es que un calentamiento extremo parece ser significativamente menos probable de lo que se creía: hasta hace algunos años se pensaba que la probabilidad de un calentamiento >6°C era del 10%, mientras que ahora parece tener una probabilidad <1%. (Para más información sobre de este tema, se puede consultar nuestra conversación con John, la cual acompaña al número del mes pasado.)
En la misma línea, el Good Judgment Project les hizo una serie de preguntas a varios superpronosticadores relativas a los riesgos a largo plazo y el cambio climático, cuyos resultados fueron resumidos por Luis Urtubey (el informe completo está disponible aquí).
La importancia de reducir los riesgos existenciales suele estar motivada por dos afirmaciones: que el valor del futuro de la humanidad es vasto y que el nivel de riesgo es alto. En Existential risk pessimism and the time of perils, David Thorstad apunta que existe cierta tensión entre ambas afirmaciones, dado que cuanto mayor es el riesgo global, menor es la esperanza de vida de la humanidad. Sin embargo, esta tensión desaparece si se sostiene que el riesgo existencial caería a niveles cercanos a cero si la humanidad sobrevive a los próximos siglos de alto riesgo. Esta es precisamente la postura que mantienen algunos de los pensadores más prominentes del largoplacismo, como Toby Ord (véase The Precipice) y Carl Shulman (véase este comentario).
En Space and existential risk, el jurista Chase Hamilton argumenta que reducir el riesgo existencial debe ser una consideración central a la hora de dar forma al derecho espacial y a sus políticas. Describe diversas maneras en la que un desarrollo espacial incauto podría aumentar el riesgo existencial, señalando que el enfoque actual del laissez-faire no protege a la humanidad contra esas externalidades, y ofrece varias propuestas constructivas. Nos encontramos en un período formativo del gobierno espacial que nos brinda una oportunidad excepcional para identificar e impulsar leyes y políticas que salvaguarden el futuro de la humanidad.2
Michael Cassidy y Lara Mani nos advierten del riesgo de enormes erupciones volcánicas. La humanidad destina una cantidad importante de recursos para prevenir los riesgos de los asteroides, pero muy pocos al riesgo que representan las erupciones de los supervolcanes, a pesar de que estas últimas son mucho más probables. No obstante, los números absolutos son bajos; se espera que se produzcan supererupciones aproximadamente cada 14,000 años. Las intervenciones que proponen los autores incluyen monitorear las erupciones de mejor manera, invertir en la previsión y hacer investigaciones enfocadas en la geoingeniería con la finalidad de mitigar los efectos climáticos de grandes erupciones o (de forma más especulativa) en maneras de intervenir directamente en los volcanes para impedir las erupciones.
Los riesgos que importan las erupciones de supervolcanes, los impactos de asteroides y el invierno nuclear operan a través del mismo mecanismo: material arrojado hacia la estratósfera que bloquea la luz del sol y causa un enfriamientos global abrupto y sostenido, lo cual limita gravemente la producción de alimentos. Se cree que los lugares mejor protegidos contra este tipo de impactos son las islas remotas, cuyo clima se ve atenuado por el océano. En Island refuges for surviving nuclear winter and other abrupt sun-reducing catastrophes, Matt Boyd y Nick Wilson analizan los efectos de esta clase de eventos en distintos países insulares, teniendo en cuenta factores como la autosuficiencia alimentaria y energética. Australia, Nueva Zelanda e Islandia obtienen puntuaciones particularmente buenas en la mayoría de las mediciones.
Preventing an AI-related catastrophe de Benjamin Hilton es la más extensa y exhaustiva reseña que 80,000 Hours ha dedicado a un problema hasta la fecha. Está estructurada en torno a seis distintas razones que, en conjunto y según la opinión de 80,000 Hours, hacen que la inteligencia artificial sea probablemente el problema más apremiante del mundo. Las razones son (1) que muchos expertos en IA consideran que existe una probabilidad no despreciable de que la IA avanzada dé lugar a una catástrofe existencial; (2) que el progreso extremadamente rápido de la IA que se ha observado en la actualidad sugiere que los sistemas de IA podrían volverse transformadores muy pronto; (3) que existen argumentos sólidos en el sentido de que la IA en busca de poder supone un riesgo existencial; (4) que incluso la IA que no busca poder representa riesgos importantes; (5) que es posible encontrar formas de mitigar estos riesgos; y (6) que son riesgos a los que se presta escasa atención, a pesar de la importancia que tienen.
En Most small probabilities aren't Pascalian, Gregory Lewis enumera algunos ejemplos de probabilidades bajas —como de una en un millón— que la sociedad se toma muy en serio, en áreas como la seguridad en la aviación y la defensa contra los asteroides. Estos y otros ejemplos sugieren que el atraco de Pascal, que podría justificar el abandono de la teoría del valor esperado cuando las probabilidades son lo suficientemente bajas, no debilita los argumentos que defienden los largoplacistas de reducir los riesgos existenciales.3 En los comentarios, Richard Yetter Chappell argumenta que superar el umbral de uno en un millón bien puede ser condición suficiente para ser no-pascaliano, pero podría no ser una condición necesaria: las probabilidades afianzadas en la evidencia —como la probabilidad de emitir el voto decisivo en una elección con un electorado arbitrariamente grande— siempre deberían influenciar la toma de decisiones sin importar qué tan pequeñas sean.
En What's long-term about "longtermism"?, Matthew Yglesias argumenta que no es necesario hacer que el público se interese por el largo plazo para persuadirlo de que apoye las causas del largoplacismo. Lo que se debe hacer es convencerlo de que los riesgos son significativos y una amenaza para la generación actual. Los lectores de este boletín reconocerán la similitud entre el argumento de Yglesias y los presentados por Neel Nanda y Scott Alexander (resumidos en FM#0 y FM#1, respectivamente).
En Prioritizing x-risks may require caring about future people, Eli Lifland afirma que las intervenciones destinadas a reducir los riesgos existenciales no tienen una relación costo-eficacia que sea claramente mejor que la de las intervenciones estándar en salud y bienestar global. En las estimaciones generales de la relación costo-eficacia de Lifland, se espera que las intervenciones en los riesgos asociados a la IA, por ejemplo, salven aproximadamente a tantos equivalentes de vidas presentes por dólar como las intervenciones de bienestar animal. Como manifiesta Ben Todd en los comentarios, es probable que la relación costo-eficacia de las intervenciones más prometedoras del largoplacismo tenga una caída sustancial en los años y décadas por venir a medida que dicha área se sature cada vez más. Lifland también afirma que muchas personas interpretan el “largoplacismo” como una perspectiva enfocada en influir eventos en el futuro a largo plazo, cuando el largoplacismo de hecho se centra en el impacto a largo plazo de nuestras acciones.4 Esto hace que el “largoplacismo” se convierta en una etiqueta potencialmente confusa en situaciones —como en la que aparentemente nos encontramos— en las que la preocupación por el impacto a largo plazo parece requerir que nos enfoquemos en eventos a corto plazo, como los riesgos asociados a la inteligencia artificial avanzada.
Tratar de garantizar que el desarrollo de la IA transformadora marche bien resulta difícil debido a la incertidumbre que tenemos sobre cómo va a evolucionar. En AI strategy nearcasting , Holden Karnofsky propone una manera de enfrentarse a este dilema: tratar de responder preguntas estratégicas sobre la IAT, imaginando que se desarrolla en un mundo muy similar al de la actualidad (lo que él denomina nearcasting). En una serie de publicaciones, Karnofsky hará algunas proyecciones aplicando los principios del nearcasting, basándose en el escenario presentado por Ajeya Cotra en Without specific countermeasures… (resumido en FM#4).
En la siguiente entrega de la serie “AI strategy nearcasting”, How might we align transformative AI if it's developed very soon?, Karnofsky considera algunos enfoques sobre la alineación que tienen el potencial de evitar el tipo de “rebelión” de la IA que describe Ajeya Cotra en un informe reciente. La publicación de Karnofsky rebasa las 13,000 palabras y contiene muchas más ideas de las que podemos resumir en este espacio. La lectura de nuestra conversación con Ajeya (véase más abajo) puede ser útil para los lectores que quieran abordar dicha publicación. La conclusión general de Karnofsky es que “el riesgo de una IA no alineada es grave, pero no inevitable, y es probable que disminuya si se lo toma más en serio”.
En How effective altruism went from a niche movement to a billion-dollar force, Dylan Matthews narra la evolución del altruismo eficaz a lo largo de la última década. En una crónica informativa, entretenida y que llega a ser conmovedora, Matthews habla sobre el crecimiento del movimiento y sobre el cambio de prioridades. Concluye lo siguiente: “Mi actitud hacia el AE es, desde luego, muy personal. Pero aunque no te interese el movimiento ni sus ideas, debe importarte su destino. Ha cambiado miles de vidas hasta el día de hoy. La tuya podría ser la siguiente. Y si el movimiento es cuidadoso, podría ser para bien”.
Noticias
El nivel de atención que le han dado los medios de comunicación a What We Owe the Future ha sido impresionante. Aquí ofrecemos un resumen incompleto:5
Se tomaron o adaptaron algunas partes del libro de Will en What is longtermism and why does it matter? (BBC), How future generations will remember us (The Atlantic), We need to act now to give future generations a better world (New Scientist), The case for longtermism (The New York Times) y The beginning of history (Foreign Affairs).
Se publicaron extensas semblanzas de Will en la revista Time, el Financial Times y The New Yorker (en este hilo de Twitter se puede conocer la opinión de Will sobre esta última).
Will fue entrevistado por Ezra Klein, Tyler Cowen, Tim Ferriss, Dwarkesh Patel, Rob Wiblin, Sam Harris, Sean Carroll, Chris Williamson, Malaka Gharib, Ali Abdaal, Russ Roberts, Mark Goldberg, Max Roser y Steven Levitt.
What We Owe the Future fue reseñado por Oliver Burkeman (The Guardian), Scott Alexander (Astral Codex Ten), Kieran Setiya (Boston Review), Caroline Sanderson (The Bookseller), Regina Rini (The Times Literary Supplement), Richard Yetter Chappell (Good Thoughts) y Eli Lifland (Foxy Scout).
El libro también sirvió de inspiración para tres animaciones impresionantes: How many people might ever exist calculated (Primer), Can we make the future a million years from now go better? (Rational Animations), Is civilisation on the brink of collapse? (Kurzgesagt).
Y por último, Will participó en una sesión de preguntas y respuestas en Reddit ('ask me anything').
La Forethought Foundation abrió algunas vacantes para trabajar de cerca con Will MacAskill.
En un interesante ejemplo de cómo el discurso sobre la IAG está permeando los medios dominantes, un artículo del New York Times citó la actualización de los plazos de la IA de Ajeya Cotra (resumida en FM#4).
Dan Hendrycks, Thomas Woodside y Oliver Zhang anunciaron un nuevo curso para estudiantes con experiencia en aprendizaje automatizado, en el que se proponen presentar los conceptos más importantes de la seguridad empírica de la IA basada en dicho aprendizaje.
El Center for AI Safety anunció el CAIS Philosophy Fellowship, un programa cuyo fin es que estudiantes de doctorado en filosofía e investigadores de posdoctorado trabajen en problemas conceptuales de la seguridad de la IA.
Longview Philanthropy y Giving What We Can anunciaron el Longtermism Fund, un nuevo fondo para aquellos donantes que deseen apoyar causas largoplacistas. Véase también esta entrevista de EA Global London 2022 con Simran Dhaliwal, co-Director de Longview Philanthropy.
Radio Bostrom publicó una audiopresentación de Nick Bostrom.
Michaël Trazzi entrevistó a Robert Long acerca de la reciente controversia sobre LaMDA, la capacidad de sentir de los modelos de lenguaje a gran escala, la metafísica y la filosofía de la conciencia, la sintiencia artificial y más. También entrevistó a Alex Lawsen acerca de los peligros de predecir el progreso de la IA, por qué no podemos simplemente “actualizarlo todo” y cómo desarrollar perspectivas internas sobre la alineación de la IA.
Fin Moorhouse y Luca Righetti entrevistaron a Michael Aird sobre la investigación realizada en función del impacto y a Kevin Esvelt y Jonas Sandbrink sobre los riesgos asociados a la investigación biológica para el podcast Hear This Idea.
Se publicaron los materiales para dos nuevos cursos relacionados con el largoplacismo: Effective altruism and the future of humanity (Richard Yetter Chappell) y Existential risks introductory course (Cambridge Existential Risks Initiative).6
Verfassungsblog, un foro académico en donde se debaten eventos y desarrollos en el ámbito del derecho constitucional y la política, llevó a cabo un simposio sobre el largoplacismo y el derecho, coorganizado por la Universidad de Hamburgo y el Legal Priorities Project.
El 2022 Future of Life Award —un premio que se entrega cada año a una o más personas que se considera que han tenido un impacto positivo, duradero y extraordinario, pero poco apreciado—fue entregado a Jeannie Peterson, Paul Crutzen, John Birks, Richard Turco, Brian Toon, Carl Sagan, Georgiy Stenchikov y Alan Robock “por reducir el riesgo de una guerra nuclear al haber desarrollado y popularizado la ciencia del invierno nuclear”.
Conversación con Ajeya Cotra
Ajeya Cotra es analista de investigación sénior en Open Philanthropy. Ha realizado investigaciones sobre la priorización de causas, la diversificación de visiones del mundo y la predicción del futuro de la IA, entre otros temas. Ajeya se graduó de la Universidad de California en Berkeley con un título en Ingeniería Eléctrica y Ciencias de la Computación. Mientras cursaba la carrera, trabajó como docente auxiliar en varias clases de ciencias de la computación, dirigió la organización estudiantil Effective Altruists of Berkeley e impartió un curso sobre altruismo eficaz.
Future Matters: Recientemente publicaste un informe algo preocupante, Without specific countermeasures, the easiest path to transformative AI likely leads to AI takeover. El informe no pretende abarcar todas las rutas posibles hacia la IA transformadora, sino que se centra específicamente en una compañía de IA que entrena un modelo científico usando un enfoque al que denominas “retroalimentación humana en tareas diversas” (o HFDT, del término en inglés human feedback on diverse tasks). Para comenzar, ¿puedes decirnos a qué te refieres con HFDT y qué te hizo enfocarte en ello?
Ajeya Cotra: Básicamente, la idea consiste en que tienes una red neural a gran escala, que entrenas de la misma forma en que se entrenaría un GPT, para que aprenda a predecir su entorno. Quizá ese entorno sea sólo texto, por lo que aprendería a predecir texto, pero en mi ejemplo específico —que es un poco más acotado que el modelo de HFDT en general, para poder imaginar cosas más concretamente— imagino que el objetivo es entrenar un sistema para que interactúe con la computadora o el ordenador del mismo modo en que interactúan los humanos: buscando cosas en Google, escribiendo código, viendo videos, enviando correos electrónicos, etc. Entonces, la primera etapa del entrenamiento sería simplemente entrenar el sistema para tener un modelo de lo que pasará si realiza varias cosas. El entrenamiento predictivo que imagino consiste en alimentarlo con imágenes de pantallas de computadoras, junto con las acciones que se toman, como presionar la tecla escape o algo parecido, para luego recompensarlo en función de su predicción de lo que sucederá después.
Si haces esto durante un período prolongado, esperando que sirva para crear un sistema con un amplio entendimiento de cómo funcionan las computadoras, de qué pasa si realiza varias tareas, entonces se puede construir sobre eso al imitar a los humanos haciendo cosas específicas. Por ejemplo, reuniendo conjuntos de datos de un programador mientras escribe cadenas de código o funciones o ejecuta pruebas, y capturando todo eso mediante el registro de las pulsaciones del teclado o de capturas de pantalla, a fin de alimentar el modelo para que aprenda a actuar así. Y es en la última etapa del entrenamiento cuando entra en juego la retroalimentación humana. Una vez que tenemos un modelo que maneja la computadora y hace tareas útiles de forma similar a los humanos que se utilizaron para entrenarlo, para refinar sus habilidades y llevarlo potencialmente a superar la capacidad humana, pasamos a un esquema de entrenamiento en el que intenta cosas, y los humanos verifican cuán bien funcionan esas cosas y lo recompensan en función de ello.
Por ejemplo, los humanos podrían pedirle algún tipo de aplicación o de funcionalidad en específico, y el modelo intentaría escribir el código. Los humanos entonces se preguntarían: "¿El código pasa nuestras pruebas? ¿El producto final parece ser útil y estar libre de errores de programación?" y, sobre esta base, le darían al sistema algún tipo de recompensa de aprendizaje por refuerzo (RL).
Se trata de un paradigma muy flexible. De cierto modo, implica combinar todas las técnicas modernas en un solo modelo. Ni siquiera se basa necesaria y mayoritariamente en retroalimentación humana en el sentido del aprendizaje por refuerzo. Pero aun así lo denominé retroalimentación humana en tareas diversas porque es es éste el paso con el cual el modelo logra algo más que simplemente imitar a los humanos —es decir, intenta cosas en el mundo real, vemos cómo funcionan y lo recompensamos— y, por lo tanto, es también el paso que da lugar a gran parte del peligro, de modo que lo desarrollé en torno a eso.
Future Matters: Entonces ese es el paradigma en el que creaste este modelo. Y luego, el informe presenta tres supuestos sobre cómo evolucionaría este escenario. ¿Nos puedes explicar más al respecto?
Ajeya Cotra: Sí. Estos tres supuestos son lo que llamo el supuesto de tomar la delantera, el supuesto del esfuerzo ingenuo por la seguridad y el supuesto de que la HFDT avanza progresivamente.
Este último supuesto se trata básicamente de que el proceso que describí sirve para producir un sistema creativo muy inteligente capaz de automatizar todas las tareas complicadas, prolongadas e intelectualmente demandantes que realizan los científicos humanos en su trabajo. No se limita a algo mucho menos trascendente. En la historia que presento, postulo que esta técnica no se topa con la pared y que básicamente puede usarse para alcanzar una IA transformadora.
Los otros dos supuestos, el de tomar la delantera y el del esfuerzo ingenuo por la seguridad, están relacionados. En cuanto a la idea de tomar la delantera, la compañía que me imagino (a la cual llamo Magma) entrena a este sistema (al cual llamo Alex) en el contexto de una suerte de intensa carrera competitiva, ya sea con otras compañías para dominar un mercado comercialmente, o con otros países, si nos imaginamos que Magma es controlada por un gobierno. Entonces Magma asume, en principio, que es bueno hacer que nuestros sistemas sean más inteligentes: eso los hará más útiles, lo que mejorará nuestras probabilidades de ganar la carrera en la que estemos compitiendo. No tenemos una predisposición a actuar con demasiada cautela ni un deseo de avanzar despacio. Nuestra postura es la misma que tendría cualquier startup que desarrolle tecnología: avanzar rápido, hacer el producto y hacerlo lo mejor posible.
El otro supuesto prácticamente se sigue del supuesto de tomar la delantera: el supuesto del esfuerzo ingenuo por la seguridad se trata de que la compañía que está desarrollando el sistema no considera como un resultado evidente o plausible que el sistema cree sus propias metas y termine dominando al mundo, o dañando a sus creadores. Podrían tener en cuenta otras posibles cuestiones de seguridad, como problemas de solidez con los que el sistema podría hacer cosas extrañas y causar mucho daño por accidente, pero no tienen aquel tipo de fallas deliberadas y engañosas lo suficientemente presentes como para hacer grandes sacrificios que permitan atender esos problemas de forma específica. Hacen los mismos esfuerzos en materia de seguridad que las compañías hacen actualmente respecto de los sistemas que lanzan. Por ejemplo, quieren asegurarse de que esta cosa no los haga quedar mal si dice algo tóxico, o quieren asegurarse de que no vaya a borrar todos tus archivos por accidente, o cosas por el estilo. Básicamente, lo que hacen para lograr esta seguridad es probar el sistema en estas situaciones y entrenarlo hasta que deje de presentar dichos comportamientos problemáticos, y eso es prácticamente todo lo que hacen con respecto a la seguridad.
Future Matters: Dices que Alex —el modelo entrenado por Magma, la compañía— tendrá algunas características clave, y es en virtud de esas características que Alex representa el tipo de amenaza del que hablas en tu informe. ¿Cuáles son estas características?
Ajeya Cotra: Incluí esas características como parte de los supuestos, pero en general creo que es muy probable que se deriven del supuesto de que la HFDT avanza progresivamente; si realmente se puede automatizar todo lo que los humanos estamos haciendo, creo que tendrá las dos características siguientes.
La primera es tener habilidades sólidas que pueden aplicarse ampliamente y un entendimiento del mundo. El entendimiento que tiene Alex del mundo no se basa en patrones acotados y poco profundos que tiendan a resquebrajarse si se encuentra con situaciones que no se han presentado en el entrenamiento: tiene un entendimiento coherente y sensato del mundo, similar al de los humanos, que nos ayuda a no desmoronarnos y a no decir algo tonto si nos encontramos en una situación a la que no nos hayamos enfrentado antes, o si vemos algo demasiado extraño. Actuamos con sensatez, quizá sin aplicar nuestra inteligencia al máximo, pero sí con sensatez.
La segunda característica es ser capaz de dar con planes creativos para alcanzar metas respecto de las cuales no hay ninguna restricción. Aquí debemos imaginarnos el entrenamiento como “Oye, haz esto, sintetiza esta proteína o crea esta aplicación web, o lo que sea: vamos a ver qué tal lo hiciste, y te vamos a recompensar según nuestra percepción de cuán bien lo hiciste”. Así que no limita los medios de ninguna forma específica, y recompensa en función de los resultados finales. Y las tareas incluídas en este entrenamiento son difíciles y a muy largo plazo.
La idea es que, debido al supuesto de tomar la delantera, Magma sólo está tratando de hacer a Alex tan útil como sea posible. Y uno de los componentes para ser útil al máximo en estas funciones intelectuales, en estas tareas relativas al conocimiento, es tener la capacidad de crear planes que funcionen, que en ocasiones funcionan por razones inesperadas: por ejemplo, un empleado creativo que descubre una nueva manera de hacer algo resulta más útil que un empleado que se apega a cierto procedimiento al pie de la letra y no busca maneras de obtener más ganancias o de terminar algo más rápido.
Future Matters: Pasando a la siguiente sección del informe, argumentas que, en el laboratorio, el sistema será recompensado por lo que denominas “jugar el juego del entrenamiento”. ¿A qué te refieres con esa expresión? ¿Por qué crees que el proceso de entrenamiento llevará a Alex a comportarse así?
Ajeya Cotra: Me refiero a que toda esta configuración lleva a Alex a esforzarse mucho por recibir tantas recompensas como sea posible, donde —por cómo está configurado el entrenamiento— “tantas recompensas como sea posible” significa hacerles creer a los humanos que lo hizo tan bien como es posible, o al menos afirmarlo. Esto no hace más que resaltar la diferencia que existe entre realmente hacer un buen trabajo y hacerles creer a tus supervisores que hiciste un buen trabajo. Creo que habrá muchas concesiones, menores y mayores, entre ambos objetivos, y que cuando entren en conflicto, el proceso de entrenamiento llevará a Alex a enfocarse en el objetivo de hacerles creer a sus supervisores que hizo un buen trabajo, porque eso es precisamente la señal de recompensa.
Esto no representa necesariamente un peligro extremo; aún no llego a eso. Es más bien un argumento en el sentido de que no vas a obtener un sistema totalmente infalible que por alguna razón nunca te va a engañar, o que por alguna razón sea obediente, digamos, deontológicamente, porque lo estás entrenando para que encuentre formas creativas de obtener una recompensa, y a veces esas formas creativas de obtener una recompensa implicarán un comportamiento engañoso. Por ejemplo, podría hacerte creer que no hubo ningún problema durante el lanzamiento de un producto cuando en realidad sí lo hubo, porque sabe que si advirtieras esos problemas, le darías una recompensa menor; o podría recurrir a tus preferencias personales, políticas o emocionales, para agradarte y que le des una mejor calificación, entre muchas otras cosas.
Future Matters: El siguiente, y último, argumento central de tu análisis se refiere a la transición del laboratorio al mundo real. Argumentas que el despliegue de Alex llevaría a una rápida pérdida del control humano. ¿Puedes describir el proceso que derivaría en esta pérdida de control y explicar por qué crees que ese sería el desenlace a falta de medidas específicas para evitarlo?
Ajeya Cotra: Sí. Hasta aquí la esta historia nos dice que tenemos un sistema con un buen entendimiento del mundo, capaz de adaptarse bien a situaciones novedosas, que puede crear planes creativos a largo plazo y que está haciendo un gran esfuerzo por recibir muchas recompensas, en lugar de esforzarse por ser útil, o de guiarse por una política de ser obediente u honesto. Entonces, cuando se despliega ese sistema y se utiliza en todos los lugares en los que podría ser útil, pasan muchas cosas. Por ejemplo, la ciencia y la tecnología avanzan mucho más rápido que si los humanos fueran los únicos científicos porque todas las copias de Alex trabajan mucho más rápido que un cerebro humano y porque potencialmente hay muchas más copias que científicos humanos en el mundo, además de que pueden mejorarse a sí mismas, hacer nuevas versiones de sí mismas y reproducirse mucho más rápidamente que los humanos.
Entonces nos encontramos en un mundo en el que cada vez es más común que ningún humano sepa realmente por qué están sucediendo ciertas cosas, y en el que cada vez es más común que las recompensas se vayan alejando más y más de las acciones concretas que las numerosas copias de Alex están tomando. Los humanos pueden seguir enviando recompensas a este sistema enloquecido, aunque basándose en preguntas como “¿Esto parecía ser un buen producto?”, “¿Tuvimos ganancias este trimestre?” o “¿Las cosas están bien a grandes rasgos?”, lo que va aflojando la soga que ata a estos sistemas, con respecto al entorno del laboratorio. En el laboratorio, cuando toman esas acciones específicas, los humanos tienen la capacidad de someterlas a mayor escrutinio, y lo que es más importante, esas acciones no afectan al mundo exterior ni cambian los sistemas que operan ahí.
Esa es solo una parte, que luego tenemos que combinar con lo que ya sabemos de Alex, o lo que hemos asumido sobre Alex en esta historia: que tiene una gran creatividad y un buen entendimiento del mundo, que puede hacer planes y que está haciendo planes para hacer algo, que en el laboratorio parecía hacer un gran esfuerzo por obtener una recompensa, y no parecía ser útil o leal a los humanos, al menos no del todo. Entonces, si nos preguntamos cuál es la psicología de un sistema que en el laboratorio hace muchos esfuerzos por obtener recompensas, podríamos pensar que se trata de un sistema que hará justamente eso cuando esté desplegado, y tal vez podríamos decir que es un sistema que intrínsecamente busca una recompensa. Eso no está nada bien, y parece que podría llevar a una situación de “rebelión” o toma de control, porque si Alex puede tomar el control de las computadoras en las que se ejecuta, entonces tendrá máximo control sobre las recompensas que obtiene, y nunca podría encontrarse en una situación tan favorable si permite que los humanos sean quienes le sigan dando las recompensas, aunque sólo sea porque los humanos a veces se equivocan y le dan menos recompensas de las que deberían, por ejemplo.
Pero luego podríamos decir que no sabemos si Alex en verdad quiere una recompensa, o que no sabemos qué es lo que quiere realmente, si es que quiere algo. Y eso es cierto, me parece algo razonable. Pero sea cual sea su psicología o su objetivo último, fue eso lo que estimuló sus esfuerzos para obtener recompensas en el laboratorio. El sistema es así en virtud del entrenamiento que tuvo. Si Alex únicamente quisiera sentarse en una silla durante cinco minutos, no sería un sistema muy útil. En cuanto se sentara en una silla durante cinco minutos, dejaría de hacer cosas útiles para los humanos, por lo que seguiríamos con el entrenamiento hasta encontrar un sistema que, de hecho, hiciera cosas útiles para los humanos.
Entonces, lo que yo sostengo es que si a Alex no le importan las recompensas de forma intrínseca, debe haber tenido algún tipo de configuración psicológica que estimulara extremadamente sus esfuerzos para obtener recompensas en el laboratorio. La causa más plausible para este comportamiento es que Alex tenga una especie de objetivo ambicioso, o algo que quiere, para cuya obtención los esfuerzos y la recompensas en el laboratorio fueran un paso intermedio. Si Alex solo quisiera sobrevivir y reproducirse, digamos, si tuviera algún objetivo basado en la aptitud genética, eso bastaría para hacer que se esforzara mucho por obtener recompensas en el laboratorio, porque tendría que obtener muchas para ser seleccionado para su despliegue y hacer muchas copias de sí mismo en el futuro.
De forma similar, cualquier objetivo, siempre y cuando no fuera uno extremadamente acotado y a corto plazo, como “Quiero sentarme en una silla durante cinco minutos”, motivaría al sistema a tratar de lograr recompensas durante el entrenamiento. Y ninguno de esos objetivos sería bueno para los humanos, ya que todo el conjunto de objetivos se beneficiaría de que el mismo sistema tomara el control de las computadoras que lo estuvieran ejecutando, y el control de los recursos mundiales. En este caso, no se debe a que intrínsecamente quiera manipular o cambiar su recompensa para que ésta aumente de forma significativa, sino más bien a que no quiere que los humanos intervengan constantemente en sus actividades y en su psicología mediante cambios en sus recompensas. Así que tal vez no le importe la recompensa en absoluto, sino que quiere tener la capacidad de hacer todo lo que quiera hacer.
Future Matters: Suponiendo que esta hipótesis se hiciera realidad, ¿puedes platicarnos qué tipo de medidas podría implementar Magma para evitar esa toma de control?
Ajeya Cotra: Sí. Creo que una parte importante es simplemente tenerlo presente en el espacio hipotético y estar atentos a las señales tempranas. En este sentido, creo que una dinámica que podría ser muy nociva es la siguiente: observamos que los primeros sistemas que no son superpoderosos hacen cosas que parecen engañosas, respondemos dándoles una recompensa negativa por esas cosas, y entonces dejan de hacerlas. Creo que la forma en que preferiría que la gente respondiera a eso es: “Bueno, esto es un síntoma de un problema mayor en el que la forma en que entrenamos el sistema hace que tienda hacia psicologías u objetivos o sistemas de motivación que la lleva al engaño”. Si diéramos una recompensa negativa por los casos de engaño que encontráramos, esperaríamos encontrar cada vez menos casos, pero no necesariamente porque hayamos resuelto el problema de raíz, sino porque le estamos enseñando al sistema a ser más cuidadoso. En cambio, deberíamos detenernos y examinar el modelo con herramientas más sutiles —como la interpretabilidad mecanicista o entornos de prueba específicos—, deberíamos tener la disciplina de no entrenarlo simplemente para eliminar los indicadores medibles de un problema, y no deberíamos sentirnos satisfechos si al ver algo malo lo entrenamos para eliminarlo y ese algo desaparece.
La interpretabilidad parece ser algo complicado, al tratar de crear mecanismos de retroalimentación que sean más competitivos con el modelo desde el punto de vista epistemológico. En este caso no es un humano quien intenta discernir si las acciones del modelo tuvieron un efecto positivo: es quizá un sistema amplificado, quizá recibe ayuda de otros modelos muy similares a éste, etc. Holden escribió un artículo sobre cómo podríamos alinear la IA transformadora si se desarrollara pronto, en donde analiza muchas de estas posibilidades.
Future Matters: ¡Gracias, Ajeya!
Agradecemos a Leonardo Picón por asistencia editorial y a Paulina Arellano por la traducción.
Hacemos notar que uno de nosotros es miembro de Samotsvety.
Para más información sobre este punto, véase la reseña Space governance, de Fin Moorhouse, y Outer space and the veil of ignorance, de Douglas Ligor y Luke Matthews.
Rob Wiblin presenta un argumento similar en If elections aren’t a Pascal’s mugging, existential risk shouldn’t be either, Overcoming Bias, 27 de septiembre de 2012, y en Saying ‘AI safety research is a Pascal’s Mugging’ isn’t a strong response, Effective Altruism Forum, 15 de diciembre de 2015.
Hemos hecho una observación similar en nuestro resumen del artículo de Alexander aludido en el párrafo anterior: "la denominación 'riesgo existencial' […] atrae la atención hacia las amenazas al […] valor, que son en su mayor parte, aunque no exclusivamente, amenazas al futuro a corto plazo, en tanto que la denominación 'largoplacismo' pone el énfasis en los determinantes del valor, que se hallan en el futuro lejano."
Véase la lista de James Aitchison, que incluye todas las entrevistas, reseñas, artículos de prensa, etc. La lista es actualizada regularmente.