#6: El colapso de FTX, la fijación permanente de valores y contrargumentos al riesgo existencial de la IA
[E]l sol y todos los planetas, con el tiempo, se volverán demasiado fríos para albergar vida, a menos que una enorme masa se estrelle en el sol, dándole nuevo aliento. Como tengo la convicción de que en un futuro lejano el hombre será una criatura mucho más perfecta de lo que es ahora, me resulta intolerable pensar que él y los demás seres sintientes estén condenados, tras su lento pero continuo progreso, a una aniquilación absoluta.
— Charles Darwin
Future Matters es un boletín sobre largoplacismo y riesgo existencial creado por Matthew van der Merwe y Pablo Stafforini. Cada mes, recopilamos y resumimos investigaciones relevantes, compartimos noticias de la comunidad y publicamos una conversación con un investigador prominente. Puedes suscribirte a Substack, seguirnos en Twitter, y visitar nuestro sitio web. También puedes leer Future Matters en inglés.
Mensaje a nuestros lectores
Bienvenidos nuevamente a Future Matters. Nos tomamos un descanso durante el otoño, pero estamos de regreso con nuestra agenda mensual. ¡Future Matters les desea un feliz año nuevo!
El suceso más significativo durante nuestra pausa fue el colapso de FTX y la caída de Sam Bankman-Fried, quien fuera, hasta entonces, uno de los principales promotores de las causas largoplacistas. Estas noticias nos conmocionaron y entristecieron, así como las subsiguientes acusaciones y admisiones de fraude, engaños y malversación de fondos de los clientes. Como ya lo han dicho otras personas, el fraude al servicio del altruismo eficaz es inaceptable. Condenamos enérgicamente estas acciones y apoyamos los esfuerzos de las autoridades para investigar y perseguir todo crimen que se haya cometido.
Investigación
En Artificial general intelligence and lock-in [🔉], Lukas Finnveden, C. Jess Riedel y Carl Shulman consideran que la inteligencia artificial general permitiría, por primera vez en la historia, la creación de instituciones longevas y altamente estables con la capacidad de perseguir diversos objetivos bien definidos. Los autores argumentan que, si una parte significativa de las potencias mundiales acordaran establecer tales instituciones y les confirieran facultades para defenderse contra amenazas externas, dichas instituciones podrían emerger y subsistir por millones o incluso billones de años. Este informe nos pareció una de las contribuciones más importantes a la macroestrategia del largoplacismo que se hayan publicado en los últimos años, y esperamos poder presentar una conversación con alguno de los autores en un próximo número de este boletín.
Un argumento clásico con respecto al riesgo existencial derivado de la IA superinteligente afirma algo así: (1) las IA superinteligentes estarán dirigidas por objetivos; (2) las IA superinteligentes dirigidas por objetivos probablemente perseguirán resultados que nosotros consideramos extremadamente malos; por lo tanto, (3) si construimos IA superinteligentes, es probable que el futuro sea extremadamente malo. En Counterarguments to the basic AI x-risk case [🔉], Katja Grace identifica varios puntos débiles en cada una de las premisas de ese argumento. Invitamos a quienes estén interesados en este tema a leer la conversación que tuvimos con Katja, así como las respuestas [🔉] de Erik Jenner y Johannes Treutlein a dichos contraargumentos.
La causa principal del riesgo de la IA es que estamos desarrollando rápidamente sistemas cada vez más poderosos, sin hacer grandes progresos en garantizar que sean seguros. En Let’s think about slowing down AI [🔉], Katja Grace propone que la comunidad que trabaja en los riesgos de la IA debería considerar la posibilidad de abogar por desacelerar el avance de la misma. Refuta algunas de las objeciones más comunes contra dicha estrategia: por ejemplo, en cuanto a su supuesta impracticabilidad, apunta que muchas tecnologías (como la edición genética en humanos y la energía nuclear) se han interrumpido o reducido drásticamente debido a cuestiones éticas y/o de seguridad. En los comentarios, Carl Shulman argumenta que en la actualidad no hay suficiente aceptación por parte de los gobiernos o del público para adoptar intervenciones más modestas con respecto a la seguridad y a la gobernanza, por lo que no parece prudente abogar por una política tan dramática y costosa: “Es como con los ambientalistas de 1950, que respondieron a las dificultades de aprobar fondos destinados a la investigación y desarrollo de energías renovables o un impuesto sobre el carbono proponiendo la prohibición inmediata de la venta de automóviles. Se requirieron muchísimos datos científicos, la consolidación del consenso científico, comunicación y que creciera el movimiento con el tiempo para llegar a las medidas actuales sobre el cambio climático.”
Disfrutamos la reseña de Kelsey Piper de What We Owe the Future [🔉], no necesariamente porque compartamos sus críticas, sino porque creemos que logró identificar, y expresar de manera muy clara, lo que consideramos como la discrepancia principal entre los altruistas eficaces largoplacistas a quienes les gustó el libro y los que, como Piper, tuvieron grandes reservas al respecto: “a la mayoría de los largoplacistas que trabajan en seguridad de la IA les preocupan los escenarios donde los humanos sean incapaces de impartir los objetivos deseados a los sistemas que creen. Pero MacAskill piensa que es sustancialmente más probable que nos encontraremos en una situación en la que sí sepamos fijar los objetivos, pero lo hagamos basándonos en valores del siglo XXI con una perspectiva limitada, lo que hace que mejorar nuestros valores sea de suma importancia para evitar que el futuro que construyamos sobre ellos sea distópico.”
En How bad could a war get? [🔉], Stephen Clare y Rani Martin se preguntan qué nos dice el registro de muertes en conflictos armados sobre la probabilidad de que haya guerras lo suficientemente graves como para amenazar la existencia humana. Concluyen que la historia no nos ofrece una razón sólida para descartar guerras de esa envergadura, particularmente dada la reciente aparición de tecnologías con un potencial destructivo sin precedentes, como las armas biológicas y nucleares.
Las catástrofes que no lleguen al punto de causar la extinción humana podrían, no obstante, reducir a la humanidad a un estado de desarrollo previo a la industrialización o incluso a la agricultura. En What is the likelihood that civilizational collapse would cause technological stagnation? [🔉], Luisa Rodriguez se pregunta si en algún momento lograríamos recuperarnos de un retroceso de tal magnitud. El pasado nos brinda algo de esperanza: en la breve historia de la humanidad, la agricultura se inventó por separado muchas veces, y la revolución industrial tuvo lugar tan solo 10,000 años después. Teniendo esto en cuenta, sería sorprendente que nos resultara extremadamente difícil hacer todo de nuevo. Además, tras un colapso, la humanidad probablemente tendría materiales y conocimientos remanentes de la civilización industrial, lo que le daría una ventaja en comparación con nuestros ancestros cazadores-recolectores. Por otro lado, ciertas catástrofes podrían complicar las cosas, como daños ambientales extremos con consecuencias duraderas. Teniendo todo esto en cuenta, Rodriguez cree que la humanidad tiene una probabilidad de al menos el 97% de recuperarse tras un colapso.
En The Precipice, Toby Ord propone una ambiciosa estrategia de desarrollo humano que implica alcanzar la seguridad existencial —un estado estable de riesgo existencial insignificante— seguida, primero, de una “larga reflexión” y finalmente de la plena realización del potencial humano. La reciente contribución de Ord al Informe sobre desarrollo humano de la ONU [🔉] se centra en la primera de estas tres etapas y considera de manera específica las instituciones necesarias para alcanzar la seguridad existencial. Su respuesta es que se necesitan instituciones internacionales con excelentes habilidades de pronosticación, una sólida capacidad de coordinación y un alto grado de convencimiento.1
En A lunar backup record of humanity, Caroline Ezell, Alexandre Lazarian y Abraham Loeb ofrecen una propuesta intrigante para ayudar a la humanidad a recuperarse de una catástrofe. Mencionan que como parte de los primeros asentamientos lunares, deberíamos construir una infraestructura de almacenamiento de datos para mantener un respaldo de materiales importantes —como libros, artículos, información genética e imágenes satelitales— que se actualice continuamente. Sugieren que esto mejoraría las probabilidades de que los asentamientos lunares puedan reconstruir la civilización en el caso de una catástrofe terrestre, y que podría funcionar con tecnologías actuales de almacenamiento y transmisión de datos.
En Why I think there's a one-in-six chance of an imminent global nuclear war [🔉], Max Tegmark explica por qué cree, a la luz de la guerra ruso-ucraniana, que hay una probabilidad de uno en seis de que se produzca una guerra nuclear mundial. Nótese que este artículo se publicó el 8 de octubre, por lo que las opiniones del autor podrían haber cambiado. Tegmark presenta un modelo probabilístico simple de cómo podría desenvolverse esta guerra. Asigna una probabilidad de ~30% de que Rusia lance un ataque nuclear en Ucrania, de un 80% de que esto resulte en una respuesta militar no nuclear por parte de la OTAN y de un 70% de que esto vaya seguido de un rápido escalamiento que derive en una guerra nuclear total, para llegar a una probabilidad global de ~17%. Véase también Nuclear risk update de Samotsvety [🔉] (del 3 de octubre), donde este grupo asigna una probabilidad de ~16% de que Rusia utilice un arma nuclear el próximo año, y de ~10% de que el conflicto nuclear se extienda fuera de Ucrania el año subsiguiente, lo que da como resultado una probabilidad de ~1.6% de un conflicto nuclear global. Aplaudimos a Tegmark y Samotsvety por hacer pronósticos cuantitativos claros sobre este tema.
La publicación de Marius Hobbhahn The next decades might be wild [🔉] es un informe especulativo de lo que podría pasar en las décadas venideras si es que estamos a tan solo 10 o 20 años de una IA transformadora. Stefan Schubert le responde, refutando la expectativa de Hobbhahn de que habrá una reacción débil por parte del público y una respuesta absolutamente ineficaz de los gobiernos a medida que los sistemas de IA empiecen a salirse de control.
Anteriormente, Holden Karnofsky argumentó que si los sistemas de IA avanzados se propusieran destruir o arrebatar el poder a la humanidad, podrían lograrlo (véase FM#3). En Why would AI "aim" to defeat humanity? [🔉], Karnofsky explica por qué es probable que esos sistemas, por defecto, adopten este objetivo. A partir de los supuestos de que (1) pronto desarrollaremos una IA poderosa (2) en un mundo que por lo demás es similar al actual, (3) con técnicas muy similares a las que se están usando actualmente (4) que impulsen a los sistemas a ser cada vez más capaces y (5) sin contrapesos específicos para prevenir que dichos sistemas causen una catástrofe existencial, Karnofsky dice que deberíamos esperar que los sistemas que emerjan se comporten como si tuvieran objetivos; que, debido a la naturaleza del proceso de entrenamiento, algunos de esos objetivos probablemente serán distintos a los de los humanos; y que, en consecuencia, los sistemas probablemente tendrán también el objetivo intermedio de engañar y, en última instancia, de arrebatarle el poder a la humanidad.2
En High-level hopes for AI alignment [🔉], Karnofsky describe tres aproximaciones a la alineación de la IA que considera prometedoras. La ‘neurociencia digital’ pretende desarrollar algo parecido a las técnicas para detectar mentiras y leer la mente a fin de examinar las motivaciones de los sistemas. Podríamos tratar de desarrollar una ‘IA limitada’: sistemas que no participen en la planificación general a largo plazo, que se presenta como especialmente preocupante. Por último, podríamos desarrollar sistemas de ‘controles y contrapesos para la IA’ en los que utilicemos sistemas para supervisarse entre sí. Karnofsky concluye que el éxito de cualquiera de estas aproximaciones dependerá en gran medida de que tengamos tiempo suficiente para desarrollarlas y probarlas antes de que los sistemas de IA se vuelvan extremadamente poderosos.
A su vez, en AI safety seems hard to measure [🔉], argumenta que es difícil saber si la investigación en materia de seguridad de la IA realmente está haciendo que los sistemas de IA sean más seguros. Karnofsky da cuatro razones para esta conclusión. En primer lugar, no es fácil distinguir la diferencia entre un buen comportamiento y uno que pretende serlo. En segundo lugar, es difícil inferir cómo se comportará un agente una vez que tenga poder sobre ti, a partir de cómo se ha comportado hasta ese momento, antes de haber adquirido ese poder. En tercer lugar, los sistemas actuales todavía no son tan sofisticados como para mostrar las capacidades cognitivas avanzadas —como la capacidad de engañar y manipular— que queremos estudiar. En cuarto lugar, los sistemas que sean muchísimo más capaces que los humanos serán criaturas muy extrañas, y simplemente no tenemos idea de cómo prepararnos para nuestro primer encuentro con ellas.
Por último, en Racing through a minefield [🔉], Karnofsky describe un problema más amplio que el de la alineación de la IA, al que denomina el problema del despliegue de la IA. Este es el problema al que se enfrenta un agente que potencialmente puede desarrollar una IA transformadora y que se encuentra frente a la disyuntiva de avanzar rápido y correr el riesgo de desarrollar una IA insegura, o avanzar lentamente y correr el riesgo de que otros agentes menos precavidos, pero más rápidos, desarrollen una IA insegura. Karnofsky compara lo anterior con una carrera en un campo minado en la que cada agente tiene un incentivo para ganarles a los demás pero donde avanzar rápido pone en peligro a todos los agentes, y ofrece algunas medidas que podrían reducir la gravedad del problema. Siguiendo con la analogía, dichas medidas incluyen trazar un camino seguro a través del campo minado (investigación sobre la alineación), alertar a otros acerca de las minas (evaluación de amenazas), avanzar con mayor cuidado a través del campo minado (evitar las carreras) y evitar que otros pisen las minas (monitorización y vigilancia a escala global).
En AI will change the world, but won’t take it over by playing “3-dimensional chess”, Boaz Barak y Ben Edelman cuestionan el argumento común a favor de que una IA que busque poder podría causar una catástrofe existencial. En resumen, los autores argumentan que el conflicto relevante no es “los humanos vs la IA”, como asume el argumento, sino “humanos apoyados por IA que tenga objetivos a corto plazo vs IA que tenga objetivos a largo plazo”. Dado que las IA tendrán una ventaja mucho más decisiva sobre los humanos en cuanto a la capacidad de planificación a corto plazo que a largo plazo, la cuestión de si la humanidad perderá el control sobre su futuro es mucho menos clara de lo que generalmente cree la comunidad que se dedica a la alineación. Además, para reducir la probabilidad de una catástrofe, los autores sostienen que deberíamos enfocarnos menos en la alineación de la IA general y más en la investigación de las capacidades diferenciales de la IA, específicamente en desarrollar sistemas que tengan horizontes temporales cortos en lugar de largos.
La nueva página sobre inteligencia artificial de Our World in Data presenta cinco artículos acerca de diversos aspectos de la IA. Artificial intelligence is transforming our world [🔉] intenta responder a tres preguntas: ¿Por qué es tan difícil tomar con seriedad la posibilidad de un mundo transformado por la IA? ¿Cómo podemos imaginarnos ese mundo? ¿Qué es lo que está en juego a medida que esta tecnología se vuelve más poderosa? The brief history of artificial intelligence [🔉] echa un vistazo a cómo ha evolucionado el campo de la IA en el pasado a fin de guiar nuestras expectativas acerca de su futuro. Artificial intelligence has advanced despite having few resources dedicated to its development se enfoca en varios indicadores del crecimiento de la IA como campo en la última década. AI timelines resume diversos esfuerzos por pronosticar la llegada de una IA de nivel humano, incluyendo encuestas a investigadores de aprendizaje automático, predicciones de los pronosticadores de Metaculus y el informe de Ajeya Cotra sobre anclajes biológicos. Finalmente, Technology over the long run intenta ofrecer una perspectiva intuitiva de la medida en que el futuro podría diferir del presente en vista de la rapidez con que la tecnología ha cambiado nuestro mundo en el pasado.
En Futurist prediction methods and accuracy [🔉], Dan Luu examina pronósticos de largo alcance que han sido resueltos por alrededor de una docena de pronosticadores prominentes y se basa en ese examen para identificar técnicas de pronosticación que predigan el desempeño de la propia pronosticación. Luu advierte que los mejores pronosticadores suelen tener una sólida comprensión técnica de los campos relevantes y una serie de aprendizajes provenientes de errores de predicción cometidos en el pasado, mientras que los peores pronosticadores tienden a estar demasiado seguros de sus métodos y a hacer pronósticos motivados por lo que él llama el “pensamiento tipo panacea”, o la idea de que un solo desarrollo o una sola intervención —como las computadoras poderosas o el control poblacional— puede resolver todos los problemas de la humanidad.
En Clarifying AI x-risk [🔉], Zac Kenton y otros colaboradores del equipo de seguridad de IAG de DeepMind exploran los diferentes modelos de amenaza de la IA, es decir, las vías por las que una IA mal alineada podría resultar en una catástrofe existencial. Identifican y clasifican varios modelos que se encuentran en la literatura, hallando un amplio consenso entre los investigadores, y exponen su propio modelo de amenazas: se desarrolla una IAG mediante la expansión de modelos fundacionales, afinados según técnicas de aprendizaje por refuerzo a partir de retroalimentación humana; durante el entrenamiento, emerge un agente no alineado que busca poder y que oculta estas características de los desarrolladores; las personas fundamentales que toman las decisiones no serán capaces de comprender el riesgo ni de responder adecuadamente; la interpretabilidad será difícil. Apuntan que entre los modelos de amenazas que existen, el suyo se asemeja más al de Ajeya Cotra (véase nuestro resumen en FM#4, y nuestra conversación con Ajeya en FM#5). La revisión que hicieron los autores de la literatura, con resúmenes de cada modelo de amenazas, se publicó por separado aquí.
En A theologian's response to anthropogenic existential risk Peter Wyg ofrece un argumento a favor de la importancia de reducir el riesgo existencial y expone su preocupación por las generaciones futuras basándose en el pensamiento cristiano. Wyg señala, por ejemplo, que “si la historia de la humanidad es sólo el principio…, entonces Dios bien podría concedernos innumerables bendiciones en el futuro: los santos ascenderán, los pecadores serán perdonados, los teólogos explorarán nuevas profundidades, los creyentes experimentarán nuevas alturas de espiritualidad”. Estamos siempre ansiosos por entender mejor las concepciones que se tienen del riesgo existencial y del futuro desde otros puntos de vista, por lo que este artículo nos pareció valioso.
En The unexpected value of the future, Hayden Wilkinson argumenta que en varios modelos plausibles, el valor esperado del futuro de la humanidad es indefinido. Sin embargo, esto no lleva a Wilkinson a concluir que los argumentos a favor del largoplacismo se vean debilitados. En lugar de ello, defiende una ampliación de la teoría del valor esperado que permita manejar las perspectivas que desafían las expectativas sin abandonar la neutralidad en cuanto a los riesgos.
En un número anterior de este boletín, señalamos que Scott Aaronson se había sumado a OpenAI para trabajar en seguridad de la IA (véase FM#3). Ya adentrado en el proyecto, Aaronson dio una conferencia en la que compartió lo que piensa de las actividades que se han realizado a la fecha. En la conferencia, Aaronson expone sus opiniones acerca del estado actual de la ampliación de la IA, identifica ocho diferentes aproximaciones a la seguridad de la IA y habla sobre los tres proyectos específicos en los que ha estado trabajando. Estos proyectos son: (1) colocar marcas de agua estadísticas a los resultados de grandes modelos de lenguaje (de modo que no sea posible ocultar la participación del modelo en la generación de cadenas de texto muy largas); (2) insertar puertas traseras criptográficas en los sistemas de IA (lo que daría lugar a un “interruptor de apagado” que la IA no pueda deshabilitar); y (3) desarrollar una teoría de aprendizaje en entornos peligrosos.
En Longtermism in an infinite world, Christian Tarsney y Hayden Wilkinson analizan la manera en que la posibilidad de un universo infinito en términos de valor potencial afecta los argumentos a favor del largoplacismo que se formulan desde la perspectiva del totalismo neutral respecto al riesgo.3 Las conclusiones de los autores pueden resumirse de la siguiente manera: (1) el totalismo neutral respecto al riesgo puede extenderse para manejar de forma adecuada contextos infinitos cuando los agentes sólo pueden influir en muchas ubicaciones de forma finita; (2) no obstante, deberíamos tener un grado de convicción mayor a cero en hipótesis sobre el mundo físico en el que agentes individuales pueden influir en muchas ubicaciones de manera infinita; (3) si las extensiones plausibles del totalismo neutral respecto al riesgo también pueden clasificar tales perspectivas, es probable que se reivindiquen los argumentos a favor del largoplacismo; (4) por el contrario, los argumentos a favor del largoplacismo se verían debilitados si dichas extensiones implicaran una incomparabilidad generalizada.4
Resúmenes en una línea
En Catastrophic risk, uncertainty, and agency analysis, Alasdair Phillips-Robins propone algunos cambios a la gobernanza de la creación de políticas federales.
En Why I’m optimistic about our alignment approach [🔉], Jan Leike ofrece algunos argumentos a favor del enfoque de OpenAI sobre la investigación de la alineación, además de respuestas a objeciones comunes.
En AI forecasting research ideas [🔉], Jaime Sevilla, Anson Ho y Lennart Heim presentan posibles temas de investigación relativos a la pronosticación de la IA.
En Comments on Ajeya Cotra’s draft report on AI timelines, David Roodman presenta una revisión crítica del modelo de anclajes biológicos de Cotra.
En Cyborgs v ‘holdout humans’ [🔉], Anders Sandberg especula acerca de lo que podría pasar si la especie humana sobreviviera por un millón de años.
En Cross-cultural perceptions of rights for future generations, Eric Martinez y Christoph Winter observaron un apoyo generalizado a la idea de aumentar las protecciones jurídicas para generaciones futuras tras entrevistar a personas de seis continentes.
El Global Priorities Institute (GPI) publicó nuevos resúmenes de "The paralysis argument" [🔉] de Will MacAskill y Andreas Mogensen, y de "Do not go gentle: why the Asymmetry does not support anti-natalism" [🔉] de Mogensen.
Longtermist political philosophy: an agenda for future research [🔉] de Jacob Barrett y Andreas Schmidt es el intento del GPI por instaurar la filosofía política largoplacista como un campo de investigación académica.
En AGI timelines in governance [🔉], Siméon Campos enumera algunas diferencias probables entre mundos en los que se desarrolle una IAG antes y después de 2030, y trata acerca de cómo afectarían esas diferencias a los enfoques de gobernanza de la IAG.
Avoiding the Worst: How to Prevent a Moral Catastrophe [🔉] de Tobias Baumann es una introducción exhaustiva a los riesgos de sufrimiento (riesgos S).
En Investing in pandemic prevention is essential to defend against future outbreaks [🔉], Bridget Williams y Will MacAskill argumentan que las inversiones en preparación frente a pandemias son sorprendentemente bajas dados los costos sanitarios y económicos de la pandemia de la COVID-19, e identifican cuatro áreas prometedoras para la financiación gubernamental: vacunas contra patógenos prototípicos, vigilancia de enfermedades mediante secuenciación metagenómica, tecnología de aire limpio en interiores y mejor equipo de protección personal.
En How the Patient Philanthropy and Global Catastrophic Risks Funds work together [🔉], Christian Ruhl y Tom Barnes explican las simpatías y diferencias entre dos de los fondos administrados por Founders Pledge.
En The socialist case for longtermism [🔉], Garrison Lovely defiende que el largoplacismo puede considerarse una extensión de la preocupación socialista por las masas de trabajadores, al ampliar este círculo de compasión a un grupo aún más grande de pacientes morales —aquellos que aún no han nacido—.
En AI experts are increasingly afraid of what they're creating [🔉], Kelsey Piper explica cómo es cada vez más difícil ignorar los riesgos derivados de la IA a medida de los sistemas se vuelven más capaces y generales.
En What does it take to defend the world against out-of-control AGIs? [🔉], Steve Byrnes argumenta que la IAG no protegería por completo a la humanidad de los riesgos asociados a la IA no alineada y en busca de poder, como se suele asumir.
En Warning shots probably wouldn't change the picture much [🔉], Nate Soares concluye que un ‘disparo de advertencia’ no generará grandes cambios en el panorama actual, esto tras observar el fracaso de las personas que trabajan con riesgos biológicos en su intento por prohibir la investigación de ‘ganancia de función’ a la luz de la pandemia por COVID-19.
En Parfit + Singer + aliens = ? [🔉], Maxwell Tabarrok argumenta que ampliar el círculo de preocupación moral para incluir a seres sintientes tanto no humanos como futuros hace que el valor de la reducción del riesgo existencial sea altamente sensible al grado de convicción de cada persona en cuanto a la existencia de vida sintiente en otras partes del universo.
En Eucatastrophe [🔉], Richard Fisher analiza el neologismo propuesto por J. R. R. Tolkien para describir el concepto de una “catástrofe positiva”.
En AI alignment is distinct from its near-term applications [🔉], Paul Christiano expone su preocupación en cuanto a que aplicar técnicas de alineación para entrenar sistemas extremadamente inofensivos podría reducir el apoyo a la investigación sobre alineación de la IA.
El artículo Should we care about people who need never exist? publicado en The Economist es probablemente la discusión más detallada y rigurosa sobre ética poblacional que jamás haya aparecido en una publicación de gran circulación.
A la luz del hito poblacional recientemente alcanzado, Bryan Walsh se pregunta si 8 mil millones de personas son demasiadas o demasiado pocas en Are 8 billion people too many—or too few? [🔉]
En Existential advocacy, John Bliss examina las estrategias seguidas por los activistas del ámbito jurídico que están trabajando en mitigar los riesgos existenciales y salvaguardar a la humanidad.
La Global Challenges Foundation publicó su informe anual sobre los riesgos que amenazan a la humanidad: Global Catastrophic Risks 2022: A year of colliding consequences.
En AI from superintelligence to ChatGPT [🔉], Séb Krier relata cómo es que los sistemas de IA han llegado a tener tantas capacidades y describe los esfuerzos actuales por hacerlos más seguros.
En un hilo de Twitter, Will MacAskill menciona dos razones por las que rechaza la objeción según la cuál el largoplacismo es sólo una excusa para desatender los problemas importantes que aquejan al mundo actual: 1) las intervenciones largoplacistas suelen beneficiar también a las personas que están vivas en la actualidad, y 2) priorizar acciones que buscan beneficiar a las personas del futuro tiene un historial alentador.
En Understanding the diffusion of large language models [🔉], Ben Cottier utiliza el modelo GPT-3 como un estudio de caso sobre el tiempo y los recursos que se necesitan para lograr que los grandes avances en IA de punta sean replicados por otros grupos.
En The optimal timing of spending on AGI safety work, Tristan Cook y Guillaume Corlouer desarrollan un modelo cuantitativo para asignar recursos a la seguridad de la IA a lo largo del tiempo.
En Lessons for AI governance from early electricity regulation [🔉], Sam Clarke y Di Cooke rescatan algunas lecciones para la gobernanza de la IA a partir de las primeras regulaciones del sector eléctrico.
En Differential technology development, Hamish Hobbs, Jonas Sandbrik y Allan Dafoe resumen un documento previo [🔉] sobre el desarrollo de la tecnología diferencial para reducir los riesgos derivados de las tecnologías emergentes.
En una “secuencia” de publicaciones, Jesse Clifton, Samuel Martin y Anthony DiGiovanni analizan las condiciones que hacen que el trabajo técnico encaminado a la reducción de conflictos entre las IAG sea eficaz, las circunstancias en las que se mantienen dichas condiciones y algunos rumbos prometedores que pueden seguir las investigaciones para prevenir conflictos entre las IAG.
En Experimenting with disaster, publicado en The Intercept, Mara Hvistendahl expone una serie de accidentes impactantes y nunca antes revelados ocurridos en laboratorios de biotecnología estadounidenses en los que se realizan investigaciones con patógenos peligrosos.
En Sheltering humanity against x-risk, Janne M. Korhonen resume los puntos clave de una reunión reciente donde se debatió si búnkeres extremadamente resilientes podrían proteger a la humanidad de algunos riesgos existenciales.
En Delay, detect, defend, Kevin Esvelt desarrolla un marco para gestionar los riesgos derivados de la biotecnología que implica tres estrategias distintas: retrasar a través de la disuasión, la denegación de acceso a información y la denegación de acceso a materiales físicos; detectar por medio de secuenciación no dirigida confiable y sensible; y defender por medio de equipo de protección a prueba de pandemias, cadenas de producción y suministro resilientes, diagnósticos y advertencias tempranas personalizadas, y luz UVC lejana germicida.
En Lessons from the development of the atomic bomb, Toby Ord considera el Proyecto Manhattan5 como un estudio de caso informativo sobre la creación de una tecnología transformadora.
La canica azul, tomada por la tripulación de la misión Apolo 17 hace cincuenta años (restaurada por Toby Ord)
Noticias
Se publicó el primer número de Asterisk, una revista trimestral sobre altruismo eficaz. Los artículos destacados incluyen una entrevista con Kevin Esvelt sobre cómo prevenir la siguiente pandemia; un ensayo sobre la lógica del escalamiento nuclear de Fred Kaplan; y una reseña de What We Owe the Future [🔉] de Kelsey Piper (resumida arriba).
Future Perfect publicó una serie de perfiles que celebra a “los científicos, pensadores, académicos, escritores y activistas que están construyendo un futuro más perfecto”.
Durante los últimos meses, el Global Priorities Institute ha publicado varios resúmenes de algunos de sus artículos de investigación. Si aun así te parecen muy extensos, puedes leer los “miniresúmenes” de Jack Malde [🔉].
Nonlinear está ofreciendo [🔉] incentivos de 500 dólares para publicaciones que contribuyan a la serie Most Important Century de Holden Karnofsky.
El Podcast del Future of Life Institute volvió, ahora con Gus Docker como presentador. Nos encantó el podcast anterior de Docker, y quedamos impresionados con las entrevistas que se han publicado hasta ahora, en especial las conversaciones con Robin Hanson sobre extraterrestres acaparadores, con Ajeya Cotra sobre pronosticación de la IA transformadora, y con Anders Sandberg acerca de ChatGPT y su próximo libro Grand Futures.
La Nuclear Threat Initiative (NTI) lanzó la International Biosecurity and Biosafety Initiative for Science (IBBIS), un programa dirigido por Jaime Yassif cuyo objetivo es reducir los riesgos biológicos emergentes.
El Centre on Long-Term Risk está recaudando fondos [🔉] para apoyar su trabajo en riesgos S, IA cooperativa, intercambio no causal y largoplacismo general. Dona aquí.
Will MacAskill fue invitado a The Daily Show, donde habló del altruismo eficaz y de su libro What We Owe The Future. También fue entrevistado [🔉] por Jacob Stern para The Atlantic.
Recientemente se inauguró el Forecasting Research Institute, una nueva organización que se enfoca en desarrollar la ciencia de la pronosticación para el bien común. Hay vacantes para varios puestos.
Ben Snodin y Marie Buhl compilaron una lista de recursos relevantes para la investigación en estrategias de nanotecnología.
Robert Wiblin entrevistó [🔉] a Richard Ngo acerca de los modelos de lenguaje a gran escala para el podcast de 80,000 Hours.
Spencer Greenberg lanzó un episodio excelente sobre la catástrofe de FTX para el podcast Clearer Thinking.
En un comunicado de prensa, FTX anunció un "proceso para la devolución voluntaria de pagos evitables ". Molly Kovite de Open Philanthropy ofrece más contexto y aclaraciones sobre este tema en una publicación que realizó en el EA Forum.
Giving What We Can anunció los resultados de la primera ronda de entrega de recursos de su fondo para causas largoplacistas, el Longtermism Fund.
80,000 Hours publicó varias reseñas exploratorias de problemas en la categoría ‘Recomendados ocasionalmente’: S-risks [🔉], Whole brain emulation [🔉], Risks from malevolent actors [🔉] y Risks of stable totalitarianism [🔉].
El Survival and Flourishing Fund abrió su siguiente ronda de solicitudes. El SFF estima que distribuirán unos 10 millones de dólares en esta etapa. La fecha límite para la entrega de solicitudes es el 30 de enero. Llena la solicitud aquí.
El Global Priorities Institute está recibiendo solicitudes para vacantes de investigadores predoctorales en Economía. Llena la solicitud aquí.
El canal de Youtube Rational Animations publicó dos videos sobre cómo conquistar el universo en tres sencillos pasos y sobre si un solo mensaje extraterrestre podría destruir a la humanidad.
El Centre for Long-Term Resilience publicó una respuesta al nuevo Marco Nacional de Resiliencia del gobierno del Reino Unido [🔉].
La Space Futures Initiative fue lanzada en septiembre. Están buscando expresiones de interés de organizaciones y personas que puedan estar interesadas en colaborar con la iniciativa.
Conversación con Katja Grace
Katja Grace es fundadora e investigadora principal de AI Impacts. Su trabajo se centra en pronosticar los impactos potenciales de la IA de nivel humano. Su blog es World spirit sock puppet.
Future Matters: Hace poco publicaste el artículo Counterarguments to the Basic AI X-risk Case. ¿Podrías explicarnos lo que consideras el argumento básico en favor del riesgo existencial que conlleva la IA?
Katja: Voy a tratar de explicarlo de forma parecida a como lo escribí. Es muy probable que en algún momento exista IA de nivel humano —presumiblemente muy pronto—, aunque probablemente no la necesitemos. IA con la capacidad de hacer cualquier cosa que hagan los humanos, básicamente. Es muy probable que algunas IA tengan agencia, en el sentido de que tengan objetivos y traten de alcanzarlos. Quizá no estén perfectamente dirigidas por objetivos, pero probablemente estén, al menos, tan dirigidas por objetivos como un humano. Y es probable que los objetivos que pueda tener la IA, si es que los tiene, sean malos por cuestiones como la dificultad para alinearlas, entre otras cosas. Ahora bien, a los niveles de competencia de que estamos hablando, si existen criaturas con objetivos malos, es probable que destruyan el mundo de algún modo, ya sea de forma inmediata por medio de una catástrofe derivada de una explosión de inteligencia o de forma gradual, arrebatándoles el poder a los humanos.
Future Matters: Señalas algunos puntos débiles en el argumento, y nos preguntamos si algunos de ellos fueron particularmente importantes en tu evaluación de la hipótesis sobre el riesgo de la IA —partes en las que un argumento decisivo hacia uno u otro lado pudiera haber influido en tus opiniones—.
Katja: No creo haber escuchado un argumento decisivo sobre ninguno de estos puntos. Pero creo que uno que es bastante importante para mí es que si tratas de acercarte a los valores humanos, ¿hasta qué punto te acercas? Me parece razonable que llegas relativamente cerca, en comparación, por ejemplo, con las brechas entre distintos humanos. Por eso creo que es bastante probable un futuro en el que haya un gran número de IA que hagan todo tipo de cosas. Se ve un poco distinto a lo que los humanos querrían, pero es difícil decir que sea decisivamente diferente a los valores humanos en ese sentido. Y no representa un riesgo mortal más inmediato que cualquiera de las cosas que los humanos suelen intentar hacer. Las cosas serían muy parecidas en términos generales, pero más rápidas.
Future Matters: Esto se relaciona con otro aspecto de tu publicación sobre el que queríamos preguntarte, uno de los puntos específicos que tocaste con respecto a las corporaciones. Sugieres que el argumento básico sobre el riesgo de la IA prueba demasiado, porque se podría aplicar un argumento similar a las corporaciones: son entidades dirigidas por objetivos con capacidades superhumanas, y sus objetivos están mal alineados con lo que los humanos quieren en última instancia. Pero las corporaciones no suelen representar una gran amenaza para la humanidad, así que debe de haber algún error en el argumento. ¿Puedes ahondar un poco en esta objeción?
Katja: El punto más convincente para mí es que el argumento que intenta concluir el riesgo de la IA, tal como se lo presenta habitualmente, no es suficiente. Eso no significa que sea un argumento del que logre desprenderse la conclusión opuesta, esto es, que no van a suceder cosas malas. Pero la hipótesis, tal como está expuesta, no es suficiente: probablemente deba incluir algo más cuantitativo. Creo que podemos estar en una situación en la que estemos rodeados de agentes superhumanos mal alineados sin que sucedan cosas particularmente malas, porque ya nos encontramos en esa situación con las corporaciones. Entonces la pregunta es, ¿cuán poderosos son esos nuevos agentes que están tratando de hacer cosas que no queremos? Pienso que es probable que la IA provocará que haya agentes incluso más poderosos con objetivos no alineados, incluso en la medida en que esto no represente un riesgo existencial. Pero supongo que sería bueno simplemente reconocer que el argumento, tal como se expone, no implica un riesgo del cien por ciento, lo cual parece ser un tema controvertido, al menos en este ámbito. Y también sería bueno tratar de calcular, en términos cuantitativos, cuán malo es el riesgo realmente.
Future Matters: ¿En qué crees que se equivoca la gente de la comunidad que se dedica a la seguridad de la IA cuando piensa sobre esta hipótesis? Parece que tu percepción es que quizá mucha gente le da mucha importancia a este tipo de argumentos.
Katja: De hecho no sé muy bien a qué le den mucha importancia. Creo que si desarrollas un argumento de este tipo y reflexionas al respecto, es difícil que llegues a estar realmente seguro de que estás condenado. Supongo que soy muy buena en no estar segura. Pero creo que el argumento intuitivo que la gente tiene en mente es algo como eso.
Supongo que si voy a especular sobre cuáles son los errores que la gente está cometiendo, tengo la sensación de que, en general, en muchos aspectos, las personas de la esfera racionalista local esperan que una cosa sea o infinitamente intensa o cero. Por ejemplo, si se presentara un circuito de retroalimentación que involucre las capacidades de la IA, la gente va a pensar que tardará unos segundos en tomar el control de la humanidad o algo por el estilo. O si hubiera algún motivo para que algo adquiera más agencia, probablemente lo hará de forma arbitraria y muy rápido. Pero creo que podríamos decir cosas parecidas respecto del mundo actual. Hay un circuito de retroalimentación en la tecnología que genera más tecnología. Existen los mismos incentivos para tener más agencia, y quizá los seres humanos tienen cada vez más agencia, pero esto sucede de forma tan lenta que podría decirse que no es una de las principales cosas que están sucediendo en el mundo.
Future Matters: Entonces, si estos argumentos se complementaran con afirmaciones más claras y de carácter más cuantitativo, por ejemplo, con respecto a la brecha que hay entre la inteligencia de las máquinas y la humana, ¿se rescataría algo de su plausibilidad?
Katja: Creo que el argumento debe ser más cuantitativo casi en cada una de sus partes. También necesitamos alguna medida de las presiones para que estos sistemas tengan agencia. Todo esto parece un tanto vago, por lo que resulta complicado saber cómo expresar algo cuantitativo al respecto. Y no está nada claro cómo se pueden sacar consecuencias relevantes de, digamos, fuertes incentivos económicos, incluso si se los cuantifica.
Creo que una manera interesante de pensar sobre ello, a la que siento que no se le está dando mucha consideración, pero que me parece prometedora, es la siguiente. Todo apunta a que vamos a tener una avalancha de trabajo cognitivo nuevo. ¿Qué porción de ese trabajo estará dirigido a alcanzar objetivos? Y ¿cuánto estará dirigido a alcanzar objetivos que los humanos preferirían evitar? Me imagino que una buena parte estará dirigida a cosas que ya estamos haciendo en la actualidad y que apoyamos ampliamente, y que no necesariamente tendrán gran agencia.
Future Matters: ¿Qué opinas del nivel de desacuerdo que existe en torno a los fundamentos de la hipótesis intuitiva sobre el riesgo de la IA? ¿Crees que se le pueda dar una lectura más profunda? ¿Debilita el argumento, o da una imagen negativa de la comunidad de personas que piensa en esto? ¿O simplemente es lo que deberíamos esperar cuando pensamos en cosas realmente complicadas y sin precedentes?
Katja: Tentativamente, creo que debilita el argumento y probablemente da una imagen negativa de la comunidad si la comparamos con lo que sería una comunidad ideal. Pero éstas también son cuestiones bastante complicadas, y no sé si alguna otra comunidad podría hacerlo mucho mejor. Mi punto es que es necesario analizar y probar más detenidamente la hipótesis intuitiva. Reconozco que recientemente se ha estado trabajando en esto. Por ejemplo, Joseph Carlsmith desarrolló este tema de una forma mucho más elaborada que yo, lo cual me parece excelente. Aun así, me extraña un poco que no haya sucedido mucho antes, dado que a esta comunidad le encanta la racionalidad y la claridad. Por ello, creo que intentar exponer la hipótesis de forma cuidadosa, independientemente de que sea o no una buena idea, parece algo sumamente natural.
Future Matters: Has trabajado en temas relacionados con el riesgo de la IA desde mucho antes que la mayoría de las personas hubieran oído hablar de ello, y muchas cosas han cambiado desde entonces. Nos intriga saber cuánto han cambiado tus opiniones sobre el riesgo de la IA durante este tiempo.
Katja: En cierto modo, me avergüenza admitir que mis opiniones han cambiado poco. Me uní a la comunidad en 2009, y en ese entonces mi postura era de gran incertidumbre. Siento que mis argumentos actuales y los que tenía en esa época son relativamente similares, a pesar de que durante ese tiempo la situación empírica cambió bastante. Y creo que el riesgo ahora genera un miedo más visceral, además de que todo sucede más rápido de lo que creí en un inicio. Probablemente me preocupo más ahora.
Future Matters: ¿Podrías cuantificar tu convicción acerca de la posibilidad que ocurra una catástrofe existencial a causa de la IA?
Katja: Sí. Tengo una suerte de respuesta de cajón con respecto a la probabilidad de un cataclismo causado por la IA del 7%, pero esa cifra surgió de pensar en todos estos argumentos y asignar números a distintas partes para luego combinarlos. Supongo que, en general, me he inclinado por hacer ese tipo de cosas. Pero hace poco me di cuenta de que soy muy buena haciendo pronósticos con números “inventados” que posteriormente resultan ser correctos. Empiezo a pensar que debería hacer esto más seguido en lugar de trabajar con elaboradas hojas de cálculo.
Future Matters: Cuando llegaste a esa cifra, ¿te sorprendió? ¿Era muy distinta a la cifra que obtuviste de forma intuitiva?
Katja: Creo que todavía no había llegado a una cifra de forma intuitiva. Creo que mis sentimientos me dicen que debería ser más aterrador, pero “mis sentimientos” probablemente no sean lo mismo que la facultad mental que utilizo para hacer predicciones correctas. Creo que si intentara hacer lo mismo que generalmente hago para hacer predicciones con números “inventados”, sería algo similar, cerca del 7%, quizá el 10%... Pero me preocupa haber caído en el sesgo de anclaje. Además, siento que esta cuestión es un tanto diferente de aquellas para las que invento cifras (como, “¿llegará a haber 1 millón de casos de COVID en China para cierta fecha?”) porque hay presiones sociales por tener ciertas creencias al respecto, y mucho en juego. Así que no creo estar tan bien calibrada.
Future Matters: ¡Gracias, Katja!
Agradecemos a Leonardo Picón por asistencia editorial y a Paulina Arellano por la traducción.
Véase también la cobertura del informe de Ord [🔉] realizada por Kelsey Piper en Future Perfect.
Este argumento no es nuevo para quienes estén familiarizados con los argumentos comunes del riesgo de la IA, pero se puede aprender cosas de este artículo, ya que presenta supuestos y conclusiones que no suelen explicitarse tan ampliamente.
Con totalismo neutral respecto al riesgo los autores se refieren a una axiología definida por la conjunción de aditividad —el valor de un resultado es una suma ponderada de sus ubicaciones de valor—, imparcialidad —todas las ubicaciones tienen el mismo peso en la suma— y neutralidad respecto al riesgo —el valor de una opción riesgosa es igual al valor esperado de su resultado—. Según los autores, esta axiología ofrece el argumento más claro y directo a favor del largoplacismo.
Este resumen se basa en la p. 23 del artículo.
Con ‘Proyecto Manhattan’ nos referimos al periodo de 6.5 años transcurrido entre el descubrimiento de la fisión y la entrega de una bomba funcional, y no a los últimos tres años de ese periodo en los que el gobierno de EUA participó activamente (véase la p. 13 del informe de Ord).