#8: Bing Chat, los laboratorios de IA y la seguridad, y una pausa para Future Matters
Future Matters es un boletín sobre largoplacismo y riesgo existencial creado por Matthew van der Merwe y Pablo Stafforini. Cada mes, recopilamos y resumimos investigaciones relevantes, compartimos noticias de la comunidad y publicamos una conversación con un investigador prominente. También puedes escucharnos en tu plataforma de podcast favorita.
Un mensaje a nuestros lectores
En este número se cumple un año desde que empezamos Future Matters. Aprovechamos esta ocasión para reflexionar sobre el proyecto y decidir qué rumbo tomar a partir de ahora. Pronto compartiremos nuestras ideas acerca del futuro del boletín en un artículo aparte, e invitaremos a los lectores a que nos hagan llegar sus comentarios. Mientras tanto, interrumpiremos la publicación de nuevos números del boletín. Gracias por apoyarnos y leernos durante este último año.
Novedades de la comunidad largoplacista hispanohablante
El sitio de Fin Moorhouse sobre largoplacismo ha sido traducido íntegramente al español y está disponible en el dominio largoplacismo.com.
Jorge Torres, Jaime Sevilla, Juan García, Mónica Ulloa, Claudette Salinas, Roberto Tinoco y Daniela Tiznado publicaron Hito histórico: ley de gestión de Riesgos Catastróficos Globales en EE.UU.
El Centre for Effective Altruism publicó en su página de YouTube filmaciones de muchas de las charlas de EAGx Latin America.
Investigación destacada
Todo sobre Bing
Microsoft anunció recientemente una importante colaboración con OpenAI [véase FM#7] y lanzó una versión beta de un chatbot integrado en el motor de búsqueda Bing. Los informes de comportamientos extraños no tardaron en aparecer. Kevin Roose, un columnista de tecnología del New York Times, mantuvo una inquietante conversación en la que el chat de Bing le declaraba su amor y le describía fantasías violentas. Evan Hubinger recoge algunos de los ejemplos más notorios en Bing Chat is blatantly, aggressively misaligned (Bing Chat está flagrante y agresivamente desalineado). En un caso, Bing Chat encuentra los tuits de un usuario sobre el chatbot y amenaza con vengarse. En los comentarios de LessWrong, Gwern especula sobre por qué Bing Chat muestra un comportamiento tan diferente al de ChatGPT, a pesar de basarse aparentemente en un modelo muy similar. (Posteriormente se descubrió que Bing Chat se basaba en GPT-4).
Holden Karnofsky pregunta What does Bing Chat tell us about AI risk? (¿Qué nos dice Bing Chat sobre el riesgo de la IA?) Su respuesta es que Bing Chat no es el tipo de sistema de IA desalineado que debería preocuparnos particularmente. Cuando Bing Chat menciona planes para chantajear a la gente o cometer actos violentos, no es prueba de que haya desarrollado objetivos malignos y peligrosos. La mejor forma de entender su comportamiento verbal es que Bing está interpretando historias y personajes que ha leído previamente. Sin embargo, todo este episodio muestra que las empresas se están apresurando a lanzar modelos cada vez más potentes en un intento de captar cuota de mercado, con muy poca comprensión de cómo funcionan y de cómo pueden fallar. La mayoría de los caminos hacia la catástrofe de la IA implican dos elementos: un sistema de IA potente y peligrosamente desalineado, y una empresa de IA que lo construye y lo lanza de todos modos. El episodio de Bing Chat no revela mucho sobre el primer elemento, pero es un preocupante recordatorio de lo plausible que es el segundo.
Robert Long pregunta What to think when a language model tells you it's sentient (Qué pensar cuando un modelo de lenguaje te dice que es sintiente) [🔉]. Cuando intentamos averiguar lo que pasa por la mente de otros seres humanos, solemos tomar sus declaraciones (por ejemplo, "me duele algo") como una buena prueba de sus estados internos. Sin embargo, no deberíamos tomar las declaraciones de Bing Chat (por ejemplo, "Tengo miedo") al pie de la letra; no tenemos ninguna buena razón para pensar que son una guía fiable de la vida mental interior de Bing. Los modelos de lenguaje a gran escala son un poco como los loros: si un loro dice "soy sintiente", no es una buena prueba de que sea sintiente. De hecho, tenemos muchas otras pruebas de que los loros son sintientes. La cuestión de si los sistemas de IA actuales o futuros son sintientes es válida e importante, y Long confía en que podamos avanzar en el desarrollo de técnicas fiables para obtener información al respecto. Long fue entrevistado sobre la consciencia de la IA, junto con Nick Bostrom y David Chalmers, para el artículo de Kevin Collier What is consciousness? ChatGPT and advanced AI might define our answer (¿Qué es la conciencia? ChatGPT y la IA avanzada podrían definir nuestra respuesta)1 [🔉].
Cómo conciben la seguridad los principales laboratorios de IA
En las últimas semanas, hemos obtenido más información sobre cómo los principales laboratorios de IA están pensando sobre la seguridad y la alineación:
Anthropic esboza sus principales puntos de vista sobre la seguridad de la IA [🔉]. La empresa fue fundada en 2021 por un grupo de exempleados de OpenAI, con una misión explícitamente centrada en la seguridad. Sus fundadores continúan teniendo dudas fundamentales sobre lo difícil que será alinear sistemas de IA muy potentes: podría resultar bastante fácil, requerir un enorme esfuerzo científico y de ingeniería, o ser efectivamente imposible (en cuyo caso, querríamos darnos cuenta de ello y ralentizar el desarrollo de la IA antes de que ocurra algo desastroso). Anthropic adopta un enfoque de portafolio para la investigación de la seguridad, persiguiendo múltiples líneas de ataque, con vistas a hacer contribuciones útiles, independientemente de lo difícil que resulte la tarea.
OpenAI publicó Planning for IAG and beyond (Planificar para la IAG y más allá) [🔉], escrito por su director ejecutivo, Sam Altman, que es una declaración de más alto nivel sobre el enfoque de la empresa respecto a la inteligencia artificial general (IAG). Nos ha gustado el comentario crítico de Scott Alexander [🔉]. (OpenAI describió su enfoque sobre la investigación de la alineación específicamente en agosto de 2022).
Viktoria Krakovna compartió una presentación sobre cómo el equipo de Alineación de DeepMind piensa sobre la seguridad de la IA (nótese que esto no representa necesariamente las opiniones de DeepMind en su conjunto).
Resúmenes
Ezra Klein escribe de forma impactante sobre el riesgo de la IA en el New York Times [🔉]. (Lo digno de mención para nosotros es menos el contenido del artículo y más lo que su publicación, y su acogida positiva, revelan sobre la aceptación generalizada de las preocupaciones sobre el riesgo de la IA).
En Global priorities research: Why, how, and what have we learned? (Investigación sobre prioridades globales: ¿Por qué, cómo y qué hemos aprendido?) [🔉], Hayden Wilkinson analiza la investigación sobre prioridades globales, defiende que se trata de un campo de investigación de gran impacto y resume algunas de sus principales conclusiones hasta la fecha.
A privacy hero’s final wish: an institute to redirect AI’s future (El último deseo de un héroe de la privacidad: un instituto para reorientar el futuro de la IA) [🔉], de Andy Greenberg, es un conmovedor perfil del icónico Peter Eckersley y del AI Objectives Institute, que Eckersley creó un año antes de su trágico y prematuro fallecimiento.
En What AI companies can do today to help with the most important century (Qué pueden hacer hoy las empresas de IA para colaborar con el siglo más importante) [🔉], Holden Karnofsky sugiere dar prioridad a la investigación sobre alineación; reforzar la seguridad; ayudar a establecer normas de seguridad y regímenes de supervisión; evitar la exageración y la aceleración; y establecer mecanismos de gobernanza capaces de hacer frente a las difíciles disyuntivas entre intereses comerciales y públicos.
Karnofsky también ofrece consejos sobre Cómo las grandes potencias pueden colaborar con el siglo más importante.
Y por último, en Jobs that can help with the most important century (Empleos que pueden servir para el siglo más importante), Karnofsky ofrece algunas recomendaciones profesionales para personas individuales.
En LLMs are not going to destroy the human race (Los modelos de lenguaje a gran escala no van a destruir la raza humana) [🔉], Noah Smith argumenta que, aunque la IAG podría eventualmente destruir a la humanidad, los modelos de lenguaje a gran escala no son IAG, pueden no ser un paso hacia la IAG, y no hay forma plausible de que causen la extinción humana.
La tesis doctoral de Joseph Carlsmith, A stranger priority? Topics at the outer reaches of effective altruism (¿Una prioridad más extraña? Temas en los confines del altruismo eficaz), examina cómo la antrópica, el argumento de la simulación y la ética del infinito tienen implicaciones perturbadoras para el largoplacismo. Sumamente recomendable.
En How much should governments pay to prevent catastrophes? (¿Cuánto deberían pagar los gobiernos para prevenir catástrofes?) [🔉], Carl Shulman y Elliott Thornley sostienen que el objetivo de los largoplacistas debería ser lograr que los gobiernos adopten políticas sobre riesgos catastróficos globales basadas en análisis de costo-beneficio estándar y no en argumentos que recalcan la enorme importancia del futuro lejano.
Resumen actual de Eli Tyre sobre el estado del riesgo de IA [🔉] (conclusión: "estamos extremadamente poco preparados").
En Preventing the misuse of DNA synthesis (Prevenir el uso indebido de la síntesis de ADN) [🔉], un informe del Institute for Progress, Bridget Williams y Rowan Kane recomiendan cinco políticas para mitigar los riesgos de pandemias catastróficas derivadas de la biología sintética.
Patrick Levermore puntúa los pronósticos de la encuesta de expertos de AI Impacts de 2016 y concluye que han funcionado bastante bien a la hora de predecir el progreso de la IA en los últimos cinco años.
En Why I think it's important to work on AI forecasting (Por qué creo que es importante trabajar en el pronóstico sobre la IA) [🔉], Matthew Barnett resume tres líneas de investigación que está llevando a cabo actualmente y que, en su opinión, podrían arrojar luz sobre aspectos importantes de cómo se desarrollará la IA en el futuro.
Allen Hoskin especula sobre Por qué los expertos en IA siguen prediciendo que la IAG está a varias décadas de distancia [🔉].
En Should GPT exist? (¿Debería existir GPT?) [🔉], Scott Aaronson se opone a la prohibición de los modelos de lenguaje a gran escala en parte porque, históricamente, la oposición a las tecnologías peligrosas a menudo incrementó los daños que terminaron causando.
Matthew Barnett propone un nuevo método para pronosticar la IA transformadora.
En Against LLM reductionism, Erich Grunewald sostiene que las declaraciones de que los modelos de lenguaje a gran escala son meros "loros estocásticos" (y similares) hacen afirmaciones implícitas injustificadas sobre laestructura interna y las capacidades futuras de estos modelos.
Experimental evidence on the productivity effects of generative artificial intelligence (Datos experimentales sobre los efectos en la productividad de la inteligencia artificial generativa) [🔉], de Shakked Noy y Whitney Zhang, examina los efectos de ChatGPT en la producción y los mercados laborales.
En Framing AI strategy (Enmarcando la estrategia de la AI) [🔉], Zach Stein-Perlman analiza diez enfoques sobre la estrategia de la IA.
David Chapman publicó un libro electrónico, Better Without AI (Mejor sin IA), en el que expone los argumentos a favor de la tesis de que la IA constituye un riesgo y describe lo que las personas pueden hacer hoy para reducirlo.
En How bad a future do ML researchers expect? (¿Cuán malo es el futuro que esperan los investigadores del ML?), Katja Grace observa que la proporción de encuestados en su estudio sobre investigadores de aprendizaje automático que creen que los resultados extremadamente malos de la IAG tienen al menos un 50% de probabilidades de producirse ha aumentado del 3% en la encuesta de 2016 al 9% en la de 2022.
Algorithmic black swans (Cisnes negros algorítmicos) [🔉] de Noam Kolt ofrece una hoja de ruta para la "preparación algorítmica", un marco para desarrollar regulaciones capaces de mitigar los riesgos de "cisne negro" asociadas a los sistemas avanzados de IA.
En un artículo del Global Priorities Institute, Tiny probabilities and the value of the far future (Probabilidades minúsculas y el valor del futuro lejano), Petra Kosonen sostiene que descontar las probabilidades muy bajas no debilita los argumentos a favor del largoplacismo.
Reflection mechanisms as an alignment target — attitudes on “near-term” AI (Los mecanismos de reflexión como objetivo de alineación: actitudes sobre la IA "a corto plazo") [🔉], de Eric Landgrebe, Beth Barnes y Marius Hobbhahn, analiza una encuesta realizada a 1000 participantes sobre sus puntos de vista acerca de qué valores deberían incluirse en las IA poderosas.
¿Existen formas de pronosticar lo bien que puede ir una conversación sobre alineación de la IA con un investigador de IA? En Predicting researcher interest in AI alignment (Predecir el interés de los investigadores en la alineación de la IA) [🔉], Vael Gates intenta responder a esta pregunta centrándose en un análisis cuantitativo de 97 entrevistas a investigadores de IA.
En AI risk, again (El riesgo de la AI, de nuevo) [🔉], Robin Hanson reitera sus puntos de vista sobre el tema.
Fin Moorhouse comparte un resumen detallado, capítulo por capítulo, de What We Owe The Future [🔉], el libro de Will MacAskill publicado recientemente.
En Near-term motivation for AGI alignment (Motivación a corto plazo para la alineación de la IAG) [🔉], Victoria Krakovna reitera la idea, expuesta anteriormente de diversas formas por Scott Alexander, Neel Nanda, Carl Shulman y Gregory Lewis, de que no hace falta ser largoplacista para preocuparse por la alineación de la IA.
El Shallow report on nuclear war (Informe somero sobre la guerra nuclear) de Joel Tan calcula que hacer lobby a favor de limitar los arsenales para mitigar la guerra nuclear tiene un valor marginal esperado de unos 33,4 años de vida ajustados por discapacidad (AVAD) por dólar, o una relación costo-eficacia unas 5.000 veces superior a la de las principales organizaciones benéficas de GiveWell.
En The effectiveness of AI existential risk communication to the American and Dutch public (La eficacia de la comunicación del riesgo existencial de la IA entre el público estadounidense y holandés), Alexia Georgiadis mide los cambios en la concienciación de los participantes sobre los riesgos de la IAG tras consumir diversas intervenciones mediáticas. Hay un resumen [🔉] de este artículo escrito por Otto Barten.
A Windfall Clause for CEO could worsen AI race dynamics (La Cláusula de bonanza para los CEO podría empeorar las dinámicas de carrera armamentística de la IA) [🔉], de Larks, argumenta que la propuesta de hacer que las empresas de IA prometan donar una gran fracción de los beneficios si llegan a ser extremadamente rentables beneficiará principalmente a la dirección de estas empresas y, por tanto, dará a sus directivos un incentivo para actuar con rapidez, agravando las dinámicas de carrera armamentística y, a su vez, incrementando el riesgo existencial.
En What should be kept off-limits in a virology lab? (¿Qué debe mantenerse fuera de los límites en un laboratorio de virología?) [🔉], Kelsey Piper analiza la Proposed biosecurity oversight framework for the future of science, un nuevo conjunto de directrices publicadas por el National Science Advisory Board for Biosecurity (NSABB) que pretende cambiar la forma en que se evalúa la investigación con potencial para causar una pandemia.2
How to reuse the Operation Warp Speed model (Cómo reutilizar el modelo de la Operación Warp Speed) [🔉], de Arielle D'Souza, sostiene que el exitoso modelo de colaboración público-privada de la Operación Warp Speed podría reutilizarse para poner en marcha una vacuna universal contra el coronavirus o la gripe, o la construcción de una red eléctrica resistente.
Elika Somani comparte algunos consejos sobre la comunicación en torno a la comunidad de políticas de bioseguridad [🔉].
Nuestra agenda común, un informe de las Naciones Unidas publicado a finales de 2021, proponía que los Estados emitieran una Declaración sobre las generaciones futuras. En Toward a declaration on future generations (Hacia una declaración sobre las generaciones futuras) [🔉], Thomas Hale, Fin Moorhouse, Toby Ord y Anne-Marie Slaughter estudian cómo debería plantearse dicha declaración y qué debería incluir.
En Technological developments that could increase risks from nuclear weapons (Desarrollos tecnológicos que podrían incrementar los riesgos derivados de las armas nucleares) [🔉], Michael Aird y Will Aldred exploran algunos desarrollos tecnológicos que podrían ocurrir e incrementar los riesgos derivados de las armas nucleares, especialmente los riesgos para el futuro de la humanidad a largo plazo.
Call me, maybe? Hotlines and global catastrophic risk (Llámame, ¿tal vez? Hotlines y riesgo catastrófico global) [🔉] de Christian Ruhl, una investigación somera de Founders Pledge, analiza la eficacia de los enlaces de comunicación directa entre Estados como intervención para mitigar los riesgos catastróficos globales.
En The open agency model (El modelo de agencia abierta) [🔉], Eric Drexler propone un "marco de agencia abierta" como modelo adecuado para modelar las capacidades futuras de la IA, en contraste con el "marco de agente unitario" que, según el autor, suele presuponerse en las investigaciones sobre la alineación de la IA.
Riley Harris resume dos artículos del Global Priorities Institute: Longtermist institutional reform (La reforma institucional largoplacista) [🔉], de Tyler John y William MacAskill, y Are we living at the hinge of history? (¿Estamos viviendo en la bisagra de la historia?) [🔉], de MacAskill.
El artículo de Juan Cambeiro What comes after COVID? (¿Qué viene después de COVID?) presenta algunos pronósticos bien razonados sobre el riesgo de pandemia. Cambeiro asigna un 19% de probabilidades a otra pandemia que cause la muerte de más de 20 millones de personas en la próxima década y, en caso de que esto ocurra, las causas más probables son un virus de la gripe (50%) u otro coronavirus (30%).
Novedades
OpenAI anunció el lanzamiento de GPT-4, "un gran modelo multimodal, con los mejores resultados de nuestra historia en capacidades y alineación". (Véase la discusión en LessWrong).
El modelo se ha puesto a disposición a través de la interfaz ChatGPT (para usuarios pagos).
OpenAI compartió una primera versión con el Alignment Research Center de Paul Christiano para evaluar los riesgos de un comportamiento de búsqueda de poder, especialmente centrado en su capacidad "para replicarse de forma autónoma y acumular recursos". (Detallado en el artículo adjunto).
Google invirtió 300 millones de dólares en Anthropic [🔉].
Holden Karnofsky se toma una licencia de Open Philanthropy para trabajar en la seguridad de la IA. Holden tiene previsto trabajar en la evaluación y supervisión por terceros de los laboratorios de IA. Alexander Berger pasa de codirector general a director general.
Según una encuesta de Monmouth, al 55% de los estadounidenses les preocupa que la IA constituya un riesgo existencial; sólo el 9% cree que la IA hará más bien que mal.
The Elders, la organización de líderes mundiales fundada por Nelson Mandela, anunció un nuevo enfoque en la reducción del riesgo existencial.
Putin suspendió la participación de Rusia en el nuevo tratado de control de armamento START [🔉].
Estados Unidos publicó una declaración sobre el uso responsable de la IA militar [🔉].
El Fondo Mundial asignó 320 millones de dólares adicionales para apoyar la respuesta inmediata a la COVID-19 y una preparación para las pandemias más extensa.
Recientemente se inauguró en San Francisco un "Museo de la desalineación", que imagina un mundo postapocalíptico en el que la IAG ha destruido la mayor parte de la humanidad.
Oportunidades
Open Philanthropy anunció un concurso para identificar consideraciones novedosas con potencial para influir en sus puntos de vista sobre los plazos y el riesgo de la IA. Se repartirá un total de 225.000 dólares en premios entre las seis propuestas ganadoras.
El Centre for Long-Term Resilience está contratando a un asesor en políticas de IA. El plazo de presentación de solicitudes finaliza el 2 de abril. Presenta tu candidatura ahora.
Están abiertas las candidaturas para New European Voices on Existential Risk (NEVER), un proyecto que pretende atraer talento e ideas de toda Europa sobre cuestiones relacionadas con las armas nucleares, el cambio climático, la bioseguridad y la IA maligna. Presenta tu candidatura ahora.
Están abiertas las candidaturas para New European Voices on Existential Risk (NEVER), un proyecto que pretende atraer talento e ideas de toda Europa sobre cuestiones relacionadas con las armas nucleares, el cambio climático, la bioseguridad y la IA maligna. Presenta tu candidatura ahora.
Sam Bowman tiene previsto contratar al menos a un investigador postdoctoral asociado o científico investigador para comenzar entre marzo y septiembre de 2023 en alineación de modelos lingüísticos. Presenta tu candidatura ahora.
El equipo general de largoplacismo de Rethink Priorities está estudiando la posibilidad de crear un programa "Incubación de proyectos largoplacistas" y acepta expresiones de interés para dirigir o codirigir el proyecto en caso de que se ponga en marcha.
Audio y video
Gus Docker, del Future of Life Institute Podcast, entrevistó a Tobias Baumann sobre los riesgos del sufrimiento, la sintiencia artificial y el problema de saber qué acciones reducen el sufrimiento en el futuro a largo plazo [🔉].
Jen Iofinova, del podcast Cohere for AI, entrevistó a Victoria Krakovna sobre los paradigmas de la alineación de la IA.
Luisa Rodríguez del podcast 80.000 Horas entrevistó a Robert Long sobre por qué los modelos de lenguaje a gran escala como GPT (probablemente) no son conscientes [🔉].
Rational Animations publicó El poder de la inteligencia, basado en el artículo de Eliezer Yudkowsky.
Daniel Filan entrevistó a John Halstead sobre por qué el cambio climático no es un riesgo existencial [🔉].
El podcast Bankless entrevistó a Eliezer Yudkowsky sobre la catástrofe de la IAG [🔉]. La transcripción de la entrevista está disponible aquí.
Nathan Labenz y Erik Torenberg han lanzado un nuevo podcast sobre IA: The Cognitive Revolution.
The Flares, un canal francés de YouTube y podcast que produce vídeos educativos animados, publicó la tercera parte de su serie sobre el largoplacismo.
Boletines
AI Safety News February 2023: Tokens impronunciables, Bing/Sydney, Preentrenamiento con feedback humano.
Import AI #321: GPT3 de código abierto; entregar la democracia a las empresas de IAG; GPT-4 es un artefacto político.
ChinAI #216: Around the Horn (10ª edition).
European AI Newsletter #82: La década digital de Europa.
Conversación con Tom Davidson
Tom Davidson es Senior Research Analyst en Open Philanthropy, donde estudia los riesgos potenciales de la inteligencia artificial avanzada. Previamente, Tom trabajó como científico de datos para BridgeU, una startup de tecnología educativa, y enseñó ciencias en un colegio británico. Tom tiene un máster en Física y Filosofía por la Universidad de Oxford.
Future Matters: Para empezar, ¿podrías explicar por qué crees que es importante entender y pronosticar la dinámica del despegue de la IA?
Tom Davidson: Hay varias cuestiones. La respuesta más general es que es útil saber cuándo se va a producir este gran acontecimiento —obviamente, para planificar y prepararse—, pero también es muy útil saber cómo se va a desarrollar, cuál será la dinámica interna y cuánto tiempo tendremos entre las distintas etapas críticas. Si tratamos de anticiparnos a lo que va a ocurrir y de influir en ello, saber cuál será la dinámica y cómo será ese proceso es muy útil para determinar las medidas que hay que tomar. Por eso, la velocidad de despegue es un parámetro importante para entender cómo va a ser en la práctica la transición a la IA.
Por lo demás, creo que centrarse específicamente en la velocidad de despegue de la IA es algo estratégicamente importante por varias razones. Probablemente la cuestión más destacada sea cuánto tiempo tenemos, antes de la llegada de sistemas de IA que supongan un riesgo existencial, para trabajar con sistemas que sean similares. Si el despegue fuera relativamente lento, hay muchas cosas que podríamos hacer: podríamos pasar años jugando con sistemas pseudoalineados o que lleven a cabo acciones traicioneras que podamos observar en el laboratorio; podríamos probar diferentes técnicas para evitarlo; podríamos alcanzar un consenso real sobre este riesgo, desarrollar una verdadera ciencia al respecto, hacer muchas pruebas empíricas, etc. Si el despegue fuera muy rápido, quizá no habría más que unos pocos meses para realizar ese tipo de trabajo, suponiendo que no se produjera una desaceleración concertada del progreso de la IA. De modo que la velocidad de despegue parece realmente importante para saber hasta qué punto son altos los riesgos, qué tipo de estrategias los reducirían, y si podemos simplemente improvisar y hacer experimentos sobre la marcha, o si necesitamos planificar con antelación para acordar una desaceleración cuando las capacidades de la IA se vuelvan potencialmente peligrosas.
Además, hay otras razones por las que la velocidad de despegue es importante. Creo que utilizar sistemas de IA para que resuelvan por nosotros el problema de la alineación parece un plan más prometedor si la velocidad de despegue es más lenta, porque tendríamos más tiempo para averiguar cómo utilizar estos sistemas en ese campo y organizar el trabajo de manera eficiente, y porque habría más tiempo entre el momento inicial en el que la IA comenzara a ser útil en alineación y el punto final en que la IA causaría una catástrofe si no estuviera alineada. Mi impresión es que los laboratorios esperan que este periodo de tiempo sea más largo de lo que yo creo que será por defecto, lo que proporciona otro argumento para acordar de antemano una desaceleración significativa del progreso de la IA cuando las cosas lleguen a ser potencialmente peligrosas.
También hay cuestiones sobre el número de actores que intervendrán: si la velocidad de despegue es más rápida, entonces es probable que los pocos actores que ya llevan ventaja sean más importantes y que los nuevos actores, como los gobiernos, lo sean menos.
Y hay cuestiones sobre la dinámica del poder relativo, ya que con un despegue más rápido parece más probable que un actor inicial de menor envergadura acabe teniendo mucho poder en comparación con otros actores que en un principio estaban cerca de él.
Future Matters: En el documento se define el despegue de la IA como el tiempo que transcurre entre sistemas capaces de automatizar el 20% de las tareas cognitivas y sistemas capaces de automatizar el 100% de estas tareas. ¿Has elegido estos puntos porcentuales porque consideras que tienen un significado teórico y práctico especial?
Tom Davidson: Algunas personas se centran en el tramo que va desde la llegada de la IAG hasta la superinteligencia, lo que me parece importante y de hecho me refiero a ello brevemente. Ahora bien, una de las razones por las que no quise adoptar esa idea es que, en mi opinión, para cuando tengamos una IAG plenamente desarrollada, que sea capaz de hacer todas las tareas que pueden hacer los humanos, las cosas se volverán muy rápidas y difíciles de controlar, y tal vez el principal periodo de riesgo existencial ya habrá comenzado. Por eso, centrarnos en la velocidad de esa transición hacia la superinteligencia probablemente equivalga a perdernos la mayor parte de la acción. Pero si piensas, como yo, que en el período previo a la IAG habrá advertencias estratégicamente relevantes, querrás tener alguna métrica para poder hablar de forma más significativa sobre ese período.
Elegir el 20% es en realidad bastante arbitrario. Yo quería algo más que una IA que hiciera unos pocos trucos, como la IA capaz de conducir automóviles y de automatizar otras cosas similares. Quería que fuera una parte lo suficientemente grande de la economía como para que incluyera varias "grandes victorias", que tuviera un impacto claramente generalizado en el mundo y que atrajera la atención de los grandes actores sobre la potencial importancia económica y estratégica de la IA. Por eso quería que el punto de partida estuviera por encima del 5%.
Pero no quería proponer una fase tan avanzada que la mayor parte de la acción ya hubiera ocurrido y que tal vez ya estuviéramos en pleno período de riesgo existencial, con las cosas completamente fuera de control. Si hubiera elegido un punto de partida en el que la IA pudiera hacer el 50% o el 70% de todas las tareas económicas, quizá igualmente correríamos el riesgo de que fuera demasiado tarde.
De modo que el 20% fue un compromiso entre estas dos consideraciones. Intenté elegir un número que fuera lo suficientemente alto como para que la IA constituyera un fenómeno realmente significativo y bastante general, pero que no fuera tan alto como para que el periodo de riesgo existencial ya hubiera comenzado.
Admito que si estamos en un mundo de plazos bastante largos y no llegamos al punto de automatización del 20% antes de los próximos 20 o 30 años, entonces es posible que el umbral del 20% no se perciba como un gran avance en el campo, porque podría parecer una simple continuación del progreso tecnológico normal, a un ritmo del 1% anual. Según creo, esto es una limitación y no he encontrado una buena forma de elegir sin ambigüedad un punto de partida. Pero como considero que los plazos serán más cortos, el 20% me parece una buena métrica.
Future Matters: Vemos que distingues entre el despegue de las capacidades y el despegue del impacto. ¿Podrías explicar estos conceptos y las razones para analizarlos por separado?
Tom Davidson: Por supuesto. La velocidad de despegue de las capacidades se refiere básicamente a la rapidez con la que mejoran las capacidades de la IA a medida que nos acercamos a la IA de nivel humano y la superamos. Por ejemplo, si la IA más avanzada que tuviéramos fuera la inteligencia de los insectos primero, la inteligencia humana al año siguiente y la superinteligencia un mes más tarde, el despegue de las capacidades sería muy rápido. Pero puede que no hayas utilizado tu IA en el mundo real, por lo que no habrá tenido ningún impacto en el mundo durante ese tiempo: el despegue de las capacidades se centra en lo avanzada y capaz que es la IA, al margen de si realmente la utilizas.
Por otro lado, la velocidad de despegue del impacto se refiere al efecto real de la IA en el mundo real. Se puede tener una velocidad de despegue de las capacidades realmente lenta, en la que la IA ascienda muy lentamente hasta la inteligencia humana y más allá, y al mismo tiempo una velocidad de despegue del impacto muy rápida. Por ejemplo, podría ocurrir que nadie desplegara sus sistemas de IA, tal vez debido a las regulaciones gubernamentales o a la cautela, y que entonces, en algún momento, la IA burlara las decisiones de despliegue y transformara el mundo entero en tan solo unos meses, cuando ya fuera superinteligente. Entonces tendrías una velocidad de despegue de las capacidades lenta, pero una velocidad de despegue del impacto muy rápida. Por eso creo que puede ser útil distinguir entre esas dos nociones.
Future Matters: Retrocediendo un poco, hemos notado que describes el enfoque general que adoptas como un "marco centrado en el poder de cómputo" para el pronóstico de la IA, basándote en el informe de Ajeya Cotra sobre los anclajes biológicos. ¿Podrías describir las características distintivas de este marco?
Tom Davidson: Sí. Creo que el marco tiene sentido si pensamos que vamos a llegar a la IAG ampliando y mejorando los enfoques algorítmicos actuales dentro del paradigma del aprendizaje profundo, perfeccionando los transformadores y otras cosas por el estilo: es el tipo de progreso que hemos visto en los últimos diez años. Su característica distintiva es que adopta la hipótesis simplificadora de que la capacidad de una IA es igual a la cantidad de poder de cómputo utilizada para entrenarla, multiplicada por la calidad de los algoritmos utilizados en el entrenamiento. Todo tipo de progreso algorítmico, la invención del transformador, las diversas optimizaciones de su entorno y cualquier mejora arquitectónica futura se incluyen en este parámetro de la "calidad de los algoritmos utilizados para entrenarla". Se supone, además, que esos algoritmos mejoran con bastante facilidad, a medida que nos esforzamos en diseñar y probar nuevos algoritmos. Por lo tanto, estamos descartando la posibilidad de un enfoque radicalmente nuevo de la IA que no se ajuste a las tendencias recientes, en las que el rendimiento parece mejorar fácilmente a medida que ampliamos la escala y descubrimos nuevos algoritmos. Hay quien piensa que habrá un nuevo enfoque algorítmico que nos conducirá a la IAG y acabará con las tendencias de los últimos diez años, pero no es ese mi punto de partida.
Future Matters: ¿Podrías decirnos algo más sobre cómo esta suposición “centrada en el poder de cómputo" podría resultar errónea? En tal caso, ¿cómo cambiarían tus estimaciones generales?
Tom Davidson: Se podría pensar que habrá un nuevo paradigma que acelere masivamente el progreso. Tengo la impresión de que algunas personas, especialmente las que pertenecen al círculo del Machine Intelligence Research Institute (MIRI), creen que podría haber un nuevo enfoque algorítmico capaz de alcanzar la IAG con mucho menos poder de cómputo del que actualmente estamos utilizando, o quizá con cantidades comparables. Si esto finalmente se confirmara, creo que el despegue sería más rápido, porque al cambiar a ese nuevo paradigma ya existiría un gran excedente de hardware, y con el nuevo enfoque se podría ampliar rápidamente la escala del poder de cómputo, una vez que advertimos que funciona. Y si estos nuevos enfoques tienen mejores propiedades de escalado que los actuales, ampliar la escala del poder de cómputo tendría consecuencias bastante radicales. Por tanto, si le damos importancia a esto, deberíamos pensar en un despegue más rápido y en un mundo bastante aterrador.
Otra cosa que se podría pensar es que aún no existe ningún enfoque seguro o probable que nos lleve a la IAG, lo que podría favorecer un despegue mucho más lento. Si los enfoques actuales sólo llegaran, como máximo, al 50% de las tareas cognitivas, necesitaríamos algún tipo de paradigma totalmente nuevo para recorrer todo el camino, y podría haber un retraso mientras trabajamos para encontrarlo, lo que en la práctica podría provocar un despegue lento. De modo que es difícil decir cuál sería la dinámica una vez que descubriéramos ese nuevo paradigma: se puede imaginar un despegue rápido o lento. Pero en cualquier caso, habría una pausa antes de encontrar ese nuevo paradigma, que, según algunas formas de medir el despegue, lo volvería más lento. No estoy seguro de que el conjunto de los enfoques actuales nos permita llegar hasta allí, lo cual me inclina a pensar que el despegue sería más lento.
Así pues, la incertidumbre sobre esta suposición "centrada en el poder de cómputo" apunta en ambas direcciones. Hace que un despegue muy rápido y un despegue muy lento sean más probables de lo que mi marco predice. Sin embargo, en general, personalmente me inclino por un despegue más rápido, porque encuentro más plausible la idea de que haya un nuevo tipo de enfoque que nos haga avanzar más rápido o que tenga mejores propiedades de escalado, o bien que haya alguna otra discontinuidad que el marco centrado en el poder de cómputo ignore. Para mí, esa incertidumbre favorece en general un despegue más rápido, pero sin duda aumenta las probabilidades en ambas direcciones.
Future Matters: Dentro de este marco centrado en el poder de cómputo hay un intento de estimar dos cantidades. En primer lugar, la distancia de las capacidades que hay que recorrer durante el despegue y, en segundo lugar, la velocidad con la que se adquirirán esas capacidades. Con respecto a la primera, ¿en qué evidencia se basan tus estimaciones de la brecha de FLOP efectiva?
Tom Davidson: La brecha de FLOP efectiva indica cuánto más poder de cómputo de entrenamiento efectivo (= poder de cómputo físico × la calidad de los algoritmos de entrenamiento) necesitamos para entrenar a la IAG en comparación con la IA capaz de automatizar, como máximo, el 20% de la economía. Con respecto a esta cuestión hay varios tipos de evidencia, pero por desgracia ninguno de ellos es demasiado sólido. Creo que hay una gran dosis de incertidumbre en relación con este parámetro, pero hay algunas cosas que llevan a pensar que la brecha de FLOP efectiva es pequeña.
Por ejemplo, parece que el tamaño del cerebro tiene un efecto bastante notable en la capacidad cognitiva. El tamaño del cerebro humano difiere en ±10% en cada dirección, de modo que es posible observar diferentes medidas de capacidad cognitiva que varían en función del tamaño del cerebro. Las diferencias no son abismales, pero si aumentamos la escala e imaginamos un cerebro tres o diez veces más grande y extrapolamos esas diferencias en capacidad cognitiva, parece plausible que sean lo suficientemente grandes como para cruzar completamente la brecha de FLOP efectiva. Esto sugiere que aumentar el poder de cómputo de entrenamiento eficaz entre 10 y 100 veces podría ser suficiente para cruzar completamente la brecha, si el proceso de escalado de la inteligencia artificial fuera comparable a lo que ocurriría con la inteligencia humana y el aumento del tamaño del cerebro. Y hay razones para pensar que la inteligencia artificial podría ampliar su escala aún más rápido, porque es posible aumentar la cantidad de datos que obtienen estos sistemas a medida que aumentamos el tamaño del cerebro, algo que no ocurre con los seres humanos.
Y se obtiene una conclusión similar si se hacen analogías aún más forzadas con humanos y con otros animales. Si se compara el tamaño del cerebro humano con el de los chimpancés, la diferencia no es tan grande, pero cualitativamente parece haber una gran diferencia en cuanto a inteligencia. Una vez más, esto sugiere que podría bastar con un par de órdenes de magnitud más de poder de cómputo efectivo para lograr un cambio realmente importante si, como hemos dicho, el proceso de escalado de la inteligencia artificial en función del tamaño del modelo fuera análogo al proceso de escalado de la inteligencia de los chimpancés en función del tamaño de su cerebro.
Hay otro argumento, más sutil, para pensar que la brecha de dificultad podría ser bastante estrecha. El argumento básico es que, históricamente, la forma en que hemos automatizado, digamos, el 20% o el 30% de nuestros flujos de trabajo ha sido consiguiendo tecnologías bastante rudimentarias y limitadas para llevar a cabo la automatización y luego reorganizando nuestros flujos de trabajo de manera acorde. Por ejemplo, antes se hacía todo el trabajo de oficina guardando montones de papeles, y ahora con un portátil se puede utilizar la base de datos digital para sustituir el papel y automatizar todo eso, lo que ahorra mucho tiempo. Pero tuvieron que pasar décadas para que la gente consiguiera integrar esta automatización en sus flujos de trabajo, cambiando todos los demás aspectos de sus procesos, hasta alcanzar un punto en el que todo el mundo utiliza portátiles en lugar de papel y bolígrafo para todo. Se necesita mucho tiempo.
Si, como sugieren algunos de estos otros argumentos, puede haber una transición bastante rápida desde la IA que no sea capaz de hacer el 20% del trabajo cognitivo a la que sea capaz de hacer el 100%, si tal cosa va a ocurrir en cinco o diez años, entonces simplemente no habrá tiempo para hacer lo que hacemos normalmente: reorganizar los flujos de trabajo para permitir una automatización parcial. Tal vez algunos sistemas de IA podrían automatizar el 20% del flujo de trabajo si se dispusiera de un par de décadas para integrarlos; tal vez ChatGPT sea así, tal vez podría crear decenas de billones de dólares en valor económico si toda la economía se orientara en torno a esta tecnología, lo que llevaría dos décadas. Pero de hecho, si sólo van a pasar 10 años antes de que desarrollemos algo como la IAG, entonces simplemente no hay tiempo para que ChatGPT lleve a cabo esa automatización en la práctica. De modo que, en realidad, la IA estará muy avanzada antes de ser capaz de automatizar el 20% del flujo de trabajo sin que tengamos que pasar mucho tiempo reorganizando todo en torno a ella. Por lo tanto, cuando sea capaz de automatizar el 20% del trabajo con un esfuerzo mínimo de nuestra parte, no estará demasiado lejos de poder automatizarlo todo. Y eso podría ser una buena razón para pensar que cuando la IA esté teniendo impactos realmente notables y significativos en los flujos de trabajo de la gente, en realidad estará sorprendentemente cerca del punto en el que sea capaz de automatizar casi por completo sus flujos de trabajo. Esos son para mí algunos de los argumentos más fuertes a favor de una brecha de FLOP efectiva estrecha.
El principal argumento a favor de una brecha mayor, en mi opinión, es que hay una gran variedad de tareas en la economía —incluso en investigación y desarrollo de IA (aunque en menor medida)— que presentan muchas dimensiones diferentes, como el horizonte temporal en el que se realizan, la cantidad de contexto social que requieren, el grado de repetibilidad, la importancia de cometer un error, etcétera. Esas diferencias implican que la IA podría ser mucho más adecuada para automatizar algunas de esas tareas que otras, en función de su similitud con el objetivo de entrenamiento de la IA, de lo costoso que resulte afinar la IA en horizontes de esa longitud y de la cantidad de datos de entrenamiento que tengamos para la tarea. Por lo tanto, parece que la IA tendría más ventajas competitivas en algunas tareas que en otras, y eso podría aumentar el tiempo que transcurre desde que es capaz de automatizar la primera tarea hasta que es capaz de automatizar las últimas.
Future Matters: Al final del trabajo, tu estimación media de los plazos resulta unos diez años más corta que la del modelo de anclajes biológicos, a pesar de compartir varios de los supuestos clave. ¿Cuáles son los principales factores que determinan esta reducción de los plazos en tu análisis, comparándolo con el de Ajeya?
Tom Davidson: Creo que lo principal es que la automatización parcial de los sistemas anteriores a la IAG provocan una aceleración, especialmente en investigación y desarrollo de IA. La idea básica es que el modelo de anclajes biológicos hace sus predicciones extrapolando las tendencias en el progreso del hardware y en el progreso algorítmico. Pero no tiene en cuenta el hecho de que antes de que consigamos una IA completamente transformadora, vamos a conseguir una IA que será bastante útil para hacer investigación y desarrollo de hardware y diseñar nuevos chips, para escribir código que podamos emplear en diversos experimentos que queremos ejecutar automáticamente, y tal vez para generar un centenar de ideas sobre nuevos enfoques algorítmicos, criticar esas ideas, reducirlas a las diez más prometedoras y mostrárselas a los humanos. Es probable que la automatización parcial de la investigación y el desarrollo acelere el progreso en ambas dimensiones, tanto a nivel de hardware como de algoritmos, en cuyo caso la extrapolación de los anclajes biológicos es demasiado conservadora. Una de las cosas que estoy haciendo con este análisis es modelar el proceso por el que entrenamos algunos sistemas de IA no del todo transformadores pero lo suficientemente buenos como para acelerar el progreso en investigación y desarrollo de hardware y de algoritmos. Y eso sucede cada vez más a medida que nos acercamos a la IAG: es algo que nos acelera cada vez más. Cuando lo modelo lo mejor que puedo, el resultado es que esta dinámica acorta los plazos en unos seis años.
El siguiente factor más importante, en comparación con el anclaje biológico, es probablemente la previsión de un gasto mayor en sesiones más amplias de entrenamiento de IA. Una vez que tenemos una IA que puede automatizar fácilmente el 50% de la economía, por ejemplo, que es capaz de generar 25 billones de dólares al año en todo el mundo, suponiendo que se desplegara plenamente, parece que valdría la pena gastar un billón de dólares en ese entrenamiento. Y hay aún más incentivo para hacerlo si se compite con otros actores que podrían querer llegar primero. Así que mi modelo es más propenso que los anclajes biológicos a admitir que el gasto en sesiones de entrenamiento podría llegar a ser bastante grande debido a este tipo de dinámica. Parte de la ganancia proviene simplemente de un mayor crecimiento económico, lo que significa que hay más dinero para invertir en estas cosas. Otra parte se debe a que la IA automatiza las fábricas para que puedan fabricar más chips, lo que permite una ampliación más rápida de la escala. Pero la mayor parte se debe simplemente a una mayor disposición a gastar una fracción cada vez mayor del PIB mundial en sesiones de entrenamiento.
Future Matters: Otro factor que empuja a acortar los plazos es la idea de que "nadaremos en poder de cómputo para correr sistemas" cuando estemos entrenando sistemas de IA de nivel humano. ¿Podrías explicarlo?
Tom Davidson: La idea es la siguiente. Supongamos que tomamos la media de los anclajes biológicos —donde, según creo, la IAG requirió 1035 FLOP para entrenarse—, que acabamos de realizar ese entrenamiento y que vamos a utilizar la misma cantidad de FLOP para entrenar el sistema con el fin de correr copias de él. ¿Cuántas copias podrías correr? Con ese poder de cómputo de entrenamiento podrías correr inmediatamente un número incalculable de sistemas de IA.
Future Matters: ¿Es relativamente estable esta proporción entre el poder de cómputo necesario para el entrenamiento del modelo y para la inferencia?
Tom Davidson: En realidad, cabe esperar que esa fracción se vuelva más extrema a medida que se realicen sesiones de entrenamiento más amplias. De este modo, si se duplica el tamaño de un modelo, el poder de cómputo necesario para correrlo se duplica, pero el poder de cómputo necesario para entrenarlo se multiplica por cuatro. Si piensas que necesitas tanto poder de cómputo como la media de anclajes biológicos, entonces podrás correr muchas más copias con el poder de cómputo de entrenamiento de las que puedes correr hoy. La media de los anclajes biológicos implica que para entrenar a la IAG se necesitaría 1010 veces más poder de cómputo que para el mayor entrenamiento público realizado hasta la fecha, lo que significa que sólo se necesitaría 105 veces más poder de cómputo para correr el modelo. Así que si la proporción actual es que se pueden correr inmediatamente 10 millones de sistemas con el poder de cómputo de entrenamiento disponible, en el futuro, con la estimación de la media de los anclajes biológicos, se podrían correr unas 105 veces más. Así que en lugar de 10 millones, sería 1 billón. Creo que si haces los cálculos, eso es lo que se obtiene. Quizá parezca extraño: hemos entrenado a la IAG y ahora podemos correr 1 billón de copias. Entonces quizá podrías pensar que, de hecho, si quisiéramos igualar la mano de obra humana en investigación y desarrollo, en lugar de tener 1 billón de IAG, podríamos conformarnos con 100.000 millones de sistemas algo menos capaces que las IAG. Quizá se utilicen las técnicas que ya se emplean hoy en día, como las cadenas de pensamiento, o como tener cien intentos de respuesta a una pregunta, evaluarlos y elegir el mejor. Tal vez existan otras técnicas para hacer funcionar los sistemas de IA más o menos tontos durante años y luego combinar sus resultados de forma inteligente, lo que puede permitir igualar o superar el rendimiento de un trabajador humano, incluso si los sistemas individuales son menos inteligentes que un trabajador humano. La conclusión a la que llego es que podríamos lograr la automatización total de, por ejemplo, la investigación y el desarrollo antes de haber entrenado un sistema de inteligencia artificial que sea tan inteligente como un científico humano. Y podríamos conseguirlo entrenando sistemas que sean un poco menos inteligentes, pero corriendo tantos que el rendimiento acumulado de todos los sistemas trabajando juntos supere al de todos los científicos humanos trabajando juntos.
Future Matters: ¿Se generaliza esta consideración a toda la economía? En general, parece que acabas "moviendo" el umbral de capacidades para la IAG un poco antes, porque existe un factor que siempre te lleva un poco más lejos de lo que crees que estás.
Tom Davidson: Creo que sí. Y todo se reduce a las definiciones de IAG. Si definimos la IAG como "un sistema puede, en un pase hacia delante, igualar la producción de un cerebro humano, en un pase hacia delante", entonces se necesita el mismo poder de cómputo eficaz para desarrollarla. Pero si tu definición de IAG fuera algo así como "los sistemas de IA pueden superar colectivamente a los cerebros humanos en cualquier tarea" o "los sistemas de IA podrían automatizar completamente este sector concreto", entonces sí, creo que ese tipo de IA es más fácil de entrenar de lo que pensaba anteriormente, quizá bastante más fácil. Lo interesante de esto es que es un argumento muy sólido, si se cree que los anclajes biológicos tienen requisitos de entrenamiento medios, y es un argumento menos sólido, si se tienen requisitos de entrenamiento mucho menores, porque entonces el exceso de poder de cómputo para correr sistemas es menor. De modo que para mí, la masa de probabilidad se sitúa en el extremo inferior de la distribución de anclajes biológicos.
Future Matters: En el margen actual, si quisieras mejorar tus estimaciones de los despegues de la IA, ¿te centrarías más en (1) intentar estimar mejor los parámetros del modelo actual, (2) ampliar el modelo en varias direcciones, o (3) desarrollar completamente un nuevo modelo?
Tom Davidson: Lo que más me interesa es intentar comprender en qué medida el progreso algorítmico está impulsado por el trabajo cognitivo —generar perspectivas y pensar en cómo encajan los algoritmos en las arquitecturas— frente a la mera experimentación bruta. Esto es muy importante en las últimas fases del despegue, en las que si todo depende de las mejores ideas actuales, si extrapolamos esto, veremos que el progreso algorítmico será muy rápido a medida que nos acerquemos a la automatización total de la IA, ya que habrá un gran trabajo cognitivo por parte de la IA. Mientras que si piensas que todo es cuestión de experimentos, entonces el progreso no puede ser tan rápido porque la automatización de la IA no aumenta inmediatamente la cantidad de poder de cómputo físico al que tienes acceso y es un poco más difícil aumentarlo rápidamente. Esto nos lleva a la cuestión del tiempo desde la automatización casi total hasta la superinteligencia, que creo que es algo que no se ha explorado lo suficiente en el informe actual.
Future Matters: ¡Gracias, Tom!
Agradecemos a Leonardo Picón y Lyl Macalad por asistencia editorial.
Este número de Future Matters ha sido traducido por Leonardo Picón y Pablo Stafforini.