#7: plazos de la IA, escepticismo en torno a la IA y bloqueo de valores
Para unos pocos ha nacido quién sólo piensa en la gente de su época. Muchos miles de años, muchos miles de pueblos vendrán después de ti: a ellos dirige tu atención.
— Séneca
Future Matters es un boletín sobre largoplacismo y riesgo existencial creado por Matthew van der Merwe y Pablo Stafforini. Cada mes, recopilamos y resumimos investigaciones relevantes, compartimos noticias de la comunidad y publicamos una conversación con un investigador prominente. También puedes escucharnos en tu plataforma de podcast favorita.
Investigación
El modelo de anclajes biológicos de Ajeya Cotra para predecir los plazos de la inteligencia artificial general consta de tres partes: una estimación del cómputo necesario para entrenar una inteligencia artificial general con algoritmos de 2020, una previsión de cómo estos requisitos de cómputo disminuyen con el tiempo como consecuencia del progreso algorítmico, y una previsión de cómo el tamaño de las series de entrenamiento aumentará con el tiempo debido a la disminución de los costos de hardware y al aumento de la inversión en el entrenamiento de la inteligencia artificial. La obra de Tom Davidson What a compute-centric framework says about AI takeoff speeds amplía el marco de Cotra para incorporar un modelo más sofisticado de cómo la inversión en investigación y desarrolo (I+D) se traduce en progreso algorítmico y de hardware, y también para captar el "círculo virtuoso" por el que el progreso de la IA permite una mayor automatización de la I+D en IA, lo que se traduce en un progreso más rápido de la IA. El resultado es un modelo de velocidad de despegue de la IA, definida aquí como el tiempo que transcurre desde que la IA es capaz de automatizar el 20% de las tareas cognitivas hasta que es capaz de automatizar el 100% de esas tareas. La estimación media de Davidson para el despegue de la IA es de aproximadamente tres años. Se trata de una investigación impresionante y significativa, que no podemos resumir adecuadamente aquí; esperamos poder tener una conversación con el autor en un próximo número para profundizar en ella. El informe completo está disponible aquí. Animamos a los lectores a jugar con el modelo interactivo.
AGI and the EMH, de Trevor Chow, Basil Halperin y J. Zachary Mazlish, destaca la tensión entre la hipótesis del mercado eficiente y la hipótesis de que la IA transformadora llegará en las próximas décadas. La IA transformadora aumentará las tasas de crecimiento económico si está alineada o aumentará el riesgo de extinción si no lo está. Pero cualquiera de estas disyuntivas implica tasas de interés reales mucho más altas. (Esta implicación se desprende tanto de la intuición como de la teoría económica convencional). Dado que no observamos tasas de interés reales más elevadas, deberíamos concluir o bien que los plazos son más largos de lo que generalmente suponen las comunidades de altruismo eficaz, o bien que los mercados están subestimando radicalmente lo rápido que llegará la IA transformadora.
Zac Hatfield-Dodds comparte algunas razones concretas para el optimismo sobre la seguridad de la IA [🔉]. Como investigador de Anthropic (que escribe a título personal), Hatfield-Dodds se toma en serio los riesgos existenciales de la IA, pero rechaza las recientes afirmaciones de que la catástrofe de la IA es prácticamente inevitable. Hatfield-Dodds destaca algunos de los prometedores resultados de los incipientes esfuerzos por averiguar cómo alinear e interpretar grandes modelos lingüísticos. El artículo pretende "reequilibrar la balanza emocional" en la comunidad de seguridad de la IA, que, en su opinión, se ha inclinado últimamente demasiado hacia una desesperación que considera injustificada y poco constructiva.
Transformative AI issues (not just misalignment) [🔉], de Holden Karnofsky, examina algunas de las cuestiones de alto riesgo que plantea la IA transformadora, en particular aquellas sobre las que deberíamos reflexionar con antelación para lograr un cambio que se refleje en el futuro lejano. Estas incluyen no sólo el riesgo existencial derivado de la IA no alineada, sino también los desequilibrios de poder, las aplicaciones tempranas de la IA, las nuevas formas de vida, y las políticas y normas persistentes. Karnofsky se inclina por dar prioridad a las dos primeras cuestiones, ya que no está seguro del signo de las intervenciones centradas en las restantes.
Lizka Vaintrob sostiene que debemos tener cuidado con la impostura de seguridad [🔉] por parte de las empresas de IA, similar a la impostura verde, según la cual las empresas se presentan de manera engañosa como si fueran más conscientes del medio ambiente de lo que realmente son, en lugar de tomar medidas costosas para reducir su impacto ambiental. Esta impostura afectaría no sólo a los consumidores, sino también a los inversores, empleados, reguladores, etc. Una forma prometedora de abordar esta cuestión sería desarrollar normas comunes de seguridad y métodos fiables para auditar y evaluar a las empresas en función de dichas normas.
En How we could stumble into AI catastrophe [🔉], Holden Karnofsky describe un escenario concreto en el que la IA no alineada podría provocar una catástrofe global. El escenario parte de dos supuestos centrales (que Karnofsky analiza en escritos anteriores): que pronto desarrollaremos sistemas de IA muy potentes y que, por lo demás, el mundo será muy similar al actual cuando se desarrollen esos sistemas. El escenario de Karnofsky se inspira en gran medida en el artículo de Ajeya Cotra, Without specific countermeasures, the easiest path to transformative AI probably leads to AI takeover (véase FM#4 para un resumen del artículo y FM#5 para nuestra conversación con Cotra).
En Managing the transition to widespread metagenomic monitoring [🔉], Chelsea Liang y David Manheim esbozan una imagen de la biovigilancia de nueva generación utilizando las tecnologías actuales. Un ambicioso programa de secuenciación metagenómica generalizada sería muy útil para gestionar el riesgo de pandemia, ya que serviría de alerta temprana para identificar nuevos brotes. Pero para llegar a esta fase hay que superar primero una serie de obstáculos importantes, entre ellos los elevados costes y los problemas de privacidad.
En Technological stagnation: why I came around [🔉], Jason Crawford ofrece algunos argumentos a favor de la hipótesis del "gran estancamiento", según la cual el progreso tecnológico y científico se ha ralentizado considerablemente desde los años setenta. El principal argumento de Crawford es cualitativo: aunque hemos asistido a importantes innovaciones en la tecnología de la información desde la década de 1970, no hemos logrado muchos avances importantes en la industria manufacturera, la energía y el transporte, mientras que las revoluciones industriales anteriores se caracterizaron por la innovación en todos los sectores principales. Crawford también ofrece algunos argumentos cuantitativos, señalando las tasas de crecimiento del PBI y de la productividad total de los factores en Estados Unidos. Este es un artículo ameno, pero no nos convence la hipótesis del estancamiento: los argumentos cualitativos son flojos y los datos macroeconómicos parecen poco concluyentes en su mayor parte (véase también la crítica de Alexey Guzey a un influyente artículo sobre el tema).
En Spreading messages to help with the most important century [🔉], de Holden Karnofsky, se estudian diversas estrategias de comunicación para concienciar sobre los riesgos que plantea la IA transformadora. Karnofsky es partidario de enfoques que ayuden a los demás a comprender los peligros de la IA en detalle, que transmitan que la investigación de la alineación de la IA es excepcionalmente beneficiosa y que se centren en las amenazas que la IA plantea para todos los humanos. En cambio, cree que deberíamos poner menos énfasis en los mensajes que subrayan la importancia y la posible inminencia de una IA poderosa, y en los que insisten en los peligros de la IA sin explicar por qué es peligrosa.
Literature review of transformative artificial intelligence timelines, de Keith Wynroe, David Atkinson y Jaime Sevilla, es una síntesis exhaustiva de los diversos intentos de pronosticar la llegada de la IA transformadora. Los autores resumen cinco pronósticos basados en modelos y otros cinco basados en juicios, y elaboran un agregado de cada uno de estos dos tipos de pronósticos basado en las puntuaciones subjetivas de los miembros de Epoch. El sitio web de Epoch también permite a los lectores introducir sus puntuaciones y ver los pronósticos agregados resultantes. Esta revisión bibliográfica nos ha parecido muy útil y la consideramos el mejor resumen existente de lo que se sabe actualmente sobre los plazos de la IA.
Misha Yagudin, Jonathan Mann y Nuño Sempere comparten una actualización a los plazos de la IAG pronosticados por Samotsvety. En total, el grupo calcula una probabilidad del 10% de que se desarrolle la IAG para 2026 y del 50% para 2041. Esto representa un acortamiento de los plazos desde la última vez que Samotsvety publicó cifras similares, que calculaba una probabilidad cercana al 32% para 2042.
En Heretical thoughts on AI [🔉], Eli Dourado considera la posibilidad de que la inteligencia artificial no tenga un impacto económico transformador, aunque transforme otros aspectos de la vida humana. Dourado señala que para muchos de los sectores más importantes de la economía —como la vivienda, la energía, el transporte y la sanidad—, el crecimiento ha sido lento principalmente por efecto de la regulación, de los litigios y de la oposición pública. Así pues, los avances en las capacidades, por muy impresionantes que sean, no necesariamente habrán de precipitar una transformación económica.
En Longtermism and animals [🔉], Heather Browning y Walter Veit sostienen que los intereses de los animales no humanos deberían tener un lugar entre las prioridades largoplacistas y que esto podría influir significativamente en las decisiones que se tomen sobre el futuro lejano. Como mencionan los autores, la cuestión se relaciona íntimamente con la ética de las mentes digitales.
Resúmenes en una línea
Paul Christiano comparte sus pensamientos sobre el impacto de la investigación del aprendizaje por refuerzo a partir de retroalimentación humana [🔉], que fue un foco de su trabajo en alineación en OpenAI durante el período 2017-20.
Nuño Sempere comparte su escepticismo personal sobre el riesgo existencial de la IA.
Text, subtext, and miscommunication, de Richard Chappell, es un debate cuidadosamente razonado sobre la reciente debacle en torno de Nick Bostrom.
Generative language models and automated influence operations [🔉], de Josh Goldstein y algunos colaboradores, investiga el efecto que los modelos de lenguaje a gran escala pueden tener sobre los esfuerzos por influir en la opinión pública y considera posibles intervenciones para mitigar estos riesgos.
En We need holistic AI macrostrategy [🔉], Nick Gabs sostiene que la investigación sobre cuestiones macroestratégicas relacionadas con la alineación de la inteligencia artificial debería ser una prioridad absoluta.
El MIRI publicó una conversación entre Scott Alexander y Eliezer Yudkowsky [🔉] sobre analogías entre el desarrollo moral humano y la IA, "consecuencialismo", intercambio no causal y oportunidades de investigación sobre la alineación.
En Air safety to combat global catastrophic biorisks [🔉], Jam Kraprayoon, Gavriel Kleinwaks, Alastair Fraser-Urquhart y Josh Morrison sostienen que ampliar las normas de calidad del aire interior para incluir los niveles de patógenos en el aire podría reducir significativamente los riesgos biológicos catastróficos globales.
Noticias
Allison Duettmann entrevistó [🔉] al físico teórico Adam Brown sobre los posibles riesgos y oportunidades del futuro para el podcast Existential Hope.
Las solicitudes para las becas de investigación de verano PIBBSS 2023 (principios de comportamiento inteligente en sistemas biológicos y sociales) están abiertas hasta el 5 de febrero.
Dwarkesh Patel entrevistó [🔉] a Holden Karnofsky sobre la IA transformadora, las personas digitales y el siglo más importante para el Lunar Society Podcast.
Michael Osborne y Michael Cohen, de la Universidad de Oxford, presentaron evidencia [🔉] sobre el riesgo de la IA ante el Comité de Ciencia y Tecnología del Parlamento británico.
Jack Clark ofreció una presentación educativa sobre la política de inteligencia artificial ante el Caucus de IA del Congreso de Estados Unidos.
Kelsey Piper predice lo que probablemente ocurrirá con la inteligencia artificial en 2023 [🔉]: mejores generadores de texto, mejores modelos de imagen, adopción más generalizada de asistentes de programación, despegue de los asistentes personales de inteligencia artificial y mucho más.
En el episodio #29 de Manifold, Steve Hsu habló [🔉] sobre ChatGPT, los modelos de lenguaje a gran escala y la IA.
Sigal Samuel entrevistó a Holden Karnofsky [🔉] sobre la reforma del altruismo eficaz después de Sam Bankman-Fried.
Jack Clark ha publicado un nuevo número de Import AI [🔉] sobre robots que más inteligentes mediante modelos fundacionales, un nuevo modelo de lenguaje médico, pequeño pero poderoso, y un asistente de programación multilingüe fabricado por Baidu.
El London Futurists Podcast entrevistó [🔉] a Anders Sandberg sobre la paradoja de Fermi, la hipótesis de la estivación y el argumento de la simulación.
La herramienta menos favorita de todo el mundo para comunicar el riesgo existencial, el Reloj del Juicio Final, ha alcanzado este año los 90 segundos para la medianoche.
Michaël Trazzi entrevistó [🔉] a Victoria Krakovna, investigadora científica senior de DeepMind, sobre los argumentos a favor de que la IAG traerá la ruina, los paradigmas de la alineación de la IA y un artículo del cual es coautora: 'Refining the Sharp Left Turn threat model'.
David Krueger habló sobre seguridad existencial, alineación y problemas de especificación en el programa de verano Machine Learning Safety Scholars.
Benjamin Hilton ha actualizado [🔉] su estimación del número de equivalentes a tiempo completo (ETC) que trabajan directamente en el problema de la reducción de los riesgos existenciales de la IA, pasando de 300 ETC a 400 ETC.
80,000 Hours publicó [🔉] un perfil profesional de profundidad media sobre seguridad de la información en áreas de alto impacto, escrito por Jarrah Bloomfield.
Charlotte Stix publicó [🔉] un nuevo número de la EuropeanAI Newsletter.
Están abiertas las solicitudes para el curso "Teoría Económica y Priorización Global", impartido principalmente por Phil Trammell y patrocinado por la Forethought Foundation, que se celebrará en Oxford en agosto de 2023. Inscríbete ahora.
Google "recalibrará" [🔉] el nivel de riesgo que está dispuesto a asumir al lanzar productos de IA, lo cual podría ser motivo de preocupación.
Mientras tanto, OpenAI ha recibido una nueva inversión de 10.000 millones de dólares de Microsoft.
The New York Times se pregunta: ¿Vivimos en una simulación informática y podemos jaquearla?
La RAND Corporation está aceptando solicitudes para el Stanton Nuclear Security Fellows Program, abierto a estudiantes de posdoctorado y profesores noveles titulares, así como a estudiantes de doctorado que trabajen principalmente en seguridad nuclear. Inscríbete ahora.
Aisafety.training es un nuevo y útil sitio web que recoge información sobre programas, conferencias y eventos relacionados con la seguridad en la IA.
Epoch, un grupo de investigación dedicado a pronosticar el desarrollo de la inteligencia artificial transformadora, ha publicado un informe en el que resume sus principales logros en 2022.
EA Global: Bay Area se celebrará del 24 al 26 de febrero. Inscríbete aquí antes del 8 de febrero.
Conversación con Lukas Finnveden
Lukas Finnveden es analista de investigación en Open Philanthropy, donde se ocupa de los riesgos potenciales de la IA avanzada y las formas de reducirlos. Anteriormente, fue becario de investigación en el Future of Humanity Institute. Lukas es licenciado en Informática por el KTH Royal Institute of Technology.
Future Matters: Recientemente has escrito en colaboración un informe sobre la IAG y el bloqueo de los valores. ¿Podrías aclarar el significado de estos dos términos?
Lukas Finnveden: Sí. Estábamos buscando una definición bastante fuerte de IAG: Una IA capaz de realizar todas las tareas relevantes al menos tan bien como los humanos y a un costo similar. En realidad, es probable que el primer sistema de este tipo sea significativamente superior a los humanos en la mayoría de las tareas, ya que es razonable esperar que las capacidades de la IA se propaguen de forma diferente que la capacidades de los humanos, pero en el informe sólo asumimos capacidades de nivel humano. Y la expresión "tareas relevantes" es básicamente una forma de decir todas las tareas sin tener que comprometerse realmente con todas las tareas. Puede que haya alguna tarea particular en la que los humanos sean mejores, pero no: apuntamos a las tareas que son claramente relevantes para el bloqueo, lo cual puede inferirse del informe y de los argumentos. Eso es lo que entendemos por IAG.
En el caso del bloqueo, hemos empleado una definición algo diferente a la de otras personas, de modo que conviene aclararlo. Lo que teníamos en mente era la estabilidad predecible: alguna propiedad del mundo ha sido bloqueada si es muy probable que esa propiedad se mantenga inalterada durante una gran cantidad de tiempo. Aquí hay que entender 'probable' en un sentido pseudo-objetivo. No se trata de una probabilidad puramente subjetiva (como si el bloqueo ocurriera por que alguien cree que se ha producido) porque queremos tener en cuenta la posibilidad de que la gente pueda equivocarse. Pero también la probabilidad objetiva es un concepto un poco confuso en este caso. Así que decidimos guiarnos por lo que creería un observador razonable y bien informado. Esa es la definición básica que utilizamos para el bloqueo.
Esto contrasta con la definición que Toby Ord utiliza en El Precipicio: algún aspecto está bloqueado si es casi imposible cambiarlo. La razón por la que no utilizamos su definición es que implica un cierto tipo de distinción entre cosas que la civilización podría cambiar pero que no quiere cambiar, y cosas que son imposibles de cambiar. Pero en nuestro informe, una gran parte de la historia de cómo podría ocurrir el bloqueo es que los sistemas de IA podrían ser diseñados para tener deseos y preferencias particulares estables. Y en ese contexto, no creo que tenga sentido distinguir demasiado entre la aversión a cambiar las cosas y la incapacidad de cambiarlas.
Future Matters: El informe comienza describiendo cinco afirmaciones diferentes que se podrían hacer sobre la trayectoria a largo plazo de la vida inteligente. ¿Podrías enumerarlas y explicar brevemente cada una de ellas?
Lukas Finnveden: El informe comienza con cuatro ejemplos de afirmaciones que algunos podrían hacer sobre el futuro, para crear un contraste con la afirmación que hacemos sobre el bloqueo:
(A) Es casi seguro que la humanidad se extinguirá en el próximo millón de años.
(B) Bajo presiones darwinianas, la vida inteligente se extenderá por las estrellas y evolucionará rápidamente hacia la máxima aptitud reproductiva.
(C) A causa de la reflexión moral, la vida inteligente se verá impulsada a perseguir algún objetivo específico superior, no reproductivo, como maximizar la felicidad de todas las criaturas. [Esto es algo que podrías creer si suscribieras a una versión fuerte del realismo moral].
(D) Las opciones de la vida inteligente son fundamentalmente inciertas e impredecibles. Tan así es que incluso a lo largo de millones de años de historia, en ningún momento podrás predecir ninguna característica importante de lo que ocurrirá, digamos, en los próximos 1000 años. Las cosas seguirán cambiando.
Y por último, la afirmación que queremos defender:
(E) Es posible estabilizar muchas características de la sociedad durante millones o billones de años. Pero es posible estabilizarlas en muchas formas diferentes, de modo que el comportamiento a largo plazo de la civilización depende de lo que ocurra al principio.
Creo que vale la pena observar que, a diferencia de E, las afirmaciones A, B, C y D tienen algo en común: están bastante seguras de que el futuro se desarrollará de una manera determinada. (En el caso de D, la seguridad estriba en que en ningún momento podemos estar seguros de cómo será el futuro). Así pues, queremos contrastar estas afirmaciones un tanto confiadas con la afirmación de que en realidad un amplio conjunto de futuros son al menos posibles en este momento, pero que esto podría cambiar con la llegada de IAG.
Es importante notar que si alguien quisiera discutir sobre la probabilidad de que la humanidad se extinga, o de que la presión darwiniana la empuje hacia la máxima aptitud reproductiva, o de que alguna otra cosa se bloquee muy pronto, entonces el informe tiene menos que decir sobre las probabilidades relativas de esas cosas.
Future Matters: El núcleo del informe son tres afirmaciones sobre el bloqueo condicionadas a la llegada de la IAG. ¿Podrías explicarnos cada una de estas afirmaciones?
Lukas Finnveden: Sí. Estas 3 afirmaciones son un breve análisis de las razones que nos llevan a pensar que el bloqueo será posible con la llegada de IAG.
La primera afirmación es que será posible preservar para el futuro especificaciones muy sutiles de valores y objetivos, sin perder ninguna información. Un componente necesario para que algunos valores complejos queden bloqueados es que al menos se pueda preservar la información sobre esos valores. Creo que esto se cumplirá porque con IAG básicamente se podrían almacenar valores en forma de mentes con objetivos muy sutiles y detallados. Y con la ayuda de la corrección de errores podrías almacenarlos durante muchísimo tiempo sin perder información aleatoriamente.
La segunda afirmación es que, con suficiente inversión, será posible desarrollar instituciones basadas en la IAG que, con una alta probabilidad, persigan competente y fielmente los valores especificados, al menos hasta que una fuente externa las detenga o los valores mismos recomienden que dejen de hacerlo. Esto está muy relacionado con la alineación de la IA —la posibilidad de diseñar sistemas de IA alineados con objetivos particulares— unida a la afirmación de que esas IA podrían construirse y utilizarse de forma que fuera muy improbable que se desviaran alguna vez de esos objetivos.
A este respecto, es importante señalar que el informe sólo analiza si el bloqueo sería posible con un gran esfuerzo de coordinación e inversión. Aunque creo que es probable que la alineación podría resolverse si se invirtiera lo suficiente, en realidad no está muy claro que esto vaya a ocurrir. Lo cual es preocupante, ya que sin algún tipo de alineación, la alternativa más probable es que la IA tome el control y desplace a la humanidad.
Y luego, como la segunda afirmación considera la posibilidad de que una fuente externa detenga a tales instituciones, la tercera afirmación sostiene que si las potencias económicas y militares del mundo se pusieran de acuerdo para crear una institución de este tipo, y le dieran el poder y la capacidad de defenderse de cualquier amenaza externa, entonces esa institución podría llevar a cabo su programa durante al menos millones y quizás billones de años. Creo que esta afirmación se desprende básicamente de las afirmaciones 1 y 2, pero vale la pena destacarla por separado.
Future Matters: En el informe se hace referencia a las tecnologías de emulación de cerebro completo, que en teoría vendrían poco después de la IAG. ¿Cambia sustancialmente el panorama si la conservación de la información se consigue mediante tecnologías distintas de la emulación del cerebro completo?
Lukas Finnveden: ¿Podría producirse el bloqueo sin la emulación del cerebro completo? Sí, parece probable, al menos en lo que se refiere a valores que no tuvieran una necesidad urgente de juicios que serían difíciles de obtener sin la emulación del cerebro.
El punto clave al hacer referencia a la emulación del cerebro es que podría preservar la información sobre lo que quieren los humanos. Pero para captar las preferencias de un grupo de seres humanos —no lo que llegarían a pensar con mil años de reflexión, sino sólo su pensamiento actual—, parece que un sistema de inteligencia artificial adecuado sería suficiente. Un sistema que pasara muchos años hablando con los seres humanos sobre sus preferencias, preguntándoles sobre muchos casos extremos diferentes, tratando realmente de entender su psicología, etc., sería capaz de obtener un gran modelo predictivo de lo que esos humanos pensarían sobre los diferentes casos.
Y si en algún momento fuera importante disponer de emulaciones de cerebro completo (por ejemplo, para averiguar qué pensarían los humanos si se les diera la oportunidad de reflexionar durante 1000 años), entonces, en principio, éstas podrían llegar más adelante, siempre y cuando los métodos de preservación del cerebro estuvieran disponibles poco después de la llegada de la IAG.
Future Matters: Volviendo a la segunda de las tres afirmaciones, el informe señala que la forma de alineación necesaria para el bloqueo es más fácil de resolver que el problema tradicional de la alineación. ¿Puedes explicar por qué crees que esto es así?
Lukas Finnveden: Creo que lo más notable aquí es que cuando la gente habla de "resolver la alineación", a menudo (aunque no siempre) están pensando en una forma competitiva de alineación. La alineación competitiva consiste en ser capaces de construir sistemas de IA alineados que sean tan eficientes, inteligentes y útiles como los sistemas de IA no alineados a la hora de realizar las mismas tareas.
Una de las razones por las que las técnicas de alineación competitiva son importantes es que son una petición menor. Si los responsables de las decisiones importantes no están de acuerdo en que la IA no alineada sea un gran riesgo, puede que no estén dispuestos a aplicar soluciones de alineación increíblemente caras o poco eficientes. Pero una técnica de alineación competitiva podría ser aceptada siempre que los actores estuvieran de acuerdo en que existe algún riesgo.
Otra razón es que si aparecieran en el mundo algunos sistemas de IA no alineados, sería deseable que los sistemas de IA alineados no fueran inmediatamente desplazados por ser mucho menos eficientes.
Sin embargo, en el caso hipotético del bloqueo, estamos discutiendo la viabilidad, de modo que no nos ocupamos de cómo la gente podría arruinarlo todo al subestimar los riesgos relacionados con la alineación. Estoy imaginando un escenario en el que el mundo está, durante un tiempo, lo suficientemente coordinado como para no tener que competir con sistemas de IA no alineados. Y una vez que exista una institución estable, el informe muestra que dicha institución podría imponer una prohibición sobre las tecnologías peligrosas, incluida la IA no alineada, si fuera necesario.
Un punto relacionado, aunque distinto, es que el bloqueo no requeriría una superinteligencia: sólo suponemos que la IA tiene capacidades similares a las de los humanos. Los sistemas de IA de nivel humano parecen mucho más fáciles de alinear, ya que los humanos deberían poder entender lo que hacen los sistemas y ser capaces de proporcionar una retroalimentación adecuada.
Future Matters: En cuanto a la tercera afirmación, el informe señala que los gobiernos tienden a ser inestables y que los intentos históricos de establecer regímenes permanentes han fracasado con bastante rapidez. ¿Podrías explicar por qué crees que las instituciones de larga duración que propones podrían ser mucho más sólidas frente a las amenazas que suelen desestabilizar a esos regímenes? ¿Podrías asimismo explicar algo más sobre las fuentes de inestabilidad a las que seguirían enfrentándose?
Lukas Finnveden: Claro, voy a esbozar algunas razones.
En primer lugar, una razón habitual por la que los regímenes del pasado han llegado a su fin es que un líder o un grupo de líderes mueren y los sucesores no están interesados en continuar con las ideas de sus predecesores. Sin embargo, los sistemas de IA no morirían por envejecimiento, y muchas copias de ellos podrían almacenarse en lugares distintos para evitar que fueran vulnerables a accidentes. Este punto también se aplica de forma más general: las instituciones podrían almacenar en diferentes lugares y de forma redundante muchas copias de todo aquello que necesiten para sobrevivir. Esto las haría resistentes a todo menos a los desastres naturales globales o a un intento inteligente y organizado de deshacerse de ellos. Hablemos de ello.
Las catástrofes naturales han desestabilizado a algunos estados en el pasado. Pero creo que las instituciones basadas en la IA podrían resistirlas con bastante facilidad. Si nos fijamos en la corta lista de desastres naturales que actualmente amenazan a la civilización humana en su conjunto, parece que los sistemas basados en la IA deberían ser mucho menos vulnerables a ellos. En el caso de catástrofes naturales como los supervolcanes o los asteroides, la mayor parte del peligro proviene del polvo que oscurece el sol durante mucho tiempo. Pero parece que las instituciones basadas en la IAG podrían sobrevivir a tales cosas almacenando formas alternativas de energía que no dependan del sol. Las pandemias biológicas no serían realmente un problema para las IAG. Creo que las pandemias al estilo de los virus informáticos son uno de los obstáculos más verosímiles, pero la corrección digital de errores probablemente los evitaría.
La oposición inteligente y organizada es, por supuesto, una razón muy común por la que los estados pierden poder, ya sea debido a luchas internas por el poder, a poblaciones rebeldes o a estados externos. Pero las instituciones basadas en la IAG podrían construir un gran número de sistemas de IAG que compartan sus objetivos, y ser dirigidas enteramente por tales sistemas. Por tanto, no se enfrentaría a una oposición interna significativa. Y suponiendo que comenzara con un poder económico y militar enorme, tampoco se enfrentaría a ninguna oposición externa peligrosa. En particular, vale la pena señalar que el interminable suministro de sistemas de IA leales le daría capacidades de vigilancia realmente poderosas, si decidiera utilizarlas.
Ahora hablemos de acontecimientos que podrían suponer el fin incluso de las instituciones más estables. Un acontecimiento natural en el que no se aplicarían estos argumentos sería el fin del universo, o el fin de los recursos útiles accesibles en todo el universo. Y en la categoría de oposición inteligente, está la posibilidad de encontrar civilizaciones alienígenas. La suposición de que las instituciones dominantes comenzaron con un gran poder económico y militar no tendría mayor importancia en el caso de que se encontraran con una civilización de este tipo, porque los alienígenas podrían tener un poder similar.
Future Matters: El informe se centra en la viabilidad más que en la conveniencia del bloqueo a largo plazo. ¿Podrías decirnos algo sobre esta última cuestión? ¿Hasta qué punto serían deseables estos escenarios?
Lukas Finnveden: Algunos de los principales escenarios de bloqueo parecen muy aterradores, en el sentido de que, al menos en principio, describen un panorama en el que alguien podría elegir un conjunto arbitrario de valores e imponerlos al mundo para siempre. Si eso ocurriera de forma irreflexiva, o bajo la influencia de un pequeño número de personas, sería una gran tragedia. Yo espero un futuro en el que todo el mundo pueda dar su opinión, en el que haya debates enérgicos sobre qué valores priorizar, intentos serios de llegar a compromisos, etcétera.
Dicho esto, cuando pienso en qué escenarios son deseables o no, en realidad no me parece que el "bloqueo" sea una categoría muy útil, al menos si se entiende según nuestra definición. Parece que algunos tipos de estabilidad podrían ser muy buenos: por ejemplo, instituciones estables que impidan que un pequeño grupo de personas se haga con el poder e imponga su propio régimen, o que hagan improbable la extinción, o que preserven algunos tipos de derechos humanos. Tampoco hay que olvidar la definición de "bloqueo" que utilizamos en el informe pone el énfasis en la estabilidad predecible. Ello incluiría situaciones en las que la gobernanza es muy democrática y la gente tiene una mentalidad muy abierta, pero como ya han pensado sobre estas cosas durante mucho tiempo y han procesado todos los argumentos disponibles, entonces, a pesar de su mentalidad abierta, es poco probable que vuelvan a cambiar de opinión. En este caso, el futuro se ha vuelto predecible y se han excluido muchos caminos posibles, lo cual también sería una forma de bloqueo.
Pero desde el punto de vista de lo que sería deseable, estos escenarios son muy diferentes de una situación en la que un pequeño grupo de personas se hace con el poder y bloquea inmediatamente su valor favorito. De modo que nuestra definición de "bloqueo" no tiene la función de separar los futuros buenos de los malos. En lugar de eso, creo que, para futuras reflexiones sobre este tema, probablemente sería útil tener categorías que abarquen muchos matices de los diferentes tipos de estabilidad y de los diferentes tipos de mecanismos de gobernanza que podemos o no desear.
La razón por la que el informe examina estas situaciones extremas de bloqueo es que son escenarios particularmente fáciles de analizar y nos dicen algo importante sobre lo que es y no es factible. Dado que sería hipotéticamente posible bloquear casi cualquier conjunto de valores, hay muchas cosas que pueden suceder que en principio dependen del camino que decidamos recorrer, de modo que realmente nos beneficiaría pensar con antelación sobre lo que queremos. Pero este extremo del espectro no es necesariamente donde está la mayor parte de la acción relevante para la toma de decisiones, una vez que hemos establecido que es posible.
Future Matters: Nos gustaría conocer los orígenes de este informe. Recordamos haber visto un borrador, en el sitio web de Jess Riedel. Un tiempo después, vemos este informe escrito en colaboración con Jess y Carl Shulman. ¿Cuál es la historia del informe?
Lukas Finnveden: La historia comienza con Jess trabajando en este tema hace algunos años, en parte con ayuda de Carl. Jess escribió todas sus notas en un documento de 50 páginas. Luego, cuando Will MacAskill estaba escribiendo What We Owe the Future, al tratar el tema del bloqueo de valores pensó que sería muy conveniente que el trabajo de Jess estuviera terminado para que se pudiera hacer referencia a él. Jess no tenía tiempo de terminarlo, pero tanto él como Carl estaban encantados de ser coautores, así que empezaron a buscar a alguien que escribiera una versión definitiva. Ahí es donde yo entro en escena.
Future Matters: ¡Gracias, Lukas!
Lukas habla con Future Matters a título personal, y las opiniones expresadas son suyas y no de su empleador o coautores.
Agradecemos a Leonardo Picón por ayudarnos a editar y traducir parte de este boletín.