Inteligencia Artificial, revelaciones de un memo filtrado de Google

Pedro Luis Martín Olivares –  La Inteligencia Artificial de código abierto está en auge, eso hace que sea menos probable que un puñado de empresas controle la tecnología. Los escritores de software han cambiado el mundo, pero los tipos tecnológicos también son conocidos por componer largos memorandos en prosa, los más famosos de los cuales han marcado puntos de inflexión en la informática.

Recordemos en el memo de Bill Gates sobre el «maremoto de Internet» de 1995, que reorientó a Microsoft hacia la web o el memorando de «API Mandate» de Jeff Bezos de 2002, que abrió la infraestructura digital de Amazon, allanando el camino para la computación en la nube moderna. Ahora los técnicos están entusiasmados con otro memorando, esta vez filtrado desde dentro de Google, titulado «No tenemos foso y openai tampoco», en inglés “We have no moat, and neither OpenAI”. Su autor desconocido detalla el asombroso progreso que se está logrando en inteligencia artificial (IA) y desafía algunas suposiciones arraigadas sobre el equilibrio de poder en esta industria de rápido movimiento.

IA irrumpió en la conciencia pública con el lanzamiento a fines de 2022 de Chatgpt, un chatbot impulsado por un «modelo de lenguaje grande» (LLM) creado por Openai, una empresa emergente estrechamente vinculada a Microsoft. Su éxito llevó a Google y otras empresas tecnológicas a lanzar sus propios chatbots con tecnología de películas. Dichos sistemas pueden generar texto y mantener conversaciones realistas porque han sido entrenados utilizando billones de palabras extraídas de Internet. Formar una gran película lleva meses y cuesta decenas de millones de dólares. Esto generó preocupaciones de que IA estaría dominada por unas pocas empresas con mucho dinero.

Pero esa suposición es incorrecta, dice la nota de Google. Señala que los investigadores en la comunidad de código abierto, utilizando recursos en línea gratuitos, ahora están logrando resultados comparables a los modelos propietarios más grandes. Resulta que las películas se pueden «afinar» usando una técnica llamada adaptación de bajo rango o LoRa. Esto permite que una película existente se optimice para una tarea en particular de manera mucho más rápida y económica que entrenar una película desde cero.

La actividad en IA de código abierto explotó en marzo, cuando llama, un modelo creado por Meta, el padre de Facebook, se filtró en línea. Aunque es más pequeño que el LLMS más grande (su versión más pequeña tiene 7 mil millones de parámetros, en comparación con los 540 mil millones de la palma de Google), se ajustó rápidamente para producir resultados comparables a la versión original de Chatgpt en algunas tareas. A medida que los investigadores de código abierto se basaban en el trabajo de los demás con LLaMA (Large Language Model Meta AI«siguió una tremenda efusión de innovación», escribe el autor del memorándum.

Esto podría tener implicaciones sísmicas para el futuro de la industria. “La barrera de entrada para la capacitación y la experimentación se ha reducido de la producción total de una importante organización de investigación a una persona, una noche y una computadora portátil robusta”, afirma el memorando de Google. Ahora se puede ajustar una película por $100 en unas pocas horas. Con su modelo de rápido movimiento, colaborativo y de bajo costo, “el código abierto tiene algunas ventajas significativas que no podemos replicar”. De ahí el título del memorando: esto puede significar que Google no tiene un «foso» defensivo contra los competidores de código abierto. Ni tampoco Openai.

No todos están de acuerdo con esta tesis. Es cierto que Internet funciona con software de código abierto. Pero la gente también usa software propietario pagado, desde Adobe Photoshop hasta Microsoft Windows. AI puede encontrar un equilibrio similar. Además, la evaluación comparativa de los sistemas de inteligencia artificial es notoriamente difícil. Sin embargo, incluso si el memorándum tiene razón en parte, la implicación es que el acceso a la tecnología de inteligencia artificial estará mucho más democratizado de lo que parecía posible incluso hace un año. Se pueden ejecutar potentes películas en una computadora portátil; cualquiera que quiera puede ahora ajustar su propia IA.

Esto tiene implicaciones tanto positivas como negativas. En el lado positivo, hace que el control monopólico de IA por parte de un puñado de empresas sea mucho menos probable. Hará que el acceso a la inteligencia artificial sea mucho más económico, acelerará la innovación en todo el campo y facilitará que los investigadores analicen el comportamiento de los sistemas de inteligencia artificial (su acceso a modelos patentados era limitado), lo que aumentará la transparencia y la seguridad. Pero un acceso más fácil a la inteligencia artificial también significa que los malos actores podrán ajustar los sistemas con fines nefastos, como generar desinformación. Significa que los intentos occidentales de evitar que los regímenes hostiles obtengan acceso a la poderosa tecnología de inteligencia artificial fracasarán. Y hace que IA sea más difícil de regular, porque el genio está fuera de la botella.

Pronto se hará evidente si Google y los de su clase realmente han perdido su foso en la inteligencia artificial. Pero al igual que con los memorandos anteriores, esto se siente como otro punto de inflexión para la informática.

A continuación se copia traducido al español el Memo de Google completo. Le recomendamos a los lectores que en su primera lectura tomen nota de las iniciales, palabras y términos que desconozcan, luego investiguen sus significados y finalmente vuelvan a leer el Memo para que puedan llenar los vacíos de un tema que nos desborda de pasiones.

 

NO TENEMOS FOSO Y OPENAI TAMPOCO

HEMOS MIRADO MUCHO SOBRE NUESTROS HOMBROS EN OPENAI. ¿QUIÉN CRUZARÁ EL PRÓXIMO HITO? ¿CUÁL SERÁ EL PRÓXIMO MOVIMIENTO?

 

Pero la verdad incómoda es que no estamos posicionados para ganar esta carrera armamentista y OpenAI tampoco. Mientras nos peleamos, una tercera facción ha estado comiendo nuestro almuerzo en silencio.

Estoy hablando, por supuesto, de código abierto. En pocas palabras, nos están lamiendo. Las cosas que consideramos «principales problemas abiertos» están resueltas y en manos de la gente hoy. Sólo para nombrar unos pocos:

 

LLM en un teléfono: las personas ejecutan modelos básicos en un Pixel 6 a 5 tokens/seg. 

IA personal escalable: puede ajustar una IA personalizada en su computadora portátil en una noche.

Publicación responsable: esta no está «resuelta» tanto como «obviada». Hay sitios web completos llenos de modelos artísticos sin restricciones de ningún tipo, y el texto no se queda atrás.

Multimodalidad: El SOTA ScienceQA multimodal actual se capacitó en una hora.

Si bien nuestros modelos aún tienen una ligera ventaja en términos de calidad, la brecha se está cerrando asombrosamente rápido. Los modelos de código abierto son más rápidos, más personalizables, más privados y, libra por libra, más capaces. Están haciendo cosas con parámetros de $100 y 13 mil millones con los que luchamos a $10 millones y 540 mil millones. Y lo están haciendo en semanas, no en meses. Esto tiene profundas implicaciones para nosotros:

No tenemos salsa secreta. Nuestra mejor esperanza es aprender y colaborar con lo que otros están haciendo fuera de Google. Deberíamos priorizar la habilitación de integraciones 3P.

La gente no pagará por un modelo restringido cuando las alternativas gratuitas y sin restricciones son comparables en calidad. Deberíamos considerar dónde está realmente nuestro valor agregado. Los modelos gigantes nos están frenando. A la larga, los mejores modelos son los que se puede iterar rápidamente. Deberíamos hacer pequeñas variantes más que una ocurrencia tardía, ahora que sabemos lo que es posible en el régimen de parámetros <20B.

Qué pasó

A principios de marzo, la comunidad de código abierto consiguió su primer modelo de base realmente capaz, ya que LLaMA de Meta se filtró al público. No tenía instrucciones ni sintonización de conversación, ni RLHF. Sin embargo, la comunidad entendió de inmediato el significado de lo que se les había dado.

 

Siguió una tremenda efusión de innovación, con solo días entre los principales desarrollos (ver la Linea de Tiempo para el desglose completo). Aquí estamos, apenas un mes después, y hay variantes con ajuste de instrucciones, cuantización, mejoras de calidad, evaluaciones humanas, multimodalidad, RLHF, etc., muchas de las cuales se complementan entre sí.

Lo más importante es que han resuelto el problema de la escala en la medida en que cualquiera puede modificarlo. Muchas de las nuevas ideas provienen de la gente común. La barrera de entrada para la capacitación y la experimentación se ha reducido de la producción total de una importante organización de investigación a una persona, una noche y una computadora portátil robusta.

Por qué podríamos haberlo visto venir

En muchos sentidos, esto no debería ser una sorpresa para nadie. El renacimiento actual de los LLM de código abierto llega inmediatamente después de un renacimiento en la generación de imágenes. Las similitudes no se pierden en la comunidad, y muchos lo llaman el «momento de difusión estable» para los LLM.

En ambos casos, la participación pública de bajo costo fue posible gracias a un mecanismo mucho más barato para el ajuste fino llamado adaptación de bajo rango, o LoRA, combinado con un avance significativo en la escala (difusión latente para la síntesis de imágenes, Chinchilla para LLM). En ambos casos, el acceso a un modelo de calidad suficientemente alta provocó una ráfaga de ideas e iteraciones de personas e instituciones de todo el mundo. En ambos casos, esto superó rápidamente a los grandes jugadores.

Estas contribuciones fueron fundamentales en el espacio de generación de imágenes, colocando a Stable Diffusion en un camino diferente al de Dall-E. Tener un modelo abierto condujo a integraciones de productos, mercados, interfaces de usuario e innovaciones que no sucedieron para Dall-E.

 

El efecto fue palpable: una rápida dominación en términos de impacto cultural frente a la solución OpenAI, que se volvió cada vez más irrelevante. Queda por ver si sucederá lo mismo con los LLM, pero los elementos estructurales generales son los mismos.

Lo que nos perdimos

Las innovaciones que impulsaron los éxitos recientes del código abierto resuelven directamente los problemas con los que todavía estamos luchando. Prestar más atención a su trabajo podría ayudarnos a evitar reinventar la rueda.

LoRA es una técnica increíblemente poderosa a la que probablemente deberíamos prestar más atención. LoRA funciona representando las actualizaciones del modelo como factorizaciones de rango bajo, lo que reduce el tamaño de las matrices de actualización en un factor de hasta varios miles. Esto permite el ajuste fino del modelo a una fracción del costo y el tiempo. Ser capaz de personalizar un modelo de idioma en unas pocas horas en hardware de consumo es un gran problema, especialmente para las aspiraciones que implican incorporar conocimientos nuevos y diversos casi en tiempo real. El hecho de que esta tecnología exista está subexplotado dentro de Google, aunque impacta directamente en algunos de nuestros proyectos más ambiciosos.

La calidad de los datos escala mejor que el tamaño de los datos

Muchos de estos proyectos están ahorrando tiempo al capacitarse en conjuntos de datos pequeños y altamente seleccionados. Esto sugiere que existe cierta flexibilidad en las leyes de escalado de datos. La existencia de dichos conjuntos de datos se deriva de la línea de pensamiento de “Data Doesn’t Do What You Think”, y se están convirtiendo rápidamente en la forma estándar de realizar capacitación fuera de Google. Estos conjuntos de datos se construyen utilizando métodos sintéticos (por ejemplo, filtrando las mejores respuestas de un modelo existente) y recopilando datos de otros proyectos, ninguno de los cuales es dominante en Google. Afortunadamente, estos conjuntos de datos de alta calidad son de código abierto, por lo que su uso es gratuito.

Competir directamente con el código abierto es una propuesta perdedora

Este progreso reciente tiene implicaciones directas e inmediatas para nuestra estrategia comercial. ¿Quién pagaría por un producto de Google con restricciones de uso si existe una alternativa gratuita y de alta calidad sin ellas?

Y no debemos esperar poder ponernos al día. El Internet moderno funciona con código abierto por una razón. El código abierto tiene algunas ventajas significativas que no podemos replicar.

Los necesitamos más de lo que ellos nos necesitan

Mantener nuestra tecnología en secreto siempre fue una propuesta tenue. Los investigadores de Google se están yendo a otras empresas en una cadencia regular, por lo que podemos suponer que saben todo lo que sabemos, y continuarán haciéndolo mientras esa tubería esté abierta.

Pero mantener una ventaja competitiva en tecnología se vuelve aún más difícil ahora que la investigación de vanguardia en LLM es asequible. Las instituciones de investigación de todo el mundo se basan en el trabajo de los demás, explorando el espacio de soluciones de una manera amplia que supera con creces nuestra propia capacidad. Podemos tratar de aferrarnos a nuestros secretos mientras la innovación externa diluye su valor, o podemos intentar aprender unos de otros.

Las personas no están limitadas por las licencias en la misma medida que las corporaciones

Gran parte de esta innovación está sucediendo además de los pesos modelo filtrados de Meta. Si bien esto inevitablemente cambiará a medida que mejoren los modelos verdaderamente abiertos, el punto es que no tienen que esperar. La cobertura legal que brinda el «uso personal» y la impracticabilidad de enjuiciar a las personas significa que las personas obtienen acceso a estas tecnologías mientras están calientes.

Ser su propio cliente significa que comprende el caso de uso

Navegando a través de los modelos que la gente está creando en el espacio de generación de imágenes, hay una gran cantidad de creatividad, desde generadores de anime hasta paisajes HDR. Estos modelos son utilizados y creados por personas que están profundamente inmersas en su subgénero particular, lo que brinda una profundidad de conocimiento y empatía que no podemos esperar igualar.

Ser dueño del ecosistema: dejar que el código abierto trabaje para nosotros

Paradójicamente, el claro ganador de todo esto es Meta. Debido a que el modelo filtrado era de ellos, efectivamente han obtenido el valor de trabajo gratuito de todo un planeta. Dado que la mayor parte de la innovación de código abierto se produce sobre su arquitectura, no hay nada que les impida incorporarla directamente en sus productos.

El valor de poseer el ecosistema no puede exagerarse. Google mismo ha utilizado con éxito este paradigma en sus ofertas de código abierto, como Chrome y Android. Al ser dueño de la plataforma donde ocurre la innovación, Google se consolida como un líder de pensamiento y un marcador de dirección, ganando la capacidad de dar forma a la narrativa sobre ideas que son más grandes que él mismo.

Cuanto más estrictamente controlemos nuestros modelos, más atractivas hacemos las alternativas abiertas. Tanto Google como OpenAI se han inclinado a la defensiva hacia patrones de lanzamiento que les permitan mantener un control estricto sobre cómo se utilizan sus modelos. Pero este control es una ficción. Cualquiera que desee utilizar LLM para fines no autorizados puede simplemente elegir entre los modelos disponibles gratuitamente.

Google debería establecerse como líder en la comunidad de código abierto, tomando la iniciativa cooperando con la conversación más amplia, en lugar de ignorarla. Esto probablemente signifique tomar algunos pasos incómodos, como publicar los pesos del modelo para variantes pequeñas de ULM. Esto necesariamente significa renunciar a cierto control sobre nuestros modelos. Pero este compromiso es inevitable. No podemos esperar tanto impulsar la innovación como controlarla.

Epílogo: ¿Qué pasa con OpenAI?

Toda esta charla sobre código abierto puede parecer injusta dada la política cerrada actual de OpenAI. ¿Por qué tenemos que compartir, si ellos no lo harán? Pero el hecho es que ya estamos compartiendo todo con ellos en la forma del flujo constante de investigadores senior furtivos. Hasta que detengamos esa marea, el secreto es un punto discutible.

Y al final, OpenAI no importa. Están cometiendo los mismos errores que nosotros en su postura en relación con el código abierto, y su capacidad para mantener una ventaja está necesariamente en duda. Las alternativas de código abierto pueden y eventualmente las eclipsarán a menos que cambien su postura. En este sentido, al menos, podemos dar el primer paso.

Líneas de tiempo

24 de febrero de 2023 – Lanzamiento de LLaMA

Meta lanza LLaMA, código abierto, pero no los pesos. En este punto, LLaMA no está sintonizado con la instrucción o la conversación. Como muchos modelos actuales, es un modelo relativamente pequeño (disponible en parámetros 7B, 13B, 33B y 65B) que ha sido entrenado durante una cantidad de tiempo relativamente grande y, por lo tanto, es bastante capaz en relación con su tamaño.

3 de marzo de 2023 – Sucede lo inevitable

En una semana, LLaMA se filtra al público. El impacto en la comunidad no puede ser exagerado. Las licencias existentes impiden que se use con fines comerciales, pero de repente cualquiera puede experimentar. A partir de este momento, las innovaciones vienen con fuerza y rapidez.

12 de marzo de 2023 – Modelos de lenguaje en una tostadora

Un poco más de una semana después, Artem Andreenko hace que el modelo funcione en una Raspberry Pi. En este punto, el modelo se ejecuta demasiado lento para ser práctico porque los pesos se deben paginar dentro y fuera de la memoria. No obstante, esto prepara el escenario para una avalancha de esfuerzos de minificación.

13 de marzo de 2023 – Ajuste fino en una computadora portátil

Al día siguiente, Stanford lanza Alpaca, que agrega afinación de instrucciones a LLaMA. Sin embargo, más importante que los pesos reales fue el repositorio de alpaca-lora de Eric Wang, que utilizó un ajuste fino de rango bajo para realizar este entrenamiento «en cuestión de horas en un solo RTX 4090».

De repente, cualquiera podía ajustar el modelo para hacer cualquier cosa, iniciando una carrera hacia el abismo en proyectos de ajuste fino de bajo presupuesto. Los periódicos describen con orgullo su gasto total de unos pocos cientos de dólares. Además, las actualizaciones de rango bajo se pueden distribuir fácilmente y por separado de los pesos originales, lo que las hace independientes de la licencia original de Meta. Cualquiera puede compartirlos y aplicarlos.

18 de marzo de 2023 – Ahora es rápido

Georgi Gerganov usa cuantificación de 4 bits para ejecutar LLaMA en una CPU de MacBook. Es la primera solución «sin GPU» que es lo suficientemente rápida como para ser práctica.

19 de marzo de 2023: un modelo 13B logra la «paridad» con Bard

Al día siguiente, una colaboración interuniversitaria lanza Vicuna y utiliza una evaluación impulsada por GPT-4 para proporcionar comparaciones cualitativas de los resultados del modelo. Si bien el método de evaluación es sospechoso, el modelo es materialmente mejor que las variantes anteriores. Costo de entrenamiento: $300.

En particular, pudieron usar datos de ChatGPT mientras eludían las restricciones en su API: simplemente probaron ejemplos de diálogos «impresionantes» de ChatGPT publicados en sitios como ShareGPT.

25 de marzo de 2023 – Elija su propio modelo

Nomic crea GPT4All, que es a la vez un modelo y, lo que es más importante, un ecosistema. Por primera vez, vemos modelos (incluida Vicuña) reunidos en un solo lugar. Costo de entrenamiento: $100.

28 de marzo de 2023 – Código abierto GPT-3

Cerebras (que no debe confundirse con nuestro propio Cerebra) entrena la arquitectura GPT-3 utilizando el programa de cómputo óptimo implícito en Chinchilla y el escalado óptimo implícito en la parametrización μ. Esto supera a los clones GPT-3 existentes por un amplio margen y representa el primer uso confirmado de la parametrización μ «en la naturaleza». Estos modelos están entrenados desde cero, lo que significa que la comunidad ya no depende de LLaMA.

28 de marzo de 2023 – Entrenamiento multimodal en una hora

Usando una técnica novedosa de ajuste fino eficiente de parámetros (PEFT), LLaMA-Adapter introduce ajuste de instrucciones y multimodalidad en una hora de entrenamiento. Sorprendentemente, lo hacen con solo 1,2 millones de parámetros de aprendizaje. El modelo logra un nuevo SOTA sobre ScienceQA multimodal.

3 de abril de 2023: los seres humanos reales no pueden distinguir la diferencia entre un modelo abierto 13B y ChatGPT

Berkeley lanza Koala, un modelo de diálogo entrenado completamente con datos disponibles de forma gratuita.

Toman el paso crucial de medir las preferencias humanas reales entre su modelo y ChatGPT. Si bien ChatGPT todavía tiene una ligera ventaja, más del 50 % de las veces los usuarios prefieren Koala o no tienen preferencia. Costo de entrenamiento: $100.

15 de abril de 2023: RLHF de código abierto en los niveles de ChatGPT

Open Assistant lanza un modelo y, lo que es más importante, un conjunto de datos para la alineación a través de RLHF. Su modelo está cerca (48,3 % frente a 51,7 %) de ChatGPT en términos de preferencia humana. Además de LLaMA, muestran que este conjunto de datos se puede aplicar a Pythia-12B, lo que brinda a las personas la opción de usar una pila completamente abierta para ejecutar el modelo. Además, debido a que el conjunto de datos está disponible públicamente, hace que RLHF pase de ser inalcanzable a ser barato y fácil para los pequeños experimentadores.

 

Sabías que puedes leer este artículo  y otros en Telegram

Telegram Messenger 1 - Black Friday: ofertas para la comunidad de Bitcoin y criptomonedas

Pedro Luis Martín Olivares
Economía y Finanzas

Sé el primero en comentar en «Inteligencia Artificial, revelaciones de un memo filtrado de Google»

Deja un comentario

Tu dirección de correo electrónico no será publicada.


*


*