Ciudad de México a 3 de Febrero de 2024.- China busca entrenar modelos de lenguaje sin usar GPU.Los modelos de lenguaje de gran escala (LLM) son sistemas de inteligencia artificial que pueden generar diversos tipos de contenido, como texto, código, imágenes, entre otros. Estos modelos requieren una gran cantidad de datos y recursos computacionales para ser entrenados, lo que representa un desafío para China, que enfrenta limitaciones en el acceso a las GPU, clave para el entrenamiento de LLM.
Sin embargo, las GPU son escasas y costosas en el mercado mundial debido a la alta demanda de diversos sectores, como los videojuegos, la minería de criptomonedas y la investigación científica. Además, China está sujeta al control de exportaciones de Estados Unidos, que restringe el suministro de alta tecnología al país asiático, por motivos de seguridad nacional y competencia geopolítica.
China y los LLM: ¿cómo superar la censura, la regulación y la escasez de GPU?
Las restricciones de Estados Unidos no son el único obstáculo, China también tiene que lidiar con la censura y regulación de los datos y el contenido que se generan y difunden en su territorio, lo que puede afectar la calidad y diversidad de los LLM que se desarrollan en el país.
Asimismo, China tiene que competir con otros países y empresas que también están avanzando en el campo de la IA generativa, como Estados Unidos, Japón, Corea del Sur, entre otros.
Ante estos desafíos, China está buscando alternativas para entrenar LLM sin depender de las GPU. Una de ellas es el uso de modelos dispersos, que solo activan una pequeña parte de los parámetros del modelo, lo que los hace más eficientes y menos intensivos en recursos que los modelos densos, que activan todos los parámetros.
Un ejemplo de un modelo disperso es Wu Dao 2.0, un modelo de IA generativa multimodal desarrollado por la Academia de Inteligencia Artificial de Beijing (BAAI), que tiene 1.75 billones de parámetros y puede generar lenguaje natural, código, imágenes, y otros tipos de contenido.
Algoritmos de Deep Learning, Wu Dao 2.0
Otra alternativa es el uso de modelos de código abierto que pueden ejecutarse en una sola máquina, como GLM-130B, un modelo denso con 130 billones de parámetros que puede generar lenguaje natural y código.
GLM-130B se basa en ChatGPT-3, un popular LLM desarrollado por OpenAI, pero usa un tokenizador diferente y un conjunto de datos de entrenamiento diferente. GLM-130B puede lograr una calidad comparable a ChatGPT-3 en algunas tareas de generación de lenguaje, como la resumen y la traducción.
China impulsa los modelos de lenguaje de la IA con un nuevo estándar
En cuanto a censura y regulación de datos nacional, China ya ha tomado otras medidas. Según TechWireAsia, en la Conferencia Mundial de Inteligencia Artificial (WAIC) celebrada en Shanghái, China presentó su nueva entidad para regular los grandes modelos de lenguaje, que son la clave para crear chatbots de IA como ChatGPT. Para ello, contó con la colaboración de los gigantes tecnológicos Baidu, Huawei, 360 Security Technology y Alibaba, que lideran un grupo de trabajo para definir el estándar LLM.
Tras una etapa de control riguroso, China apuesta por la integración de la IA en todos los sectores y la sociedad. Según el South China Morning Post, en los últimos seis meses, el país ha aprobado 40 LLM y aplicaciones de IA, de las cuales 14 recibieron el visto bueno esta semana. Así, el país asiático está promoviendo un cambio radical en su política de IA y modelos de lenguaje grande, alentando a su población y a sus pequeñas industrias a adoptar y aprovechar estas tecnologías.