Implemente LLM de manera más eficiente con vLLM y Neural Magic
|Deploy LLMs More Efficiently with vLLM and Neural Magic
Neural Magic y su Visión Prévia del Futuro
«Creemos que el futuro de la inteligencia artificial es abierto: código abierto, modelos abiertos y una infraestructura abierta.»
- Neural Magic se enfoca en un futuro de inteligencia artificial que promueve la colaboración y el desarrollo conjunto de modelos y servicios dentro de un ecosistema de código abierto. Se propone que este enfoque colaborativo permitirá construir mejores modelos e infraestructuras adaptadas a las necesidades de las empresas.
- La misión de Neural Magic es llevar el poder de los modelos de lenguaje abierto (LLMs) y su servidor de inferencias líder, conocido como VM, a todas las empresas del mundo.
Progreso del Código Abierto en IA
«Lo que hemos visto en el último año y medio es una avalancha de calidad y apertura en los modelos que están siendo creados.»
- La evolución del código abierto en inteligencia artificial ha sido notable, especialmente desde el lanzamiento de modelos como GPT-3.5, que catalizó un gran interés en la adopción de modelos de código abierto.
- A comienzos de 2023, había una escasez de modelos de lenguaje grandes en el ecosistema de código abierto. Sin embargo, la llegada de modelos como Llama 1 y Llama 2 representó un avance significativo, mejorando tantó la calidad de los modelos como las licencias que permiten su uso en aplicaciones comerciales.
Modelos Abiertos y Oportunidades Empresariales
«Los modelos de código abierto son una excelente opción para muchas aplicaciones empresariales.»
- Los modelos de código abierto, como Llama 3 y Gemma 2, permiten a las empresas personalizar y afinar los modelos para usos específicos, lo que resulta en soluciones más efectivas y económicas.
- Las empresas ven beneficios significativos, ya que estos modelos son más asequibles, se pueden desplegar en infraestructuras existentes, y ofrecen mayor control, la capacidad de gestionar el ciclo de vida del modelo y la privacidad de los datos.
Retos en la Implementación de Modelos de IA Abiertos
«Desplegar modelos en producción requiere construir y escalar servicios de modelos resistentes que los equipos de aplicación puedan confiar.»
- A medida que las empresas adoptan modelos de código abierto, enfrentan el desafío de implementar estos modelos en sus infraestructuras, lo que incluye construir servicios de inferencias resilientes y escalables.
- Los modelos de lenguaje grandes requieren un hardware considerable y habilidades operativas especializadas, lo que puede dificultar su adopción para muchas empresas.
El equipo y expertos detrás de VM
«Nuestro equipo de ingenieros de HPC en MIT trabaja en optimizaciones clave para hacer que los modelos de lenguaje sean más eficientes.»
- Near es un profesor asociado en el ámbito de la computación de alto rendimiento (HPC) en el MIT, donde lidera un equipo que desarrolla tecnología vital para el funcionamiento de máquinas de aprendizaje de alto rendimiento.
- Este equipo combina habilidades en optimización de modelos de lenguaje, ingeniería de software para servidores de inferencia y experiencia empresarial, permitiendo crear aplicaciones eficientes y escalables para empresas.
- La investigación incluye algoritmos innovadores para la compresión y mejora de modelos de lenguaje, como lo demuestra su trabajo con los científicos Mark CTS y Dan Alistar, cuya labor ha impactado el desarrollo de modelos más eficientes.
Adopción y características de VM
«VM ha recibido un apoyo impresionante para características críticas dirigidas a la Inferencia en producción empresarial.»
- VM se ha adoptado rápidamente debido a su buen soporte para características esenciales como atención por páginas y procesos de agrupamiento continuo, que optimizan el costo de los servidores de inferencia.
- Este entorno no solo soporta diferentes aceleradores de hardware, sino que también permite una diversidad que facilita el aprovechamiento de múltiples plataformas de hardware, lo que es vital en un mercado dominado principalmente por Nvidia.
- El enfoque de VM para habilitar un entorno comunitario abierto similar a Kubernetes y Linux fomenta un ecosistema de desarrollo ágil, contribuyendo a su creciente popularidad.
Contribuciones comerciales y optimización en VM
«Nuestro producto NM VLM es una distribución empresarial estable de VM que aporta la responsabilidad de una empresa.»
- La empresa Neurom Magic tiene un papel central en el desarrollo de VM, siendo uno de sus principales contribuyentes comerciales.
- Sus esfuerzos se centran en optimizar la inferencia, mejorando el rendimiento y haciendo los modelos más eficientes a través de técnicas como la cuantización.
- Además de optimizaciones específicas de modelos, trabajan en características de nivel de sistema que son esenciales para implementaciones empresariales, como métricas de Prometheus y registros estructurados.
Optimización de solicitudes en VM
«La versión 0.4.2 de VM mostró diferencias significativas en la velocidad de procesamiento debido a un bug relacionado con una nueva función.»
- En la versión 0.4.2 de VM, se identificó un aumento de velocidad de 3X en un patrón de solicitudes específico al utilizar la plantilla de chat. Este problema se debió a un bug introducido por una nueva función llamada «prefill en bloques», que interactuaba negativamente con el patrón de solicitud utilizado por una empresa cliente.
- Gracias a su experiencia, el equipo pudo resolver este bug, aplicando las correcciones necesarias en las ramas estables para que el cliente pudiera continuar usando su versión actual sin tener que realizar cambios drásticos en toda su infraestructura de inferencia.
- Este enfoque permite que empresas en gran escala aprovechen un servidor de inferencia confiable sin el estrés de actualizarse constantemente, ayudando a mantener una estabilidad operativa y a gestionar los riesgos asociados con la implementación de nuevas versiones de software.
Portabilidad de modelos y soporte estable
«Ofrecemos portabilidad selectiva de modelos a versiones estables específicas para permitir que los clientes mantengan sus sistemas en funcionamiento.»
- Una de las ventajas de las ramas estables en VM es la portabilidad selectiva de modelos, que permite a los clientes utilizar nuevos modelos sin necesidad de actualizar a la versión más reciente de software con frecuencia. Esto es crucial para mantener una rampa de trabajo estable.
- Esto se logra mediante un soporte empresarial, donde se garantiza que si surge algún problema, los clientes pueden obtener asistencia rápida y eficiente. Además, el equipo de VM se involucra en la certificación de la precisión de los modelos durante el proceso de lanzamiento y evaluación.
Técnicas de optimización de modelos
«La cuantización permite convertir modelos de alta precisión a baja precisión para optimizar el uso de memoria.»
- La cuantización es una técnica que reduce la precisión de un modelo, permitiendo una disminución significativa en el uso de memoria, lo que hace que un modelo grande pueda ejecutarse en hardware menos potente. Por ejemplo, se puede reducir un modelo a 4 bits, lo que ayuda a que un proceso que originalmente requería múltiples GPUs ahora pueda ejecutarse en una sola.
- El equipo de VM proporciona herramientas como la biblioteca «LM Compressor», que facilitan la aplicación de estas optimizaciones. Se han realizado colaboraciones con ingenieros de clientes para maximizar la calidad del modelo tras la cuantización, logrando menos del 1% de pérdida de precisión en modelos de 4 bits.
- Como resultado, los costos de implementación se reducen drásticamente, algo que un importante minorista logró al cuantificar su modelo de manera efectiva, lo que les permitió usar instancias de GPU más asequibles y mejorar la eficiencia de su carga de trabajo.
Implementación de Modelos y Reducción de Costos
“Las compañías pueden implementar estos modelos directamente en producción, reduciendo significativamente sus costos.”
- Las empresas están aprovechando técnicas de cuantificación para optimizar sus modelos, permitiendo que un modelo que originalmente requería cuatro GPU ahora pueda operarse con una GPU funcionando a cuatro bits o con sólo dos GPU a ocho bits.
- Esta optimización resulta muy beneficiosa, especialmente para una compañía de videojuegos que ha estado trabajando para reducir los costos asociados con el despliegue de su modelo de 70 mil millones, facilitando el acceso y mejorando la eficiencia operativa.
Arquitecturas de Despliegue Escalable y Monitoreo de Telemetría
“Hemos trabajado en arquitecturas de despliegue escalables y en asegurar que la telemetría sea relevante para las necesidades de los ingenieros de confiabilidad del sitio.”
- La compañía ofrece gráficos de Helm y arquitecturas de referencia que ayudan en el despliegue dentro de Kubernetes. Se está integrando un enfoque especial en el autoescalado basado en GPUs utilizando Case Serve, que proporciona características excepcionales para la escalabilidad.
- Además, se ha mejorado la conexión de métricas exportadas desde VM, asegurando que los desarrolladores hagan un seguimiento de las métricas correctas, como la latencia por token de salida, lo que resulta crucial para los ingenieros de confiabilidad del sitio (SRE).
Neural Magic ahora es parte de Red Hat: Red Hat Completes Acquisition of Neural Magic to Fuel Optimized Generative AI Innovation Across the Hybrid Cloud