Guía técnica de un líder de datos para escalar la IA generativa

Nota: Hacemos nuestro mejor esfuerzo por preservar el espíritu original y los matices de nuestros artículos. Sin embargo, nos disculpamos de antemano por cualquier falla de traducción que pueda notar. Agradecemos sus comentarios en reader_input@mckinsey.com

Los líderes de datos e inteligencia artificial (IA) llevan más de un año trabajando febrilmente en casos de uso de IA generativa. Su experiencia ha proporcionado atisbos prometedores del considerable valor que está en juego en la IA generativa, pero también ha expuesto una serie de retos para llegar a escala. La gestión de datos sigue siendo uno de los principales obstáculos para la creación de valor a partir de la IA generativa. De hecho, en una encuesta reciente de McKinsey, el 70 por ciento de las empresas con mejores resultados dijeron que han experimentado dificultades para integrar datos en modelos de IA, que van desde problemas con la calidad de los datos hasta la definición de procesos para la gobernanza de los datos y la disponibilidad de datos de capacitación suficientes.¹

Según nuestra experiencia, las organizaciones se han visto frenadas por una comprensión aún en proceso de maduración de cómo evolucionar las capacidades de datos para respaldar los casos de IA generativa a escala y cómo utilizar la IA generativa para mejorar las prácticas de datos. Este artículo aborda tres acciones que los líderes de datos e IA pueden considerar para ayudarles a pasar de los proyectos piloto de IA generativa a la ampliación de las soluciones de datos. La primera se centra en cómo las organizaciones pueden fortalecer la calidad y preparación de sus datos para los casos de uso de IA generativa. La segunda analiza cómo las organizaciones pueden utilizar la IA generativa para crear mejores productos de datos con sus plataformas de datos modernizadas. La tercera explora consideraciones clave de la gestión de datos que permiten la reutilización y aceleran el desarrollo de soluciones de datos.

Todo comienza en la fuente: Mejore sus datos

Aunque la calidad de los datos ha sido durante mucho tiempo una preocupación importante para los líderes de datos e IA, no se pueden subestimar los riesgos y costos de alimentar con datos deficientes los modelos de IA generativa, que van desde resultados deficientes, correcciones costosas y brechas cibernéticas hasta una pérdida de confianza de los usuarios en los resultados. De hecho, la encuesta de McKinsey de 2024 citada anteriormente encontró que el 63 por ciento de los encuestados —siete puntos porcentuales más que en la encuesta de 2023— afirmaron que la imprecisión de los resultados era el mayor riesgo que veían en el uso de la IA generativa en sus organizaciones.²

Más perspectivas de McKinsey en Español

Mire nuestra colección de artículos en Español y suscríbase a nuestro newsletter mensual en Español.

Navegue por la colección

Los métodos tradicionales para garantizar la calidad de los datos no son suficientes; los líderes deben considerar las siguientes formas de mejorar y ampliar sus datos de origen.

Obtener datos de origen mejores y más precisos a partir de tipos de datos complejos

Acerca de QuantumBlack, IA de McKinsey

QuantumBlack, la división de inteligencia artificial de McKinsey, ayuda a las empresas a transformarse utilizando el poder de la tecnología, la experiencia técnica y los expertos de la industria. Con miles de profesionales en QuantumBlack (ingenieros de datos, científicos de datos, gerentes de productos, diseñadores e ingenieros de software) y McKinsey (expertos en la industria y la materia), estamos trabajando para resolver los desafíos de IA más importantes del mundo. QuantumBlack Labs es nuestro centro de desarrollo tecnológico e innovación para clientes, que ha estado impulsando avances y desarrollos de vanguardia en inteligencia artificial a través de ubicaciones en todo el mundo.

Las organizaciones están batallando para gestionar la creciente complejidad de los conjuntos de datos no estructurados. Por ejemplo, es posible que los bancos quieran examinar tanto información financiera estructurada –como el historial de transacciones– como los estados financieros y los análisis de mercado para determinar la solvencia de un cliente corporativo. Pero procesar combinaciones de datos estructurados y no estructurados suele aumentar la probabilidad de errores porque, si bien los equipos internos y los expertos en la materia tienen los conocimientos pertinentes, generalmente tienen dificultades para codificar esos conocimientos de modo que los procesos de canalización de datos puedan replicarse fácilmente.

Las herramientas han evolucionado para manejar la relación entre diferentes tipos y fuentes de datos. Por ejemplo, los grafos de conocimiento (knowledge graphs) pueden ayudar a capturar relaciones complejas entre entidades, proporcionando un contexto significativo para los grandes modelos de lenguaje (large language models, o LLM) y sus conjuntos de datos derivados. Este tipo de capacidades facilita el mapeo preciso de puntos de datos desde datos no estructurados a datos estructurados.

Incluso cuando los ingenieros de datos comprenden la relación entre los conjuntos de datos, siguen necesitando asignar diferentes métodos para interpretar esos datos en función de los atributos, como el formato de los datos (PDF, PowerPoint, Word o archivos de imagen, por ejemplo). Esto supone un desafío a medida que las empresas integran en sus sistemas formatos que son cada vez más complejos. En la actualidad, los modelos multimodales son lo suficientemente sofisticados como para analizar tipos de documentos más complejos que presentan formatos de datos dispares, como la extracción de datos tabulares de documentos no estructurados.

Aunque estos modelos son cada vez más fáciles de usar, todavía pueden cometer errores (y, en algunos casos, son caros). Los problemas de precisión requieren una revisión constante, que a menudo sigue siendo manual. Algunos ingenieros de datos, por ejemplo, dedican mucho tiempo a comprobar dos pantallas de un entorno de desarrollo integrado para observar las diferencias entre las salidas. A medida que aumentan los casos de uso concurrentes, este enfoque manual rápidamente alcanza sus límites. Los líderes de datos deben centrar los recursos en implementar métodos de evaluación automatizados, mecanismos de gestión de versiones y puntuación de la relevancia de los datos para mejorar la precisión y coherencia de los resultados de los modelos multimodales.

Una empresa de inversión sabía que necesitaba mejorar el acceso y uso de los datos para implementar un asistente virtual. Para poder utilizar información de productos procedente de fuentes de datos estructurados y no estructurados, tuvo que crear canalizaciones de datos para analizar y procesar datos no estructurados, identificar qué versión de cada documento era la más reciente y adaptar la longitud de los artículos para los usuarios de dispositivos móviles. Los ingenieros de datos de la empresa usaron capacidades de modelo multimodal para convertir los datos tabulares de los documentos en datos estructurados y construir una arquitectura de medallón (un patrón de diseño popular para organizar datos que admite el desarrollo de canalizaciones modulares). Además, introdujeron el versionado y las puntuaciones de relevancia para mejorar la precisión de las salidas. Como resultado, la empresa pudo comenzar a trabajar rápidamente en casos de uso, como actividades de diligencia debida, con un entorno de IA generativa de nivel de producción en dos semanas.

Crear datos cuando no estén disponibles

Algunos casos de uso de IA generativa son complicados de llevar a cabo porque los datos necesarios son difíciles de obtener y procesar, lo que suele ser un problema en la sanidad, las ciencias biológicas u otros sectores que tienen normativas estrictas de seguridad de datos. Para superar estos retos, en algunos casos, un ingeniero de datos puede generar manualmente un archivo para probar la eficacia de un caso de uso. Pero este proceso puede llevar mucho tiempo y ser ineficaz.

En su lugar, los líderes de datos e inteligencia artificial están invirtiendo en herramientas de IA generativa para crear datos sintéticos como datos de prueba o para producir nuevos valores basados completamente en las descripciones de las columnas y el contexto de la tabla, lo que les permite crear un nuevo conjunto de datos o hacer revisiones de uno existente. Algunas empresas ya han utilizado generadores de datos sintéticos para crear conjuntos de datos estadísticamente similares.

Utilizar la IA generativa para acelerar la creación de productos de datos reutilizables

Los productos de datos, tales como una visión de 360 grados de los clientes individuales, son la piedra angular de cómo las empresas utilizan los datos para generar valor a escala para el negocio.³ Pero desarrollar estos productos de datos puede ser difícil y llevar mucho tiempo. Sin embargo, con mejores datos y nuevas herramientas de IA generativa, las empresas están descubriendo que pueden acelerar el desarrollo y mejorar los resultados. Por ejemplo, una empresa del sector de la hospitalidad aceleró la creación de modelos de datos de dominio del cliente hasta en un 60 por ciento y, al mismo tiempo, aumentó la productividad en ingeniería de funciones en un 50 por ciento. Fue capaz de alcanzar esas marcas al centrarse en la generación automática tanto de canalizaciones de transformación de datos de extremo a extremo en PySpark como de documentación sólida de todas las transformaciones complejas que se produjeron.

Cambiar a la creación integral de productos de datos

Hasta hace poco, la tecnología disponible limitaba la creación de canalizaciones de datos (como una arquitectura de medallón) a un laborioso enfoque paso a paso. Si bien el uso de la IA generativa para realizar tareas, como generar una tabla individual a partir de lenguaje natural, puede hacer que los ingenieros de datos sean más eficientes, los ingenieros aún deben completar una serie de otros pasos previos y posteriores, como la combinación de todas las tablas.

En cambio, los líderes de datos e IA están empezando a adoptar un enfoque de extremo a extremo para construir canalizaciones de datos mediante la automatización de todos los pasos, logrando, en algunos casos, ahorros de tiempo del 80 al 90 por ciento y una escalabilidad mejorada para casos de uso específicos.

Escribir el código de canalización de datos para generar productos de datos ha sido tradicionalmente una de las tareas que más tiempo ha llevado a los ingenieros de datos. Ahora estamos asistiendo a la creación automatizada de canalizaciones de datos, escritas en lenguajes como SQL o Python, para crear modelos completos que puedan resolver múltiples casos de uso a la vez. En lugar de limitarse a un ámbito de trabajo modesto, como generar una tabla individual a partir de una instrucción (prompt) en lenguaje natural, existen capacidades para generar docenas de tablas como un modelo de datos de destino cohesionado capaz de ofrecer soluciones para múltiples casos de uso.

Sin embargo, antes de que una organización pueda comenzar a generar este tipo de capacidades, debe asegurarse de que cuenta con datos confiables, fácilmente comprensibles y disponibles. Para las empresas que llevan muchos años construyendo su patrimonio de datos, un elemento importante de este proceso es comprender sus bases de código heredadas y los datos existentes. No obstante, muchas empresas tienen dificultades debido a un linaje o una catalogación de datos deficiente, lo que lleva a una comprensión limitada de cómo se generan sus datos. En respuesta, algunas empresas están empleando una variedad de agentes (aplicaciones de IA generativa) a través de múltiples LLM para analizar bases de código heredadas y generar descripciones de texto en lenguaje natural. Este enfoque no solo mejora la comprensión de la organización de su base de código, sino que también facilita la creación de características de catálogo de datos, agilizando la identificación y eliminación de segmentos de código redundantes.

Impulsar la consistencia con una mejor orquestación y gestión de datos

El desarrollo de aplicaciones de IA generativa requiere un nivel de orquestación y modularización que permita reutilizar fácilmente capacidades específicas. Los métodos tradicionales de integración continua/entrega continua (continuous integration/continuous delivery, o CI/CD) a menudo no están a la altura de la tarea, porque no pueden mantener la coherencia necesaria entre los programas de IA generativa debido a la introducción de actividades específicas de IA generativa, como la ingeniería de prompts.

En respuesta, algunos líderes de datos e IA están utilizando marcos de trabajo basados en agentes, una estructura que facilita la colaboración y la coordinación entre múltiples agentes de IA generativa. Estos marcos orquestan los agentes de IA generativa y las complejidades que conlleva ampliar su uso (y reutilización). Los marcos basados en agentes están dotados de capacidades de razonamiento, ejecución de código, uso de herramientas y planeación, así como de una gestión mejorada del flujo de trabajo. Pueden ayudar a abordar las limitaciones asociadas a los LLM, como los retos de la gestión de procesos, los errores de verificación cruzada y las restricciones del diseño del flujo de trabajo de extremo a extremo. Al incorporar estos agentes a una arquitectura de IA generativa, las organizaciones pueden gestionar mejor tareas complejas y mejorar el rendimiento general, la fiabilidad, el valor y la satisfacción del usuario. Algunas empresas están empleando marcos basados en agentes en chatbots orientados al consumidor o en sistemas empresariales de recuperación de conocimiento.

Para gestionar mejor sus productos de datos, muchas empresas están recurriendo a diversas herramientas. Algunas trabajan con herramientas disponibles en el mercado, aunque a menudo tienen problemas con escenarios complejos, como la generación automática de información a partir de datos no estructurados. Las organizaciones que utilizan catálogos de datos mejorados con IA pueden facilitar el etiquetado de metadatos en tiempo real, incluida la generación automática de metadatos a partir de contenido estructurado y no estructurado y la creación de etiquetas inteligentes. Esto tiene el efecto de mejorar el descubrimiento de datos y ayudar en la selección de datos estructurados y no estructurados apropiados para los modelos de IA generativa.

Migrar y modernizar los productos de datos

Antes de comenzar el proceso de utilizar las capacidades de IA generativa, como la traducción de código, para migrar productos de datos y sus canalizaciones subyacentes de una plataforma a otra, las empresas deben determinar primero el LLM adecuado para el trabajo. Si bien muchas organizaciones utilizan LLM suministrados por su proveedor de servicios en la nube, es posible que algunos LLM estén entrenados de manera más competente en un conjunto de lenguajes de codificación que en otros. Por ejemplo, un LLM puede ser más adecuado para escribir código PySpark para canalizaciones, mientras que otro es más eficiente en Terraform para desarrollar infraestructura como código. Las organizaciones pueden usar estos LLM para facilitar una migración más fluida a plataformas que utilicen PySpark o lenguaje de consulta estructurada (Structured Query Language, o SQL), aunque, en algunos casos, dependiendo del lenguaje de codificación o el marco de trabajo, puede seguir siendo necesario ajustar un modelo.

Al comprender qué LLM utilizar para determinados lenguajes de codificación –y cómo automatizar la traducción de código entre lenguajes–, las empresas pueden migrar mejor las canalizaciones desde mainframes y servicios gestionados heredados que ya están en la nube a recursos en la nube más modernos. Sin embargo, identificar el LLM adecuado puede requerir tiempo de prueba adicional, que los líderes de datos e IA deben tener en cuenta en sus hojas de ruta de proyectos.

Escalar la IA generativa con estándares de seguridad y codificación

Los líderes de datos e IA se enfrentan a grandes retos a la hora de gestionar y gobernar el uso en rápida expansión de datos no estructurados. La proliferación de modelos y aplicaciones de IA generativa no solo introduce riesgos, sino que también dificulta la escalabilidad, porque los equipos a menudo terminan usando herramientas y enfoques diferentes, y a veces contradictorios.

Al proteger los datos en cada etapa del proceso de desarrollo y automatizar la integración de las mejores prácticas de codificación, las empresas pueden mitigar el riesgo, así como hacer cumplir los estándares para escalar sus soluciones de IA generativa.

Proteger los datos en cada etapa

Los datos no estructurados, como archivos PDF, de vídeo y de audio, contienen una gran cantidad de información para los modelos de IA generativa, pero crean importantes problemas de seguridad y requieren fuertes controles de protección de datos. Sin embargo, los controles de acceso tradicionales pueden no ser suficientes. Los datos no estructurados, por ejemplo, deben convertirse a un formato que una aplicación de IA generativa pueda analizar para comprender el contexto y luego generar metadatos que ayuden a determinar los derechos de acceso a los datos.

Para mitigar los riesgos de seguridad, algunos líderes de datos e IA están diseñando canalizaciones modulares capaces de proteger los datos automáticamente. Por ejemplo, la extracción de una tabla de ingresos con notas que abarcan varias páginas en un PDF requerirá la implementación de un control de acceso tradicional basado en funciones, incluida la ocultación de frases relacionadas en el texto. Dado que los resultados de la IA generativa siguen siendo a menudo incoherentes, los líderes de datos e IA deben crear cuidadosamente controles de acceso seguros y coherentes, así como barandillas en cada punto de control de la canalización de datos, desde la ingestión hasta la vectorización, la generación de recuperación aumentada (retrieval-augmented generation, o RAG) y el consumo por parte de los modelos de IA generativa.

Integrar las mejores prácticas de codificación en las salidas de IA generativa

Una característica clave de la escala es garantizar el cumplimiento coherente de los estándares aprobados y las mejores prácticas en la ingeniería de datos. Esto puede suponer un problema cuando se utiliza código procedente directamente de LLM, donde la calidad puede no cumplir las expectativas debido, por ejemplo, a que el código carece de contexto organizacional o no se ajusta a los marcos estándar que utiliza una organización. Para ayudar a superar estos problemas y mejorar la calidad de los datos, algunas organizaciones están integrando las mejores prácticas de codificación en todo su código generado por IA generativa.

Otro enfoque consiste en utilizar la IA generativa para analizar los valores de las columnas, determinar las reglas adecuadas para la calidad de los datos en función de las reglas existentes y, a continuación, integrarlas perfectamente en el proceso de generación de canalizaciones. Las empresas suelen tener un conjunto común de reglas de calidad de datos para los productos de datos, a menudo con solo ligeros cambios en función de los casos de uso. Las organizaciones que definen cuáles son esas reglas —con los parámetros correctos para los ajustes a las diferentes situaciones— pueden desarrollar soluciones de IA generativa que les permitan añadir automáticamente las reglas a sus canalizaciones.

Las herramientas de IA generativa están disponibles para acelerar el desarrollo de productos y plataformas de datos y mejorar su rendimiento. Pero para utilizarlas con eficacia, las empresas tendrán que abordar una amplia gama de retos técnicos. Centrarse en las capacidades de orquestación, la automatización de los programas de desarrollo de datos y la mejora de la usabilidad permitirá a los líderes de datos e IA ayudar a sus organizaciones a pasar de los proyectos piloto de IA generativa a la ampliación de soluciones que generen valor real.