Os líderes de dados e IA vêm trabalhando freneticamente em casos de uso de IA generativa (gen AI, na abreviação em inglês) há mais de um ano. A experiência deles vem proporcionando vislumbres animadores do valor considerável envolvido na gen AI, mas também vem expondo uma série de dificuldades no ganho de escala. A gestão de dados continua sendo um dos principais obstáculos à geração de valor a partir da gen AI. De fato, 70% das empresas de melhor desempenho afirmaram, em uma pesquisa recente da McKinsey, que vêm tendo dificuldades na integração de dados aos modelos de IA. Entre essas dificuldades estão problemas relacionados à qualidade dos dados, à definição dos processos de governança de dados e à suficiência dos dados de treinamento.1
De acordo com nossa experiência, as organizações têm sido limitadas por uma compreensão ainda imatura de como desenvolver as capacidades de dados para dar suporte a casos de gen AI em escala e como usar gen AI para melhorar as práticas de dados. Este artigo abordará três ações que os líderes de dados e IA podem cogitar para ajudá-los a passar de pilotos de gen AI para soluções de dados em escala. A primeira delas foca em como as organizações podem fortalecer a qualidade e a prontidão de seus dados para casos de uso de gen AI. A segunda analisa como as organizações podem usar gen AI para criar produtos de dados melhores com suas plataformas de dados modernizadas. A terceira explora as principais considerações de gestão de dados que permitem sua reutilização e aceleram o desenvolvimento de soluções de dados.
Tudo começa na fonte: melhore os seus dados
Mais insights da McKinsey em português
Confira nossa coleção de artigos em português e assine nossa newsletter mensal em português.
Embora a qualidade dos dados seja, há muito tempo, uma grande preocupação dos líderes de dados e IA, nunca é demais enfatizar que alimentar modelos de gen AI com dados de má qualidade implica riscos e custos, como resultados insatisfatórios, correções dispendiosas, violações cibernéticas e perda de confiança do usuário nos resultados. Aliás, na pesquisa McKinsey de 2024 citada acima, 63% dos entrevistados – sete pontos percentuais a mais do que na pesquisa de 2023 – afirmaram que a imprecisão dos resultados era o maior risco que viam no uso de gen AI em sua organização.2
As maneiras tradicionais de garantir a qualidade dos dados não são suficientes; os líderes devem cogitar as seguintes maneiras de melhorar e expandir seus dados de origem.
Obter dados de origem melhores e mais precisos a partir de tipos de dados complexos
As organizações vêm tendo dificuldade em lidar com a crescente complexidade dos conjuntos de dados não estruturados. Por exemplo, os bancos podem querer examinar tanto informações financeiras estruturadas (como o histórico de transações) quanto demonstrações financeiras e análises de mercado para determinar a capacidade de crédito de um cliente corporativo. No entanto, o processamento de combinações de dados estruturados e não estruturados costuma aumentar a probabilidade de erros porque, embora as equipes internas e os especialistas em cada assunto tenham os conhecimentos pertinentes, eles costumam ter dificuldade em codificar esse conhecimento de modo que os processos do pipeline de dados possam ser replicados com facilidade.
As ferramentas evoluíram para lidar com a relação entre diferentes tipos e fontes de dados. Por exemplo, os gráficos de conhecimento podem ajudar a capturar relações complexas entre entidades, fornecendo contexto significativo para grandes modelos de linguagem (LLMs, na sigla em inglês) e seus conjuntos de dados posteriores. Esses tipos de capacidades facilitam o mapeamento preciso de pontos de dados entre os dados não estruturados e os estruturados.
Mesmo quando os engenheiros de dados entendem a relação entre os conjuntos de dados, ainda precisam atribuir métodos diferentes para interpretar esses dados com base em atributos, como o formato dos dados (PDF, PowerPoint, Word ou arquivos de imagem, por exemplo). Esse é um desafio para as empresas ao integrarem formatos a seus sistemas, que estão se tornando cada vez mais complexos. Hoje, os modelos multimodais estão sofisticados o suficiente para analisar tipos mais complexos de documentos que apresentam formatos de dados distintos. Podem, por exemplo, extrair dados tabulares de documentos não estruturados.
Embora esses modelos estejam ficando mais fáceis de usar, ainda podem cometer erros (e, em alguns casos, são caros). Os problemas de precisãoos conhecimentos pertinentes, eles costumam ter requerem uma revisão constante, que muitas vezes ainda é manual. Alguns engenheiros de dados, por exemplo, passam muito tempo observando duas telas de um ambiente de desenvolvimento integrado para verem as diferenças entre os resultados. Com o aumento dos casos de uso simultâneos, essa abordagem manual atinge logo seus limites. Os líderes de dados precisam concentrar recursos na implementação de métodos de avaliação automatizados e mecanismos para gerir o versionamento, além de pontuações de relevância de dados para aumentar a precisão e a consistência dos resultados dos modelos multimodais.
Uma empresa de investimentos sabia que precisava melhorar seu acesso e uso de dados para implementar um assistente virtual. Para usar informações de produtos provenientes de fontes de dados estruturados e não estruturados, foi necessário criar pipelines de dados para analisar e processar dados não estruturados, identificar qual versão de cada documento era a mais recente e adaptar o tamanho dos artigos para usuários móveis. Os engenheiros de dados da empresa usaram capacidades de modelos multimodais para separar dados tabulares de documentos em dados estruturados e criar uma arquitetura medalhão (um padrão de design que é muito usado para organizar dados e que dá suporte ao desenvolvimento modular de pipelines). Além disso, eles introduziram versionamento e pontuações de relevância para aumentar a precisão dos resultados. Como consequência, a empresa conseguiu iniciar rapidamente o trabalho em casos de uso, como atividades de due diligence, com um ambiente de gen AI de nível de produção em duas semanas.
Criar dados quando eles não estão disponíveis
Alguns casos de uso de gen AI são difíceis de realizar porque os dados necessários são difíceis de obter e processar, o que costuma ser um problema nos setores de saúde, ciências da vida e outros setores com regulamentos rigorosos de segurança de dados. Em alguns casos, para superar esses desafios, um engenheiro de dados pode gerar manualmente um arquivo para testar a eficácia de um caso de uso. Entretanto, o processo pode ser demorado e ineficiente.
Em vez disso, os líderes de dados e IA estão investindo em ferramentas de gen AI para gerar dados sintéticos destinados a testes ou para produzir novos valores totalmente baseados nas descrições das colunas e no contexto das tabelas, o que lhes permite criar um conjunto de dados novo ou fazer revisões em um conjunto existente. Algumas empresas já usaram geradores de dados sintéticos para criar conjuntos de dados estatisticamente semelhantes.
Usar gen AI para acelerar a criação de produtos de dados reutilizáveis
Os produtos de dados, como uma visão de 360 graus de clientes individuais, são a base de como as empresas usam dados para gerar valor em escala para os negócios.3 Porém, o desenvolvimento desses produtos pode ser difícil e demorado. Com melhores dados e novas ferramentas de gen AI, no entanto, as empresas estão descobrindo que podem acelerar o desenvolvimento e melhorar os resultados. Por exemplo, uma empresa de hotelaria agilizou a criação de modelos de dados de domínio do cliente em até 60% e aumentou a produtividade da engenharia de características em 50%. Ela foi capaz de atingir essas marcas focando na geração automática de pipelines de transformação de dados de ponta a ponta no PySpark e de uma documentação robusta de todas as complexas transformações que ocorreram.
Mudar para a criação de produtos de dados de ponta a ponta
Até recentemente, a tecnologia disponível limitava a criação de pipelines de dados (como uma arquitetura medalhão) a uma trabalhosa abordagem passo a passo. Embora o uso de gen AI para executar tarefas, como gerar uma tabela individual a partir de linguagem natural, possa aumentar a eficiência dos engenheiros de dados, eles ainda precisam concluir uma série de outras etapas anteriores e posteriores, como combinar todas as tabelas.
Em vez disso, os líderes de dados e IA estão passando a adotar uma abordagem de ponta a ponta para criar pipelines de dados por meio da automatização de todas as etapas, obtendo, em alguns casos, uma economia de tempo de 80% a 90% e maior escalabilidade em casos de uso específicos.
Escrever o código do pipeline de dados para gerar produtos de dados tem sido tradicionalmente uma das tarefas mais demoradas para os engenheiros de dados. Agora, estamos vendo a criação automatizada de pipelines de dados escritos em linguagens como SQL ou Python para criar modelos inteiros, capazes de equacionar vários casos de uso de uma só vez. Em vez de considerar um escopo de trabalho modesto, como gerar uma tabela individual a partir de um prompt de linguagem natural, existem capacidades para gerar dezenas de tabelas como um modelo de dados-alvo coeso, capaz de fornecer soluções para múltiplos casos de uso.
Contudo, antes que uma organização possa começar a gerar esses tipos de capacidades, ela precisa garantir que possui dados confiáveis, facilmente compreensíveis e disponíveis. Para as empresas que vêm construindo seu acervo de dados há muitos anos, um elemento importante desse processo é entender suas bases de código legadas e seus dados existentes. Todavia, muitas empresas enfrentam dificuldades devido à fraca catalogação ou linhagem de dados, levando a um entendimento limitado de como seus dados são gerados. Em reação a isso, algumas empresas estão empregando uma variedade de agentes (aplicativos de gen AI) em múltiplos LLMs para analisar bases de código legadas e gerar descrições de texto em linguagem natural. Essa abordagem não apenas melhora a compreensão que a organização tem de sua base de código, como também facilita a criação de recursos de catálogo de dados, otimizando a identificação e a remoção de segmentos de código redundantes.
Melhorar a consistência com uma melhor orquestração e gestão de dados
O desenvolvimento de aplicativos de gen AI requer um grau de orquestração e modularização que permita a fácil reutilização de capacidades específicas. Em geral, os métodos tradicionais de integração contínua / entrega contínua (CI/CD, na sigla em inglês) não estão à altura da tarefa, porque não conseguem manter a consistência necessária entre os programas de gen AI devido à introdução de atividades específicas de gen AI, como engenharia de prompts.
Em resposta, alguns líderes de dados e IA estão usando estruturas baseadas em agentes, as quais facilitam a colaboração e coordenação entre múltiplos agentes de gen AI. Essas estruturas orquestram agentes de gen AI e as complexidades envolvidas no aumento da escala de seu uso (e reuso). As estruturas baseadas em agentes estão equipadas com capacidades de raciocínio, execução de código, uso de ferramentas e planejamento, além de gestão aprimorada de fluxos de trabalho. Elas podem ajudar a resolver as limitações associadas aos LLMs, como desafios de gestão de processos, erros de verificação cruzada e restrições de design de fluxo de trabalho de ponta a ponta. Ao incorporarem esses agentes a uma arquitetura de gen AI, as organizações podem gerir melhor as tarefas complexas e melhorar o desempenho geral, a confiabilidade, o valor e a satisfação do usuário. Algumas empresas estão tomando estruturas baseadas em agentes e empregando-as em chatbots voltados ao consumidor ou em sistemas de acesso a conhecimentos empresariais.
Para melhor gerirem seus produtos de dados, muitas empresas estão recorrendo a uma variedade de ferramentas. Algumas estão trabalhando com ferramentas prontas para uso, embora estas geralmente apresentam problemas em cenários complexos, como a geração automática de insights a partir de dados não estruturados. As organizações que usam catálogos de dados complementados por gen AI podem facilitar a marcação de metadados em tempo real, o que inclui a geração automática de metadados a partir de conteúdo estruturado e não estruturado e a criação de tags inteligentes. Isso tem o efeito de melhorar a descoberta de dados e auxiliar na seleção de dados estruturados e não estruturados apropriados para modelos de gen AI.
Migrar e modernizar produtos de dados
Antes de iniciarem o processo de uso de capacidades de gen AI, como tradução de código, para migrarem produtos de dados e seus pipelines subjacentes de uma plataforma para outra, as empresas precisam primeiro determinar qual é o LLM certo para essa tarefa. Embora muitas organizações usem LLMs fornecidos por seu provedor de serviços de nuvem, alguns deles podem ser treinados com mais proficiência em um conjunto de linguagens de programação do que em outros. Por exemplo, um LLM pode ser mais adequado para escrever código PySpark para pipelines, enquanto outro é mais eficiente no Terraform para desenvolver infraestrutura como código. As organizações podem usar esses LLMs para facilitar a migração para plataformas que usam PySpark ou SQL, embora, em alguns casos, dependendo da linguagem ou da estrutura de programação, ainda possa ser necessário fazer o ajuste fino de um modelo.
Ao entenderem quais LLMs devem ser usados para determinadas linguagens de programação – e como automatizar a tradução de códigos entre linguagens –, as empresas podem migrar melhor os pipelines de mainframes e serviços gerenciados preexistentes que já estão na nuvem para recursos de nuvem mais modernos. Identificar o LLM apropriado, porém, pode exigir tempo de teste adicional, o que os líderes de dados e IA devem levar em conta em seus roteiros de projetos.
Dar escala à gen AI com padrões de segurança e programação
Os líderes de dados e IA enfrentam grandes desafios na gestão e governança do uso de dados não estruturados, uso este que está em rápida expansão. A proliferação de modelos e aplicativos de gen AI não apenas introduz riscos, como também dificulta o ganho de escala, pois as equipes geralmente acabam usando ferramentas e abordagens diferentes – e, às vezes, conflitantes.
Ao protegerem os dados em todas as etapas do processo de desenvolvimento e automatizarem a integração das melhores práticas de programação, as empresas podem reduzir os riscos e aplicar padrões para dar escala às suas soluções de gen AI.
Proteger os dados em cada etapa
Dados não estruturados, como PDFs e arquivos de vídeo e de áudio, contêm uma grande quantidade de informações para modelos de gen AI, mas criam problemas de segurança significativos e exigem fortes controles de proteção de dados. Contudo, os controles de acesso tradicionais podem não ser suficientes. Os dados não estruturados, por exemplo, devem ser convertidos em um formato que um aplicativo de gen AI possa analisar para entender o contexto e para, então, gerar metadados que ajudem a determinar os direitos de acesso aos dados.
Para reduzirem os riscos de segurança, alguns líderes de dados e IA estão projetando pipelines modularizados capazes de proteger os dados automaticamente. Por exemplo, a extração de uma tabela de receita com anotações que abrangem várias páginas em um PDF exigirá a implementação do controle de acesso tradicional baseado na função, inclusive a ocultação de frases relacionadas no texto. Como os resultados da gen AI ainda são, muitas vezes, inconsistentes, os líderes de dados e de IA devem criar cuidadosamente controles de acesso seguros e consistentes e barreiras de proteção em cada ponto de verificação do pipeline de dados, desde a ingestão até a vetorização, passando pela geração aumentada de recuperação (RAG, na sigla em inglês) e o consumo pelos modelos de gen AI.
Integrar as melhores práticas de programação aos resultados de gen AI
Uma característica fundamental da escala é garantir a adesão consistente aos padrões aprovados e às melhores práticas de engenharia de dados. Isso pode ser um problema quando se usa código obtido diretamente de LLMs, em que a qualidade pode não atender às expectativas, porque, por exemplo, o código carece de contexto organizacional ou não se ajusta às estruturas-padrão usadas pela organização. Para ajudar a superar esses problemas e melhorar a qualidade dos dados, algumas organizações estão integrando as melhores práticas de programação a todo o código gerado por gen AI.
Outra abordagem é usar gen AI para analisar os valores das colunas, determinar as regras apropriadas para a qualidade dos dados com base nas regras existentes e, em seguida, integrá-las perfeitamente ao processo de geração de pipeline. As empresas costumam ter um conjunto comum de regras de qualidade de dados para produtos de dados, muitas vezes com apenas pequenas alterações conforme o caso de uso. As organizações que definem quais são essas regras – com os parâmetros corretos para ajuste a diferentes situações – podem desenvolver soluções de gen AI que lhes permitam adicionar automaticamente as regras a seus pipelines.
Há ferramentas de gen AI disponíveis para acelerar o desenvolvimento de produtos e plataformas de dados e melhorar seu desempenho. Entretanto, para usá-las de forma eficaz, as empresas terão que enfrentar uma ampla gama de desafios técnicos. Concentrar-se nos recursos de orquestração, automatizar os programas de desenvolvimento de dados e melhorar a usabilidade permitirá que os líderes de dados e IA ajudem sua organização a passar dos pilotos de gen AI para soluções em escala que geram valor real.