Introdução
A transformação digital tem motivado organizações a revisitar suas infraestruturas tecnológicas, buscando eficiência, agilidade e competitividade. Nesse contexto, a migração do SAP ECC para o SAP S/4HANA se destaca como uma das estratégias adotadas por empresas que buscam modernizar seus sistemas de gestão. A transição para o SAP S/4HANA oferece inúmeras vantagens, mas também exige uma reavaliação da abordagem técnica e da arquitetura, especialmente no que diz respeito ao consumo e processamento de dados.
Nesse artigo, exploraremos as mudanças necessárias na arquitetura de dados para suportar a migração do SAP ECC para o SAP S/4HANA, tendo como base o cenário prático de migração em uma empresa usuária SAP. Abordaremos as principais ferramentas utilizadas do ecossistema de dados da SAP (Datasphere e Data Intelligence) e ferramentas SaaS e/ou PaaS, como o Databricks e recursos da Microsoft Azure (Data Factory e Data Lake). Além disso, discutiremos como a transição do processamento batch para o processamento em streaming impactou a operação e os ganhos obtidos com essa nova abordagem, bem como os desafios enfrentados durante a migração.
Abordagens arquiteturais:
SAP ECC
No cenário ECC, as execuções eram orquestradas através do Azure Data Factory. Quando um pipeline era iniciado, era feita a extração das tabelas previamente definidas em uma tabela de parametrizações, tendo os dados copiados para a camada stage por meio do serviço vinculado com o SAP.
Uma vez que os dados eram carregados na camada stage, o processamento continuava dentro do Databricks, onde os dados migravam sequencialmente pelas camadas stage, bronze, silver e, finalmente, gold (para mais detalhes sobre as camadas de dados, consulte What is a Medallion Architecture?). A transição da camada stage para a bronze envolvia a realização de um merge dos novos dados com aqueles já existentes na camada bronze. Esse processo de merge também ocorria entre as camadas bronze e silver. Por fim, as tabelas na camada gold eram atualizadas com os dados da silver.
Essa abordagem funcionou durante bastante tempo, porém trazia consigo dificuldades e lacunas como:
· Longo tempo de extração das tabelas, impactando a eficiência dos pipelines de dados.
· Interrupção da conexão com o SAP durante a extração de tabelas muito grandes, causando erros frequentemente.
· Complexidade na definição de cláusulas para cargas incrementais em determinadas tabelas, o que resultava no processamento repetitivo de dados.
· Gerenciamento de tabelas com linhas deletadas fisicamente, exigindo a realização de cargas completas para resolver inconsistências.
SAP S4/HANA
Com a migração para o S/4HANA, o consumo de dados do SAP passou a ser realizado via streaming, substituindo o antigo modelo de processamento em batch. Isso foi possível graças à implementação de uma estrutura que utiliza ferramentas do SAP, como as CDS Views, o Datasphere e o Data Intelligence, que replicam as alterações nas tabelas para o Data Lake usando o Change Data Capture (CDC), salvando os dados no formato Parquet.
A orquestração dos pipelines continuou a ser realizada pelo Azure Data Factory, porém sem a necessidade de conexão direta ao database do S/4 HANA. Assim, o Data Factory é responsável apenas por acionar os gatilhos que iniciam as execuções, enquanto todo o processamento de dados é realizado no Databricks.
Para a ingestão dos dados do Data Lake, passou-se a utilizar o Auto Loader, que possibilita a leitura e processamento incremental de arquivos a partir de um cloud storage (What is Auto Loader?), tanto em um fluxo contínuo quanto por agendamentos. No cenário em questão, por não existir a necessidade de atualização dos dados em uma frequência near real time, a ingestão dos dados para a camada bronze é no formato de streaming não-contínuo, ou nos termos corretos, micro-batch. Esse formato possibilita a ingestão dos novos arquivos sob demanda, com a garantia de que cada arquivo será processado uma única vez.
Para a atualização da camada silver é utilizado o Change Data Feed do Databricks, que assim como o CDC, pode ser utilizado como log de transação, pois registra todas as alterações aplicadas nas tabelas. Esse formato permite a realização do merge na camada silver apenas com os dados da camada bronze que foram modificados desde a sua última atualização. O processamento na camada gold continua da mesma forma que anteriormente.
Com a nova abordagem arquitetural, foram alcançados benefícios como:
· Eliminação da necessidade de cargas completas para tratar linhas deletadas. Agora, registros marcados como “Deleted” na coluna “Change_Type” permitem a exclusão direta das linhas deletadas.
· Processamento restrito apenas às informações realmente alteradas, evitando o reprocessamento de dados desnecessários.
· Maior agilidade para as equipes implementarem novos pipelines de dados, facilitando a adaptação às necessidades de negócio.
· Menor tempo necessário para a realização de manutenções, reduzindo interrupções e melhorando a eficiência operacional geral.
· Redução significativa no tempo de execução dos pipelines, viabilizando maior frequência na atualização dos dados e execução dos pipelines.
A migração para o S/4HANA trouxe muitos benefícios e novas possibilidades, mas não podemos negar que esse processo foi desafiador. Aqui listamos alguns dos desafios que o nosso time enfrentou:
· Adaptação da arquitetura, exigindo a integração do SAP Datasphere e Data Intelligence, além da adequação dos processos no Databricks e Data Factory.
· Necessidade de validações rigorosas para assegurar a consistência dos dados replicados, o que demandou que as equipes de dados concentrassem seus esforços exclusivamente nessa tarefa e interrompessem novas entregas.
· Alterações estruturais, como a unificação e/ou substituição de tabelas, que demandaram esforço extra para “reaprender” a abordagem das regras de negócio aplicadas pelo SAP em certas transações ou visualizações.
Conclusão
A migração do SAP ECC para o SAP S/4HANA representou uma mudança significativa na arquitetura de dados, marcada pela transição do processamento em batch para o streaming. Esse avanço exigiu não apenas a reestruturação na utilização das ferramentas existentes, mas também a adoção de novas tecnologias. Com essa nova abordagem, foram alcançados benefícios claros, como a eliminação de cargas completas desnecessárias e a redução do tempo de execução dos pipelines, o que elevou a capacidade de análise de análise de maiores volumes de dados pelas áreas de negócio, além de manter a lógica necessária para a operação da camada de dashboards, o que foi bastante desafiador.
À medida que a tecnologia evolui, surgem novas oportunidades e desafios, sendo fundamental que estejamos preparados para nos adaptar a essas mudanças. O sucesso na era digital depende da nossa capacidade de ver a tecnologia como uma aliada essencial, capaz de transformar desafios em oportunidades e gerar um impacto positivo tanto nas organizações quanto na sociedade. Ao fazer isso, não apenas potencializamos os negócios, mas também facilitamos a vida das pessoas. Nesse contexto, a DB, como parceira oficial do Databricks, está preparada para ajudar a lidar com as complexidades da migração para o S/4HANA, garantindo uma migração eficiente e segura. Com nossa experiência em soluções de dados e a parceria estratégica com o Databricks, auxiliamos empresas a extrair dados de ambientes SAP de forma eficiente e modelá-los no Databricks, criando bases de dados confiáveis que não apenas aceleram a tomada de decisões, mas também impulsionam a inovação, permitindo às organizações evoluírem de maneira ágil e competitiva.
Escrito por Lucas Klug Arndt (Engenheiro de Dados)