You've successfully subscribed to Polinize
Great! Next, complete checkout for full access to Polinize
Welcome back! You've successfully signed in
Success! Your account is fully activated, you now have access to all content.

NVIDIA acelera Apache Spark, a melhor plataforma de análise de dados do mundo

  • Uma Comunidade de Código Aberto compatível com Spark 3.0 com suporte nativo para GPU NVIDIA;
  • Processamento de ETL e SQL ultrarrápido com centenas de terabytes de dados;
  • O Adobe atinge sete vezes mais aceleração do que o modelo com Spark 3.0 nos Databricks

Santa Clara, Califórnia, GTC 2020, 14 de maio de 2020 - Uma empresa NVIDIA anuncia que está colaborando com as líderes da comunidade de código aberto para disponibilizar uma aceleração de GPU de ponta na ponta do Apache Spark 3.0, um mecanismo de análise para processamento de dados muito usados ​​por mais de 500 mil cientistas de dados no mundo todo.

Com o tão aguardado lançamento do Spark 3.0, pela primeira vez, os cientistas de dados e engenheiros de aprendizado de máquina podem aplicar uma aceleração da GPU revolucionária para cargas de trabalho de processamento de dados de ETL (extrair, transformar e carregar | extrair, transformar e carregar, em português) amplamente conduzido com o uso de operações de bancos de dados SQL.

Em outro feito, o treinamento de modelos de IA pode ser processado no mesmo cluster do Spark, em vez de executar como cargas de trabalho como processos separados em infraestruturas selecionadas. Isso permite a análise de dados de alto desempenho em todo o pipeline de dados de ciência, aceleração de milhares de terabytes de dados, lago de dados no treinamento de modelos, sem qualquer alteração no código usado para aplicações de Spark executados em instalações e na nuvem.

“Uma análise de dados é o maior desafio do desempenho de alto desempenho que as empresas e pesquisadores de hoje enfrentam”, afirma Manuvir Das, chefe de Enterprise Computing da NVIDIA. “Uma aceleração nativa da GPU para todo o pipeline do Spark 3.0 - para ETL ao treinamento e inferência - para manter o desempenho e a escala necessária para conectar finalmente o potencial de big data com o poder do IA.”

“Spark 3.0 é um grande avanço para melhorar a análise de dados e economizar tempo necessário e custos. Será uma grande adição ao trabalho dos cientistas brasileiros e de toda a América Latina ”, explica Marcio Aguiar, gerente sênior da NVIDIA Enterprise para a América Latina.

Aproveitando sua parceria da IA ​​estratégica com a NVIDIA , a Adobe é um inovador que tem trabalhado com uma versão de respostas do Spark 3.0 em execução no Databricks. Um Adobe alcançou uma melhoria de desempenho sete vezes superior e uma economia de custos de 90% no teste inicial, usando análise de dados acelerada por GPU para desenvolvimento de produtos no Adobe Experience Cloud e recursos de suporte que impulsionam os negócios digitais.

Os ganhos de desempenho no Spark 3.0 aprimoram a precisão do modelo, permitindo que os pesquisadores treinem modelos com conjuntos de dados maiores e se recuperem com mais frequência. Isso torna possível processar terabytes de novos dados todos os dias, ou seja, fundamental para os cientistas de dados que suportam sistemas de recomendação on-line ou analisar novos dados de pesquisa. Além disso, um processamento mais rápido significa que são menos recursos de hardware para fornecer resultados, reduzindo uma economia significativa de custos.

“Estamos vendo um desempenho mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com o Spark em CPUs”, explica William Yan, diretor sênior de aprendizado de máquina da Adobe. "Com esses desempenhos de desempenho da GPU, você pode alterar o jogo, novas possibilidades podem ser aprimoradas para recursos orientados por IA no nosso conjunto completo de aplicações Adobe Experience Cloud."

Databricks e a NVIDIA trazem mais velocidade para o Spark

O Apache Spark foi criado pelos fundadores dos Databricks, cuja plataforma unificada de análise de dados com base na nuvem é executada no mais de um milhão de máquinas virtuais todos os dias . A NVIDIA e os Databricks também têm colaborado para otimizar o pacote de software RAPIDS ™ para os Databricks, levando a aceleração da GPU para cargas de trabalho de ciência e dados de pesquisa e testes de máquinas executadas em bancos de dados nos setores de saúde, investimentos , varejo e outros.

“Nosso trabalho contínuo com a NVIDIA melhora o desempenho com otimizações de RAPIDS para Apache Spark 3.0 e Databricks para beneficiários nossos clientes em comum, como Adobe”, conta Matei Zaharia, criador original do Apache Spark e técnico chefe de Databricks. “Essas contribuições levam a pipelines de dados, treinamento e pontuação de modelos mais rápidos, que se traduzem diretamente em mais descobertas e insights para nossa comunidade de engenheiros de dados e cientistas de dados.”

Transferências de dados e ETL mais rápidos no Spark com GPUs NVIDIA

A NVIDIA está contribuindo para um novo acelerador RAPIDS ™ de código aberto para o Apache Spark para ajudar os cientistas a aumentar o desempenho de seus pipelines de ponta a ponta. O acelerador intercepta como funções operadas anteriormente pelas CPUs e, em vez disso, utiliza GPUs para:

  • Acelere os pipelines de ETL no Spark, melhorando consideravelmente o desempenho das operações do Spark SQL e DataFrame sem alterar o código.
  • Acelerar a preparação de dados e o treinamento de modelos no mesmo conjunto de infraestruturas, em que um cluster separado não é necessário para o aprendizado de máquina e aprendizado profundo.
  • Acelerar ou executar o desempenho de transferência de dados em um cluster distribuído pelo Spark. Essas bibliotecas usam a estrutura de código aberto UCX (Comunicação Unificada X) e minimizam a latência, permitindo que os dados sejam movidos diretamente entre a memória da GPU.

Uma versão de respostas do Spark 3.0 está disponível agora pela Apache Software Foundation, com uma disponibilidade geral esperada nos próximos meses. Para obter mais informações, acesse https://www.nvidia.com/pt-br/deep-learning-ai/solutions/data-science/apache-spark-3/ .