O VerticaPy é uma poderosa biblioteca Python que possibilita o uso de funcionalidades Scikit-Like para conduzir projetos de Data Science de dados armazenados no Vertica aproveitando a velocidade e os recursos de análise e Machine Leraning integrados do Vertica. O VerticaPy suporta todo o ciclo de vida de Data Science, usa um mecanismo de ‘pipeline’ para sequenciar as operações de transformação de dados (chamado Dataframe Virtual) e oferece várias opções para renderização gráfica. É a combinação perfeita da escalabilidade do Vertica e da flexibilidade do Python, trazendo um conjunto único e indispensável de ferramentas para Data Science.
E tudo isso ocorre onde deveria: no seu banco de dados. Ao agregar seus dados com o Vertica, você pode construir, analisar e modelar qualquer coisa sem modificar seus dados.
Recentemente, a equipe do Vertica lançou uma nova versão VerticaPy, que apresenta novos recursos que ajudarão qualquer organização a tirar o máximo do Vertica em termos de análise. A nova versão VerticaPy v0.5 tem como foco as funcionalidades de Hyperparameter Tuning, Time Series Analysis e Model Explainability, que são fundamentais para qualquer cientista de dados ser capaz de automatizar o máximo de tarefas possível de Machine Leraning.
O primeiro ponto é sobre o Hyperparameter Tuning, que testando muitas combinações de parâmetros, Grid Search e Randomized Search automatizam todo o processo.
Com o AutoML do VerticaPy fica ainda mais fácil entender qual algoritmo deve ser usado para criar o modelo final. O gráfico a seguir mostra o resultado do algoritmo VerticaPy AutoML. O tamanho da bolha equivale ao o erro de desvio padrão da pontuação do modelo. Uma pequena bolha no canto superior direito do gráfico ilustra um modelo performante e eficiente em comparação com os outros. Podemos ver claramente que, para este exemplo, a Random Forest supera os outros modelos.
Em seguida, você pode se concentrar em tarefas mais importantes, como Model Explainability. Na maioria das vezes, todos preferem um modelo simples. Quando é fácil de entender, é mais fácil agir. Linear Regressions com penalidade (também chamada de ElasticNet) são muitas vezes usadas devido à sua simplicidade. Ao usar testes estatísticos para fornecer informações como Multicollinearity, Endogeneity & Heteroskedasticity, é fácil manter um modelo linear estável. O VerticaPy permite que testes estatísticos no banco de dados validem hipóteses.
Mas e se estivarmos falando sobre Time Series (TS)? O processo será totalmente diferente. Ser rigoroso na análise de TS ajuda a criar um modelo eficiente e estável. Muitas ferramentas estatísticas estão disponíveis para análise de TS no VerticaPy. É fácil decompor o TS em 3 partes: Sazonalidade, Tendência e Ruído. Podemos então usar modelos TS para prever o ruído que verifica a hipótese de estacionariedade.
O VerticaPy fornece tudo o que um cientista de dados precisa para ter uma conversa real com os dados em escala…
*Postado originalmente em 01 de março de 2021 por Badr Ouali, Head of Data Science VERTICA.
Explore a biblioteca VerticaPy v0.5.
Quer saber mais sobre cómo usar VerticaPy? Entre em contato conosco!
0 Comments