Bootcamp de Dados na TW — Dia 1

Lorena de Souza
3 min readFeb 3, 2019

Com muita alegria a comunidade de Dados da TW de Belo Horizonte trouxe nos dias 02 e 03 de Fevereiro o primeiro boot camp de Dados de 2019 para cidade de Belo Horizonte. Tivemos a participação de 20 pessoas de diversos lugares Belo Horizonte, Rio de Janeiro, Porto Alegre e outras cidades de Minas Gerais. O evento só ocorreu pela parceria das pessoas dessa foto, do Data Bootcamp e da Thoughtworks.

Pessoas diversas felizes com o fim da parte 1 do Data Bootcamp — Domingo 18:00

Foram muitas as práticas com a galera do Data Bootcamp. No sábado tivemos um momento inicial para colocar todas as pessoas na mesma página. Praticamos diversos aspectos da linguagem Python ❤, desde estruturas de dados (como listas, dicionários, tuplas e etc) à construção de funções. Num segundo momento do sábado, aprofundamos na biblioteca mais famosa de dados do Python — Pandas ❤ ❤.

Pandas é uma ferramenta bastante poderosa. Exploramos vários aspectos da ferramenta como por exemplo, onde ocorre o armazenamento dos dados (em memória), quando devemos usar o Pandas (quando a quantidade de dados que queremos trabalhar não for grande suficiente para ocupar toda a memória local). Vimos também o que é um dataframe e as diversas operações que podem ser aplicadas sobre seus registros. A operação que mais me chamou atenção foi a "Apply". Essa operação permite você rodar uma função pré-definida ou criada por você para cada registro de um dataframe. Imagina que queira calcular um valor com base em outros valores daquele registro, então basta criar a função de cálculo e passar como um parâmetro da operação apply(function). O Pandas faz tudo por você. Aqui tem um exemplo do Apply.

Para finalizar o sábado, fomos apresentadas a uma biblioteca também bastante usada para plotar gráficos chamada Matplotlib. Na vida de um Data Scientist ter uma forma amigável de consolidar e mostrar seu trabalho é tão fundamental quanto ter o próprio dado em si. Como disse meu colega Caique “a cadência de prática e teoria” que a galera do Data Bootcamp trouxe foi excelente! Foi divertido e produtivo, mesmo no auge de um sábadão!! :D

Enquanto no sábado trabalhamos com uma quantidade de dados mais modesta e suas diversas formas de manipular e extrair possíveis conhecimentos, no domingo já avançamos para técnicas quando é importante manipular dados em escala muuuuuiiitooo maior. A partir daqui as práticas foram bem conectadas com o que empresas praticam quando há um alto volume de dados. Daqui em diante iniciamos as práticas com nosso amigo Spark.

Há tantos aspectos legais para falar do Spark que vamos deixar para um post único! ❤

Todas as práticas do final de semana ocorreram na ferramenta mais famosa da área de Big Data chamada Jupyter com Python 3.

Se você tem interesse em conhecer o trabalho do Data BootCamp acessa o site ae: www.databootcamp.com.br

No próximo final de semana, fecharemos o Data Bootcamp com os temas de processamento em batch e streaming usando Spark. E Machine Learning usando diversas bibliotecas além da SparkML.

Qualquer dúvida, curiosidade ou feedback entre em contato!

Foto: *_*

Felipe do Data Bootcamp apresentando como o Spark executa suas operações aqui na TW

--

--