O Guia do Viajante pela História da Data Science

Uma breve viagem por uma história com mais de 50 anos.

De onde vem tudo o que faço em data science ?

Provavelmente já terás perguntado isto a ti mesmo umas quantas vezes durante o teu percurso nas das artes da data science. 

Curioso?

Proponho-te embarcarmos numa viagem – em que eu serei a guia turística – pela evolução da data science, para perceberes de onde vem o que fazemos todos os dias e que lições poderemos aprender da sua história. 

Pré-Data Science

O estudo sistemático de dados com vista à obtenção de conhecimento sempre foi parte da matemática e de outras disciplinas, como a epidemiologia (onde podemos encontrar, por exemplo, a história do médico John Snow, pai da epidemiologia, e de como o seu estudo sistemático dos outbreaks de cólera em Londres lhe permitiu descobrir a origem da epidemia). No entanto, foi apenas em 1962, numa peça escrita por John W. Tukey, com o título “O Futuro da Análise de Dados” que podemos ler a primeira descrição aproximada do que viria, quase 50 anos depois, a tornar-se na profissão de data scientist:

Durante muito tempo pensei que era um estatístico, interessado em inferência estatística do particular para o geral. Mas enquanto observo a estatística matemática a evoluir, fico a pensar e a duvidar….sinto que o meu interesse central é a análise de dados…. Análise de dados e a estatística que serve este propósito precisam de…incorporar as características da ciência em vez da características da matemática… a análise de dados é intrinsecamente uma ciência empírica…. Quão vital e importante…é a ascensão dos computadores capazes de guardar instruções em programas. Em muitas instâncias a resposta pode surpreender por ser “importante mas não vital” enquanto que em outras instâncias não há dúvida que o computador tem sido “vital”. – John W. Tukey

img-2

John Tukey (1915-2000), o primeiro matemático a definir o que viria a ser a profissão do data scientist.

John W. Tukey acabou por publicar outro trabalho importante “Análise de Dados Exploratória” em 1977, onde descreve em pormenor o âmbito e uso da estatística aplicada, por exemplo, estatística usada em benefício de outra área de conhecimento. 

Após a II guerra mundial, muita da tecnologia que havia sido criada para o esforço de guerra, encontrou usos na vida quotidiana das populações. Uma destas tecnologias foi o ENIAC, que pavimentou o caminho para a criação das mainframes IBM/360 do início dos anos 60. Estes computadores eram ainda enormes e complexos mas geríveis, ao contrário do ENIAC. Eram acessíveis o suficiente para se terem tornado parte de campus universitários um pouco por todo o mundo, tornando-se assim parte da educação dos futuros engenheiros electrotécnicos e informáticos. Estatísticos aplicados e futuros programadores encheram estas salas de programação e lideraram o caminho. 

img-4

IBM System/360 Model 50 CPU, consola de operador de computador e periféricos, na Volkswagen.

O ambiente levou a que estatísticos aplicados começassem a desenvolver a sua própria identidade e a questionar a sua existência enquanto comunidade. As “data sciences” (porque ainda não tinham adotado este nome) incluíam todas as áreas de conhecimento que analisassem dados, independentemente do domínio de especialização (com exceção da matemática pura) desde a bioestatística, a psicometria, a estatística social e educacional, a epidemiologia, a econometria e outras áreas de estudo, ainda estavam englobadas no termo. A estatística aplicada à gestão (também conhecida como Business Intelligence) ainda não existia. 

Por esta altura, os estatísticos aplicados estavam a tentar distinguir-se de programadores, especialistas em áreas de conhecimento e matemáticos. Aquilo que faziam incluía um pouco destes 3 grupos e no centro estavam os dados.

Nos anos 50 e 60, programava-se sobretudo em Fortran, COBOL e um pouco em Algol. Os estatísticos aplicados ainda tinham bastantes problemas em programar de forma independente, dado que estas tecnologias eram bastante ineficientes e pouco fiáveis. Parafraseando Dr. McCoy:

Sou um estatístico aplicado, não um programador de computadores” – Dr. McCoy

Com a chegada do final dos anos 60, chegaram também os programas dedicados apenas à estatística, como o BMDP, e mais tarde, o SPSS, o SAS – e os estatísticos não podiam estar mais felizes.

Como estes programas eram caros e muitos deles só corriam em mainframes, a maior parte da programação desta altura, acontecia somente em universidades e grandes empresas.

Conduzir uma análise estatística nesta altura era um trabalho laborioso. Tinhas de escrever os teus próprios programas de raiz (alguns usavam linguagens de programação como o FORTRAN, outros as linguagens embebidas no SAS e SPSS). Não existiam interfaces gráficas ou programas para a escrita do código. 

Assim que terminavas a escrita à mão do teu programa de análise de dados, terias que ir para a fila, para usares uma máquina perfuradora de cartões onde poderias transferir o teu código e dados para cartões perfurados – que seriam lidos pelo computador. E depois, pegar na tua pilha de cartões perfurados e ir para uma segunda fila, para que eles pudessem ser lidos pelo leitor e processados pelo computador. Num dia bom a máquina não emperrava….muito.  Finalmente esperavas que a mainframe lesse e corresse o teu programa e que imprimisse os resultados. Por vezes, o resultado era apenas uma página de códigos de erro, que terias de decifrar para decidir o que fazer a seguir… apenas para o processo começar do 0, outra vez.

Os anos 70 e 80 permitiram finalmente a criação de computadores pessoais e as mainframes tornaram-se acessíveis a empresas de média e pequena dimensão. Por essa altura, o software de estatística cresceu e saiu do meio académico. Criou-se um mercado de estatísticos aplicados que aprenderam a trabalhar com uma mainframe usando SAS e SPSS e que queriam fazer o mesmo no local de trabalho. 

O Nascimento de Uma Nova Área de Conhecimento

Durante os anos 80 e 90, o boom da tecnologia e depois o da internet, gerou o empurrão necessário para que se desse também o boom da estatística aplicada – agora sim, a data science.

Softwares de estatística a preços acessíveis multiplicaram-se como coelhinhos. Todos eles tinham interfaces gráficas (GUIs) – ainda que muito estranhas e quase impossíveis de utilizar pelos standards actuais. Até os aclamados SAS e o SPSS evoluíriam para interfaces que incluíam o uso do rato (mas que permitiam continuar a escrever código, se quisesses). A meio dos anos 80 já conseguias correr uma análise estatística complexa no tempo em que bebes um café…desde que o computador não “crashasse”.

No ano de 1980, as vendas de computadores pessoais chegaram a um milhão anual nos Estados Unidos. Um ano depois, quando a IBM introduziu o 8088 PC, as vendas dispararam e a venda de computadores compatíveis com a IBM chegou ao valor de 200 milhões de unidades por ano. Já durante os anos 90, impulsionado pelos Pentiums, GUIs, a internet e software acessível e a um preço razoável (incluindo software de estatística) o uso da tecnologia tornou-se ubíquo. Os gigantes da MITS e ALTAIR desapareceram e a Microsoft sobreviveu, evoluiu e tornou-se líder de mercado. 

O desenvolvimento e maturação da internet também abriu a porta a novas oportunidades. O que outrora estava confinado a livros caros e bibliotecas inacessíveis, agora era facilmente alcançável através da internet, com apenas alguns cliques. Se não conseguias encontrar um website dedicado ao que procuravas, certamente que havia um grupos de discussão dedicado a isso, onde poderias escrever sobre os teus desafios e procurar ajuda. Dados e conhecimento ficaram acessíveis a todos. 

Alguns dos PCs comprados estavam, sem dúvida, a ser usados para estatística. Nos anos 80, o “Lotus 1-2-3” tornou-se um pioneiro nos softwares de folha de cálculo, rapidamente ultrapassado pelo Microsoft Excel, que ainda domina o mercado nos dias de hoje.

img-6

Lotus 1-2-3 a correr num MS-DOS.

Com a disponibilidade de mais computadores e mais software de estatística, seria de esperar um aumento na quantidade de análises estatísticas. Apesar de ser uma uma tendência difícil de quantificar, consideremos o número de sondagens políticas nos EUA como referência e as empresas dedicadas a sondagens. Antes de 1988, a média era apenas de 1 a 2 sondagens políticas por mês. Após uma década, este número tinha subido para mais de uma dúzia. Esta tendência é semelhante à observada com o aumento das vendas de PCs e de softwares de estatística, como o SPSS. Não podemos argumentar que a correlação é a causa nesta situação mas as semelhanças observadas são interessantes. 

Mais revelador é o aumento do número de empresas de sondagens. Antes de 1990 a larga maioria das sondagens eram realizadas pela Gallup Organization, já nos dias de hoje, há dezenas e dezenas de empresas e que são cada vez mais especializadas no tipo de sondagem que fazem, por tópico, demografia, idade, género e área geográfica (entre muitos outros subsets da população). A internet abriu o caminho para que mais e maiores sondagens sejam realizadas ao longo dos anos.

Com a proliferação dos computadores e dos software de estatística, e o aumento da respetiva acessibilidade, tornou-se comum as universidades incluirem nos seus programas cadeiras de estatística adaptados às diferentes licenciaturas. O que consequentemente levou os empregadores a aperceberam-se da oportunidade económica de pedir aos seus jovens colaboradores análises estatísticas relativas às suas empresas. Enquanto muitos dos directores não sabiam (e alguns ainda não sabem) acertar o relógio nos seus microondas, conseguiram perceber o valor económico da análise de dados e exploram todas as oportunidades relacionadas com isso. 

Enquanto a estatística aplicada evoluía a olhos vistos, durante os anos 80 e 90, o seu suporte tecnológico sofreu um boom igualmente importante. As bases de dados relacionais e o SQL tornaram-se moda, os PCs tornaram-se mais rápidos e os discos rígidos ficaram com maior capacidade e mais acessíveis. Isto levou ao nascimento da data warehousing e à emergência da Big Data. Big Data por si trouxe a mineração de dados (Data Mining) e à modelação de black box. A Business Intelligence  surgiu em 1989, sobretudo nas grandes empresas. 

Nos anos 90, a tecnologia sofreu o seu maior desenvolvimento: a internet crescia, surgiam os motores de pesquisa como a Google , mas também novas tecnologias para lidar com a quantidade de dados crescentes, como o Hadoop

Linguagens open source como o R e o Python trouxeram independência para os estatísticos aplicados que agora se viam libertos dos ambientes universitários e das grandes empresas. Este software era gratuito e open source, acessível a todos. 

É então em 1996 que a International Federation of Classification Societies se tornou a primeira conferência a colocar a Data Science como tópico. 

Estatísticos aplicados ganharam um título que os reunia a todos. São mais do que estatísticos, são data scientists. 

O Presente

A partir de 1996 o crescimento da data science tem sido exponential. Não só as tecnologias e o software se diversificaram, como outro fator aumentou significativamente: o financiamento. 

img-8

Financiamento disponível para pesquisas nas áreas da matemática/ ciências da computação entre 1978 e 2017.

Financiamento de projectos específicos, para aplicar técnicas computacionais e estatísticas em várias áreas do conhecimento, aumentaram muito como podemos observar no gráfico, em áreas tão diversificadas como gestão, medicina, saúde pública, política e geografia. 

David Donoho capturou o sentimento atual dos estatísticos, no seu discurso em 2015, no Tukey Centennial workshop (traduzindo):

O data scientist é um profissional que usa métodos científicos para derivar conhecimento de dados no seu estado bruto… Estatística significa a prática da recolha e análise de dados numéricos em largas quantidades.

Para um estatístico [a definição de um data scientist] soa demasiado próxima daquilo que um estatístico aplicado faz: usar trabalho metódico para fazer inferências sobre dados…a definição de estatística parece, em si, já conter toda a definição de um data scientist…

A profissão de estatístico está neste momento numa situação confusa. As actividades que a ela foram alocadas durante séculos estão agora nas bocas do mundo, mas essas mesmas actividades, que são encaradas como novidade, estão agora a serem realizadas por pessoas estranhas à estatística. ” – David Donoho

E chegamos a 2012 e ao artigo da Harvard Business Review que declarou o data scientist como o emprego mais sexy do século XXI. O artigo, por Davenport e Patil, descreve um data scientist como um “profissional altamente qualificado com a aprendizagem e curiosidade de criar conhecimento dentro do mundo da big data.”.

Este artigo pôs a data science no centro da atenção do público. Nos dias de hoje, onde existem dados, provavelmente existem empresas a tentarem utilizá-los e a rentabilizar esse uso. 

Mas não podemos esquecer a história.

Enquanto a maioria das pessoas pensa que a inteligência artificial (AI) é uma área de estudo recente, parecida com a ficção científica, os seus primeiros desenvolvimentos vêm do início do século XX, no desenvolvimento do piloto automático para aviões e embarcações, que agora nos levará a carros e camiões autónomos. Computadores, possivelmente a cara da AI, começaram o seu desenvolvimento nos anos 40. O reconhecimento de voz começou o seu desenvolvimento nos anos 50 e já chegou ao ponto em que hoje podemos ter conversas com a Siri ou a Alexa.

E mesmo depois de 50 anos de desenvolvimento ainda argumentamos qual a verdadeira definição da data science e os seus domínios de acção .

Enviesamento, justiça, privacidade e segurança são temas que estão na berra – enquanto caminhamos para um mundo em que esperamos trabalhar com a ajuda dos computadores, não dominados por eles. 

O Futuro?

Podemos lidar com dados todos os dias, mas ninguém possui uma bola de cristal capaz de prever o futuro, pelo menos por agora. ????

O que nos trará o futuro da data science? As promessas são muitas mas vejamos as participações na Web Summit 2021 para ver 2 tendências que são para já observáveis. 

img-10

Redes neuronais e NLP emparelhados para formar um gerador de letras de música hilariante.

Processamento de Linguagem (NLP) está em expansão

O lançamento do modelo Generative Pre-trained Transformer 3 (GPT-3) em 2020, a par com o desenvolvimento de novas estruturas de redes neuronais como as LSTM’s estão a provocar um aumento considerável na acessibilidade das técnicas de NLP para o cidadão comum. O NLP veio para ficar!

Empresas como a Textmetrics e a Rytr estão a trazer o poder da AI para as tarefas comuns de escrita do nosso dia a dia. E a AI está a ser usada em conjunto com o NLP para criar brinquedos tecnológicos como este, que te permite criar letras de músicas originais! ????

Mas nem tudo o que brilha é ouro e por vezes as técnicas de NLP falham drasticamente, especialmente em tradução. No futuro, as empresas assumirão mais responsabilidade relativamente aos seus erros de tradução e situações como a do homem que foi preso devido a um erro de tradução do software de tradução do Facebook serão evitadas, esperemos.

Data Privacy e Synthetic Data estão a ganhar importância

Depois do escândalo da Cambridge Analytica, que em 2017 mostrou ao público o quão fácil é recolher dados massivamente sobre pessoas sem o seu conhecimento, a privacidade dos dados (Data Privacy and Protection) tornou-se um tópico de discussão.

O público quer saber que os seus dados estão seguros e são usados eticamente. Nesta área, duas empresas estão a mostrar-se muito promissoras.

Começando com a Ydata, que surgiu da mente de brilhantes engenheiros portugueses, para se dedicar a ajudar os seus clientes com a qualidade dos dados e a sua acessibilidade, e que cresce perante os nossos olhos. A empresa dedica-se a apoiar data scientists com os seus dados e são prós no que fazem. São conhecidos por promoverem o uso de dados sintéticos (Synthetic Data), dados que são artificialmente criados para manter as propriedades estatísticas do dataset original, permitindo que modelos alimentados por dados sensíveis sejam colocados em produção apenas com dados sintéticos, assegurando que o dataset original permanece seguro e intacto. Para além disso, no seu site, partilham valiosas ferramentas de open sources e gerem uma comunidade dedicada a Synthetic Data.

De seguida, venho falar-vos da Ethyca, uma empresa americana dedicada à privacidade dos dados. Com o mote “data privacy by design” educam e ajudam profissionais dos dados a terem a privacidade dos dados no foco do seu trabalho e partilham com a comunidade de data science um toolstack chamado Fides, para que a implementação destas medidas seja mais fácil para um profissional, dentro de todas as operações de um projecto de data.

Considerações Finais

A história ensina-nos muitas lições… quais podemos retirar da história da data science?

1 – Não tomes os dados por garantidos – dados acessíveis não eram uma coisa normal no passado. E enquanto, nos dias de hoje, a população partilha os seus dados abertamente, problemas éticos e de privacidade são uma constante. Devemos preocupar-nos em conhecer como operar dentro de frameoworks de ética enquanto o tsunami de dados vai crescendo. E não esquecer que muitos destes dados são ainda não estruturados, levando à criação de novos métodos e análises.

2 – Pensa em grande – big data exige análises igualmente grandes. Enquanto a tecnologia se vai desenvolvendo, com ela também devem evoluir as nossas técnicas de high performance computing. Novos métodos de data mining e análise preditiva aparecem todos os dias e computação quântica está no nosso futuro enquanto profissionais de data science. Mantém-te curioso e informado.

3 – Conhece e trabalha de acordo com o teu contexto – no passado a maioria dos profissionais de dados trabalhavam no setor da tecnologia, nos dias de hoje, trabalham nas mais variadas indústrias, ajudando empresas a tomar decisões baseadas em dados e a melhorar os seus métodos de trabalho. Para sermos bem sucedidos, data scientists precisam de conhecer profundamente a indústria e desenvolver competências de comunicação e tomada de decisões estratégicas. 

No final uma coisa é certa, querido viajante: a procura do mercado por data scientists vai sempre existir. Enquanto houver dados para estudar, deverão sempre existir profissionais qualificados para os analisar.