
Uma árvore de decisão em ciência de dados é uma ferramenta de suporte à tomada de decisão que usa um gráfico no formato de árvore e demonstra visualmente as condições e as probabilidades para se chegar a resultados.
O algoritmo utilizado para chegar na representação visual da árvore pertence ao grupo de aprendizado de máquina supervisionado, e funciona tanto para regressão quanto para classificação.
Neste estudo exploratório que apresentamos, foi usada uma árvore de regressão para prever investimentos em ciência, tendo em vista alavancar a inovação e o desenvolvimento no Estado do Paraná.
Contexto do Estudo Exploratório
A tomada de decisão para alocação de recursos públicos para investimento em inovação segue diversos critérios baseado em evidências e políticas públicas. Neste contexto, o estado do Paraná vem realizando diversos estudos e parcerias para maximizar o retorno dos investimentos públicos, tendo em vista alcançar os melhores resultados para o desenvolvimento territorial.
Na Tabela 1 é possível ver o somatório da produção de patentes, produtos e aplicativos (que juntos chamamos de tecnologias), desenvolvidos pelos professores permanente dos Programas de Pós Graduação (PPG), a quantidade de professores de PPG, e o total de PPGs no Estado do Paraná, entre os anos de 2013 até 2016.

Nos gráficos abaixo é possível ver a proporção de produção de patentes, produtos e aplicativos (que juntos chamamos de tecnologias), desenvolvidos pelos PPG no Estado do Paraná, entre os anos de 2013 até 2016, bem como a quantidade de professores por PPG, distribuídos por cidade.
Os gráficos permitem identificar lacunas de investimentos no território paranaense, as quais sinalizam potenciais técnicas de ciência de dados que podem auxiliar na visualização de cenários que atendam às demandas do estado.

No gráfico 1 vemos que há cidades onde somente existiam programas de pós-graduação estaduais, como Paranavaí, Maringá, M. C. Rondon, Jacarezinho, Irati, Guarapuava, Francisco Beltrão, Cascavél, Campo Mourão e Bandeirantes.

No gráfico 2, observamos que algumas cidades, embora possuam PPG, não apresentam patentes registradas entre os anos de 2013 e 2016.

Da mesma forma que as patentes, existiam algumas cidades que não possuem produtos registrados entre os anos de 2013 e 2016. Em ambos os gráficos 2 e 3 é possível notar maior produção de patentes e produtos em instituições federais e estaduais.

No gráfico 4, nota-se que a produção de aplicativo se destaca nas instituições estaduais
e federais. Neste caso, as instituições particulares são observadas apenas nas cidades de
Londrina e Curitiba.
Árvore de regressão aplicada ao território do Paraná
Neste post ilustramos a aplicação de um, dos vários modelos disponíveis para apoiar a tomada de decisão na alocação dos recursos que devem ser aplicados em ciência, tecnologia e inovação, como segue:
Hipótese conceitual: Quanto maior o número de programas com alta qualificação (Conceito Capes) e professores em uma região, mais patentes, produtos e tecnologias com potencial de inovação são produzidos.
Tecnicamente, nossas variáveis preditoras X foram: Professores por programa, Conceito Capes (3, 4, 5, 6 ou 7), Status Jurídico (Instituição Estadual, Federal ou Particular).
Já a nossa variável dependente (Y) foram: Patentes + Produtos + Aplicativos, as quais somadas chamamos de Tecnologias.
Os dados foram retirados das Plataformas Lattes e Sucupira. Os dados coletados são do período de 2013 até 2016.
Nos testes descritos nas figuras 1 e 2 é possível verificar a acurácia dos valores previstos versus valores reais. A coluna da esquerda tem a quantidade de professores por programa, dependendo do seu conceito Capes e status jurídico, a coluna do meio tem os valores das tecnologias produzidas pelos professores desses programas, e a coluna da direita apresenta os valores preditos pelo modelo aplicado à arvore. Os resultados dos testes mostram que não existe “overfiting“, e esse mesmo modelo pode ser generalizado para outros contextos de dados.


Foi utilizado um algoritmo com regressão de poisson (regressão não linear) para calcular os valores previstos de produção de tecnologias por professor, por PPG, tendo em vista a não linearidade e não normalidade dos dados. Cientes disso, apresentamos a árvore propriamente dita:

Na árvore é possível ver que a média prevista de produção de tecnologias (soma dos produtos, patentes e aplicativos) por professor e por programa no Estado do Paraná é de 3,6 (raíz da árvore), em quatro anos.
Se o programa que o professor participa tem conceito igual a 3, 4 ou 5 a média prevista de produção de tecnologias por professor em quatro ano é de 3,3, em 96% dos dados.
Ao analisar individualmente por conceito Capes, temos o seguinte contexto de previsão em um recorte temporal de quatro anos:
a) se for um professor de um programa com conceito 3, a média prevista é de 2,3, em 46% dos dados;
b) se for 4 ou 5 o conceito do programa, a média prevista de produção é 4,1 em 50% dos dados.
c) neste contexto dos programs com conceito 3, se a instituição for estadual ou particular, a média prevista de produção de tecnologias é de 4,5 por professor, e se for um programa de instituição federal a média prevista é de 2,6.
d) curiosamente, nos programas com conceito 3, com quantidade de professores acima ou igual a 14, a produção de tecnologias é de 3,4 a média prevista, mais baixa que a media prevista de 6,4 por professor, nos programas também com conceito 3, mas com menos de 14 professores. Neste perfil ainda, se a instituição for estadual ou federal, a média prevista sobe ainda mais, para 11 por professor, contra 4 por professor, em programas de instituições particulares.
e) os programas mais produtivos no Paraná são os que tem conceito 6 e 7, independentemente de ser estadual, federal ou particular. Nesses programas a média prevista de produção de tecnologias por professor vai para 12, e isso somente ocorre em 4% dos dados.
Conclusões
Existem duas formas de pensar os investimentos a partir dos resultados. Do lado esquerdo da árvore podemos pensar nos investimentos para melhoramento de uma grande quantidade de PPGs os quais representam cerca de 96% dos dados do modelo, que são os programas com conceito Capes 3.
Pode-se começar o investimento a partir dos programas com conceito 3, de instituições
estaduais e particulares, que possuem menos de 17 professores permanente por PPG (terceira folha da árvore), pois este perfil de programa é o que possui a média mais baixa de produção de tecnologia por professor, somente 0.86. Esse resultado indica onde há fragilidades e sinaliza a adoção de estratégias de curto, médio e longo prazo para alcançar os resultados pretendidos.
Inferimos também que o investimento no aumento da qualidade dos programas de pós-graduação, para que eles alcancem o Conceito 6 ou 7 (última folha da árvore), provê um retorno considerável, pois essa faixa é a que mais produz tecnologias com potencial para inovação. Além disso, é preciso continuar o investimento nos programas com conceito 6 e 7, para que continuem inovando.
Com a árvore ainda podemos ver que investir em programas e professores com maior potencial para produzir tecnologias, como por exemplo, os professores dos programas que tem até 20 professores permanente e conceito 3 (folha 5 da árvore), de instituições federais, ou de instituições particulares (folha 7), pode ser uma boa iniciativa para induzir uma alavancada na inovação do Paraná.
A tomada de decisão apoiada em evidência visa maximizar os resultados de investimentos para o desenvolvimento dos territórios brasileiros, na área de gestão pública. Nessa perspectiva, árvores de regressão são ferramentas com grande poder de representação de dados com alta complexidade, além de serem intuitivas e interpretáveis. Contudo, a modelagem dos dados deve ser muito bem arquitetada para que os resultados sejam satisfatórios. A ciência de dados pode ajudar os gestores na criação de políticas públicas e direcionamento de recursos de forma precisa, tendo em vista alcançar bons resultados no sistema de inovação e na geração de riquezas.
Como citar este artigo:
SCHNEIDER, V. ; ALVES. V.C. Decisão para alocação de recursos públicos: apoio à inovação com árvores de regressão. Blog Instituto Stela, Florianópolis, agosto de 2020. Disponível em: <https://www.stela.org.br/index.php/2020/08/11/machine-learning-para-alocacao-de-recursos-publicos-no-estado-do-parana-como-investir-em-ciencia-para-gerar-desenvolvimento-territorial/ > Acesso em: dd mm. aaaa.
Referências
Estudo completo descrito em: https://rpubs.com/vivianesch/646762
Checking normality for parametric tests in R
https://www.sheffield.ac.uk/polopoly_fs/1.579191!/file/stcp-karadimitriou-normalR.pdf
Normality Test in R
https://www.datanovia.com/en/lessons/normality-test-in-r/
Como realizar teste de normalidade no R ?
https://rpubs.com/paternogbc/46768
Fazendo os testes de Kolmogorov-Smirnov e de Shapiro-Wilk para normalidade
http://www.dpi.ufv.br/~peternelli/tutoriaisR/tutoriaisRempdf/tutorial.KS.SW.normalidade.11112004.pdf
BIOESTATÍSTICA USANDO R
https://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf
Delineamentos Experimentais
https://smolski.github.io/livroavancado/analisf.html
Regression Models in R Multicollinearity in R
https://datascienceplus.com/multicollinearity-in-r/
Teste-de-Farrar-Glauber
https://ibape-nacional.com.br/biblioteca/wp-content/uploads/2020/02/AO-27-Aplica%C3%A7%C3%A3o-do-Teste-de-Farrar-Glauber-para-An%C3%A1lise.pdf
Multicollinearity in R
https://www.rpubs.com/dudubiologico/545528
Ajuste de Modelos Não Lineares
http://www.leg.ufpr.br/~walmes/cursoR/mgest/3reg-nao-linear.html
Tutorial — Ajuste e Interpretação de Regressão Linear com R
https://medium.com/data-hackers/tutorial-ajuste-e-interpreta%C3%A7%C3%A3o-de-regress%C3%A3o-linear-com-r-5b23c4ddb72
Atendimento de criterios de modelo linear
https://rpubs.com/andrehofreire/LinearRegressionR
CURSO – Modelos de regressão não linear
https://www.ime.unicamp.br/~cnaber/cursomodelosnaolinearesR.pdf
Aplicação de modelos de regressão linear e não linear em ciências agrárias
http://www.leg.ufpr.br/~walmes/cursoR/cnpaf3/cnpaf02trailer.html
Recursos Computacionais Utilizando R
http://www.dex.ufla.br/~danielff/meusarquivospdf/RRC0.pdf
Arvores
https://www.dcc.fc.up.pt/~ltorgo/SebentaR/HTML/node26.html
Modelos Não Lineares e suas Aplicações
https://www.ufjf.br/cursoestatistica/files/2014/04/Modelos-N%c3%a3o-Lineares-e-suas-Aplica%c3%a7%c3%b5es.pdf
Modeloagem – Aprendizado Estatístico
http://material.curso-r.com/modelos/
Como treinar árvore de decisão em R
https://pt.stackoverflow.com/questions/364044/como-treinar-uma-%C3%A1rvore-de-decis%C3%A3o-no-r
MODELOS DE REGRESSÃO- com apoio computacional
https://www.ime.unicamp.br/~cnaber/Livro_MLG.pdf
MODELOS DE REGRESSÃO LINEARES PARA ESTIMATIVA DE PRODUTIVIDADE
DA SOJA NO OESTE DO PARANÁ, UTILIZANDO DADOS ESPECTRAIS
https://www.scielo.br/pdf/eagri/v30n3/14.pdf
Aplicação do Teste de Farrar-Glauber para Análise de Multicolinearidade Em
Regressões Lineares https://ibape-nacional.com.br/biblioteca/wp-content/uploads/2020/02/AO-27-Aplica%C3%A7%C3%A3o-do-Teste-de-Farrar-Glauber-para-An%C3%A1lise.pdf
Regressão Logística: O método estatístico mais utilizado para modelar variáveis categóricas.
https://matheusfacure.github.io/2017/02/25/regr-log/
Linear Regression
http://rstudio-pubs-static.s3.amazonaws.com/428179_4d1959eb7bda4ed1b9ae5bb86004eae3.html
Regression
http://www.mat.ufrgs.br/~giacomo/Softwares/R/Crawley/Crawley%20-%20The%20Book%20R/ch10.pdf
Regressão de Poisson
https://smolski.github.io/livroavancado/regressao-de-poisson.html
Tutorial — Ajuste e Interpretação de Regressão Linear com R
https://medium.com/data-hackers/tutorial-ajuste-e-interpreta%C3%A7%C3%A3o-de-regress%C3%A3o-linear-com-r-5b23c4ddb72
Estatística Prática para Docentes e Pós-Graduandos de Geraldo Maia CamposAditividade e homogeneidade
http://www.forp.usp.br/restauradora/gmc/gmc_livro/gmc_livro_cap11.html
TESTES DE NORMALIDADE EM ANÁLISES ESTATÍSTICAS: UMA ORIENTAÇÃO PARA
PRATICANTES EM CIÊNCIAS DA SAÚDE E ATIVIDADE FÍSICA
file:///C:/Users/Jacob/Documents/R/6583-Texto%20do%20artigo-43438-1-10-20171008.pdf
regressão logística
https://www.rpubs.com/dudubiologico/545528
O que é árvore de decisão (decision tree)? Exemplos em R
https://www.wrprates.com/o-que-e-arvore-de-decisao-decision-tree-linguagem-r/
Teste para normalidade e homocedasticidade
https://biostatistics-uem.github.io/Bio/aula8/teste_normalidade_homocedasticidade.html#:~:text=Em%20an%C3%A1lise%20de%20vari%C3%A2ncia(ANOVA,que%20a%20ANOVA%20tenha%20validade.