Como usar árvores de decisão em análise de RH

Como usar árvores de decisão em análise de RH: um guia prático

Um guia prático é fornecido para usar árvores de decisão na análise de RH. Os modelos de regressão linear, comumente usados por analistas de RH, nem sempre são adequados para capturar padrões em dados de RH, pois nem todos os fenômenos de RH podem ser descritos por linhas retas.

Portanto, abordagens de modelagem mais flexíveis, como árvores de decisão, podem ser uma adição valiosa ao kit de ferramentas de um analista de RH. O artigo explorará os detalhes de como as árvores de decisão podem ser usadas na análise de RH.

O que é uma árvore de decisão?

Uma árvore de decisão é um tipo de algoritmo usado em aprendizado de máquina supervisionado, que cria um modelo não paramétrico. Isso significa que ele não assume nenhuma distribuição de dados específica e é construído com base em valores conhecidos de variáveis independentes e dependentes.

As árvores de decisão são altamente flexíveis e podem ser usadas para tarefas de classificação (resultados categóricos) e de regressão (resultados numéricos) sem exigir qualquer personalização. O algoritmo foi desenvolvido por dois desenvolvedores líderes, John Ross Quinlan e Leo Breiman.

Aproximadamente em 1984, John Ross Quinlan nomeou seu algoritmo de árvore de decisão ID3 (Iterative Dichotomiser 3) e mais tarde criou variações C4.5 e o comercial C5.0. Enquanto isso, Leo Breiman e sua equipe em Berkeley chamaram seu algoritmo de árvore de decisão CART (Classification and Regression Trees), que é a implementação mais comumente usada na prática. Este artigo usará a implementação CART de Breiman, que está disponível na linguagem de programação estatística R.

Se você deseja aprimorar suas habilidades de R para análise de RH, o People Analytics Certificate Program é um excelente recurso para começar.

Quando usar árvores de decisão na análise de RH

As árvores de decisão são uma ferramenta valiosa na análise de RH, pois podem identificar e utilizar facilmente efeitos não lineares complexos nos dados de RH com o mínimo de envolvimento do analista. Eles são particularmente úteis em situações onde há dados altamente dimensionais com potencial preditivo desconhecido, como em casos de rotatividade de funcionários ou progressão na carreira, ou onde dados detalhados de experiência de trabalho estão disponíveis.

As árvores de decisão também são úteis quando a variável dependente não é normalmente distribuída ou quando são esperados efeitos não lineares, como polinômios de ordem superior ou interações entre variáveis.

Por exemplo, as árvores de decisão podem ser aplicadas para investigar as situações ou combinações em que ocorre alta rotatividade de funcionários, identificar as experiências que preveem contratações bem-sucedidas ou explorar a relação entre estabilidade e desempenho de vendas, que pode não seguir um padrão linear.

Terminologia

O algoritmo de árvore de decisão visa representar os dados como um conjunto de regras de decisão dispostas em uma estrutura semelhante a uma árvore. Essa estrutura consiste em nós de decisão e nós folhas. Os nós de decisão dividem os dados em subconjuntos com base em condições específicas, enquanto os nós de folha representam os subconjuntos finais de dados que não podem ser divididos posteriormente.

Cada nó de decisão forma uma regra de decisão binária que apresenta uma pergunta sim/não, como “Este funcionário é um gerente?” ou “Essa equipe tem mais de seis funcionários?”. A árvore resultante se parece com um fluxograma, onde cada nó corresponde a um teste para uma variável independente, cada ramificação representa o resultado do teste e cada nó folha corresponde a um subconjunto de dados de RH onde o modelo estima algum valor médio ou probabilidade.

A seleção de variáveis e valores de corte para a árvore é baseada em sua utilidade em prever ou classificar a variável dependente (alvo).

Exemplo de caso de uso

Vamos dar uma olhada em como as árvores de decisão funcionam com um exemplo.

Em cenários do mundo real, as árvores de decisão normalmente são usadas em grandes conjuntos de dados com vários funcionários e variáveis. No entanto, um pequeno exemplo pode nos ajudar a entender seu funcionamento interno.

Usaremos o conjunto de dados de RH mostrado na Tabela 1, que inclui informações típicas que você encontraria em seu Sistema de Informações de RH e consiste em 18 funcionários.

Nosso conjunto de dados compreende três variáveis independentes: tipo de trabalho, avaliação de potencial e anos desde a última promoção. Nosso objetivo é prever a variável dependente, rotatividade, que indica se um funcionário deixou a organização. Este é um problema de classificação, pois pretendemos classificar os colaboradores em “Sim” ou “Não” no que diz respeito ao seu volume de negócios.

O principal objetivo do algoritmo de árvore de decisão é dividir os funcionários em subgrupos com a mais distinta separação de classes. O objetivo final é ter nós folha que contenham principalmente funcionários que tenham um valor “Sim” ou “Não” para a rotatividade da variável de destino.

Para construir a árvore de decisão, o processo começa com o conjunto de dados completo de 18 funcionários no nó raiz. Neste ponto, nenhuma divisão foi considerada e este nó contém 100% do conjunto de dados. Os colaboradores deste nó apresentam um valor médio de 0,22 na variável alvo rotatividade, o que significa que 22% deles saíram da empresa. Como a maior parte deste nó raiz pertencegs para a classe de não rotatividade (“Não”), a árvore de decisão prevê esse valor para todos os funcionários desse nó.

Para construir uma árvore de decisão, o algoritmo precisa identificar a melhor regra de decisão para separar as classes. Ele examina todas as formas possíveis de dividir os dados avaliando diferentes valores de corte para cada uma das três variáveis independentes. Para variáveis categóricas como tipo de trabalho e potencial, o algoritmo examina valores exclusivos para separar os dados.

Para variáveis numéricas como Anos desde a promoção, ele calcula os valores médios entre os valores subsequentes para usar como limites. No total, existem nove maneiras de dividir o conjunto de dados HR no nó raiz, que são mostradas na Tabela 2.

Para determinar a melhor divisão para a árvore de decisão, o algoritmo precisa avaliar a qualidade de cada divisão. A métrica mais comumente usada para medir a qualidade de uma divisão binária é a impureza de Gini. Essa métrica mede a probabilidade de classificar erroneamente uma observação ao usar um rótulo aleatório extraído do conjunto atual de rótulos.

Um subgrupo com todas as observações pertencentes à mesma classe tem uma impureza Gini de 0 porque qualquer rótulo sorteado de tal subgrupo estaria correto. Em contraste, um subgrupo com um número igual de observações pertencentes a diferentes classes tem uma impureza de Gini de 0,5 porque apenas metade dos rótulos sorteados estariam corretos.

A árvore de decisão procura encontrar regras de decisão que resultem em previsões precisas, encontrando a menor impureza de Gini. A melhor divisão é a regra de decisão que produz a menor impureza de Gini e é usada no nó raiz da árvore de decisão. No exemplo mostrado na Figura 3, a divisão com base na variável potencial com um valor Alto produz a menor impureza de Gini de 0,190, resultando na melhor separação de casos de rotatividade de funcionários retidos.

O algoritmo da árvore de decisão cria duas ramificações a partir do nó raiz com base na regra de decisão com a menor impureza de Gini. O ramo esquerdo inclui os funcionários de Baixo e Médio Potencial, que não tiveram rotatividade, resultando em um nó puro. Portanto, a árvore de decisão prevê “Não” para todas as observações neste nó.

O ramo direito inclui colaboradores com Alto Potencial, sendo que a proporção de rotatividade neste nó é de 57%, resultando em um nó puro. Portanto, a árvore de decisão prevê “Sim” para todas as observações neste nó.

O nó esquerdo é considerado um nó folha, pois não são necessárias mais divisões. O algoritmo repete o mesmo processo para o nó direito, avaliando todas as divisões possíveis e selecionando a regra de decisão com a menor impureza de Gini.

Para melhorar o processo de tomada de decisão, o algoritmo de árvore de decisão é usado para encontrar a melhor divisão com base em vários critérios. Nesse caso, a divisão baseada em anos desde a promoção menor que 2 é considerada a melhor para separar os casos de rotatividade restantes dos funcionários retidos. Como resultado, um nó folha puro é criado no lado esquerdo, representando funcionários com alto potencial que foram promovidos nos últimos dois anos e têm 0% de probabilidade de rotatividade.

Do lado direito, outro nó é criado para funcionários de alto potencial que aguardam uma promoção há dois anos ou mais e têm 80% de probabilidade de rotatividade. Como esse nó ainda não é puro, outras divisões podem ser possíveis.

A próxima melhor separação é baseada em se o tipo de trabalho é gerenciador ou não, resultando em dois nós puros. A árvore de decisão agora está completa e capaz de capturar padrões não lineares complexos, fornecendo aos analistas de RH uma ferramenta valiosa para a tomada de decisões. Apesar de suas limitações, o uso de árvores de decisão no domínio de RH pode trazer benefícios significativos, pois os modelos são fáceis de entender e explicar aos interessados não técnicos.