Exploring pseudo-labeling for reject inference

  • Margarida Martins (Aluno)

Tese do aluno

Resumo

Os bancos usam algoritmos para estimar o risco de crédito dos candidatos a empréstimos. No entanto, esses algoritmos necessitam de ser novamente treinados, mas para tal, é preciso possuir dados históricos com etiqueta. Neste caso, é necessário ter uma variável que indique se o candidato cumpriu na totalidade o pagamento do empréstimo. Nesta circunstância, só conhecemos a etiqueta de candidatos que foram aprovados para empréstimo. Ao treinar novamente apenas com estas observações, o modelo irá ser enviesado, resultando em perdas monetárias para o banco. De forma a impedir tais perdas, tentaremos apurar as etiquetas dos candidatos rejeitados. Nesta tese, iremos usar “pseudo-labeling” para inferir esta etiqueta. “Pseudo-labeling” funciona tendo dois modelos. Primeiro, criar-se-á “pseudo-labels” ao treinar o modelo “lightGBM”. Após, iremos aplicar regressão logística. No final, estes resultados serão comparados com o cenário de classificação de duas categorias, analisando ambas. Concomitantemente, iremos comparar com o cenário da decisão de rejeição inicial resultante do acaso e experimentar cinco taxas de rejeição sobre a regressão logística. Ao usar o “lightGBM” obteve-se um “F1”, “AUC” e lucro inferior. Como tal, o banco deverá classificar os rejeitados em uma das categorias. Sucede que se descobriu que classificar os rejeitados como incumpridores tem um ”recall” superior na população rejeitada e leva a um lucro superior. E que uma taxa de rejeição inferior tem um lucro superior.
Data do prémio25 jan. 2024
Idioma originalEnglish
Instituição de premiação
  • Universidade Católica Portuguesa
SupervisorSusana Brandão (Supervisor)

Designação

  • Mestrado em Análise de Dados para Gestão

Citação

'