Na era digital, uma grande quantidade de dados heterogéneos é coletada globalmente sobre várias entidades, como indivíduos, profissionais ou empresas. Extrair valor desses dados requer a ligação de pontos de dados que descrevem a mesma entidade, um processo complicado pela diversidade de fontes e ausência de um identificador único. Este estudo aborda este desafio ao explorar o potencial das técnicas de ligação probabilística de registos para associar entradas na base de dados do NPI aos perfis das redes sociais dos médicos. A investigação foi realizada em colaboração com a Alpha Sophia, uma startup visando criar uma plataforma de inteligência comercial para o mercado de saúde nos EUA. A tese propõe uma estratégia inovadora para gerar dados rotulados, combinando ligação determinística de registos e injeção de ruído. Esta estratégia facilita a implementação de vários modelos de aprendizagem supervisionada, como a floresta aleatória, ao lado do modelo Fellegi-Sunter. A descoberta principal é o desempenho superior dos modelos supervisionados em relação ao modelo de referência, demonstrando a vantagem da abordagem inovadora. Foram identificadas mais de 142 mil novas correspondências, mantendo uma taxa mínima de falsos positivos. Isto equivale a um aumento de cerca de 64% no número total de registos de dados ligados, resultando em poupanças de custos superiores a 68 mil euros. As metodologias e o modelo apresentados podem ser adaptados para responder a outros de safios de ligação que a Alpha Sophia e outras empresas possam enfrentar. Recomenda-se a aplicação destas técnicas em contextos diversos com conjuntos de dados variados no futuro.
| Data do prémio | 23 jan. 2024 |
|---|
| Idioma original | English |
|---|
| Instituição de premiação | - Universidade Católica Portuguesa
|
|---|
| Supervisor | Nicolò Bertani (Supervisor) |
|---|
- Mestrado em Análise de Dados para Gestão
Exploring the potential of probabilistic record linkage in healthcare: a study on matching national provider identifier records with social network profiles
Pullem, F. J. (Aluno). 23 jan. 2024
Tese do aluno: Dissertação de mestrado