Resumo
Proteger informações confidenciais de clientes é uma responsabilidade crítica de todas as empresas. Call centers no setor de telecomunicações geram um volume substancial de dados de conversação contendo dados confidenciais de clientes. Para cumprir regras como o Regulamento Geral sobre a Proteção de Dados (RGPD) e as diretrizes da Comissão Nacional de Proteção de Dados (CNPD), as informações de identificação pessoal (PII) dos clientes devem ser reconhecidas com precisão e removidas dos dados. Esta tese examina o Reconhecimento de Entidades Nomeadas (NER), um componente do Processamento de Linguagem Natural (PLN) focado na extração de entidades nomeadas de dados textuais. Além disso, a redação de informações de identificação pessoal em transcrições ruidosas de call centers com reconhecimento automático de fala (ASR) em português apresenta desafios significativos. Investigamos três metodologias. Inicialmente, empregamos extração de regex baseada em regras, seguida por extração por zero-shot utilizando modelos de transformador pré-treinados e modelos NER baseados em transformadores de ajuste fino. Os resultados do experimento indicam que regex pode extrair entidades seguindo um padrão especificado. Modelos de zero-shot apresentam desempenho superior em entidades semanticamente sofisticadas, como nomes e endereços. Em última análise, o ajuste fino dos modelos de transformador atingiu o objetivo de redigir itens PII com precisão superior em comparação com técnicas mais simples, como regex e métodos de zero-shot. Para aprimorar o desempenho, técnicas como aumento de dados foram implementadas para aumentar os dados de treinamento, visto que os modelos de transformadores exigem muitos dados. As habilidades avançadas de compreensão da linguagem dos transformadores facilitam a extração eficaz de itens PII de transcrições ruidosas de call centers em português. Além disso, os modelos de transformadores utilizam redes neurais para extrair entidades. Eles frequentemente apresentam incerteza em suas previsões. Consequentemente, avaliamos os níveis de calibração dos modelos de transformadores para avaliar a confiança das previsões.| Data de atribuição | 23 jun. 2025 |
|---|---|
| Idioma original | English |
| Instituição de premiação |
|
| Supervisor | Nuno Filipe Loureiro Paiva (Supervisor) |
ODS da ONU
Esta tese de estudante contribui para os seguintes Objetivos de Desenvolvimento Sustentável (ODS) da ONU
-
ODS 9 Indústria, inovação e infraestrutura
-
ODS 16 Paz, justiça e instituições fortes
Keywords
- Reconhecimento de entidades nomeadas
- Processamento de linguagem natural
- Transcrições de call center em português
- Aprendizado profundo
- Transformadores
- Entidades PII
- Aumento de dados
- Conformidade com a privacidade de dados
Designação
- Mestrado em Análise de Dados para Gestão
Citação
- Standard