Avançar para navegação principal Avançar para pesquisar Avançar para conteúdo principal

SpeakEasy
: optimizing entity recognition in Portuguese call centre transcriptions to comply with privacy laws

  • Joe Raymond Justione (Aluno)

Tese do aluno: Dissertação de mestrado

Resumo

Proteger informações confidenciais de clientes é uma responsabilidade crítica de todas as empresas. Call centers no setor de telecomunicações geram um volume substancial de dados de conversação contendo dados confidenciais de clientes. Para cumprir regras como o Regulamento Geral sobre a Proteção de Dados (RGPD) e as diretrizes da Comissão Nacional de Proteção de Dados (CNPD), as informações de identificação pessoal (PII) dos clientes devem ser reconhecidas com precisão e removidas dos dados. Esta tese examina o Reconhecimento de Entidades Nomeadas (NER), um componente do Processamento de Linguagem Natural (PLN) focado na extração de entidades nomeadas de dados textuais. Além disso, a redação de informações de identificação pessoal em transcrições ruidosas de call centers com reconhecimento automático de fala (ASR) em português apresenta desafios significativos. Investigamos três metodologias. Inicialmente, empregamos extração de regex baseada em regras, seguida por extração por zero-shot utilizando modelos de transformador pré-treinados e modelos NER baseados em transformadores de ajuste fino. Os resultados do experimento indicam que regex pode extrair entidades seguindo um padrão especificado. Modelos de zero-shot apresentam desempenho superior em entidades semanticamente sofisticadas, como nomes e endereços. Em última análise, o ajuste fino dos modelos de transformador atingiu o objetivo de redigir itens PII com precisão superior em comparação com técnicas mais simples, como regex e métodos de zero-shot. Para aprimorar o desempenho, técnicas como aumento de dados foram implementadas para aumentar os dados de treinamento, visto que os modelos de transformadores exigem muitos dados. As habilidades avançadas de compreensão da linguagem dos transformadores facilitam a extração eficaz de itens PII de transcrições ruidosas de call centers em português. Além disso, os modelos de transformadores utilizam redes neurais para extrair entidades. Eles frequentemente apresentam incerteza em suas previsões. Consequentemente, avaliamos os níveis de calibração dos modelos de transformadores para avaliar a confiança das previsões.
Data de atribuição23 jun. 2025
Idioma originalEnglish
Instituição de premiação
  • Universidade Católica Portuguesa
SupervisorNuno Filipe Loureiro Paiva (Supervisor)

ODS da ONU

Esta tese de estudante contribui para os seguintes Objetivos de Desenvolvimento Sustentável (ODS) da ONU

  1. ODS 9 - Indústria, inovação e infraestrutura
    ODS 9 Indústria, inovação e infraestrutura
  2. ODS 16 - Paz, justiça e instituições fortes
    ODS 16 Paz, justiça e instituições fortes

Keywords

  • Reconhecimento de entidades nomeadas
  • Processamento de linguagem natural
  • Transcrições de call center em português
  • Aprendizado profundo
  • Transformadores
  • Entidades PII
  • Aumento de dados
  • Conformidade com a privacidade de dados

Designação

  • Mestrado em Análise de Dados para Gestão

Citação

'