gershwin.pages.dev

Como criar um script para anonimizar CEPs mantendo a região?

Anonimizar CEPs é uma tarefa comum em projetos de proteção de dados, mas manter a região geográfica é essencial para análises estatísticas. Este método garante que os dados permaneçam úteis para análises de região, sem expor informações sensíveis.

Pré-requisitos

Passo 1: Criar o script Python

O script abaixo anonimiza CEPs mantendo a região. Ele substitui os últimos dígitos do CEP por zeros, preservando a região.

import pandas as pd

def anonimizar_cep(cep):
    # Mantém os 5 primeiros dígitos e substitui os últimos por zeros
    return cep[:5] + '000'

# Carrega o arquivo CSV
df = pd.read_csv('ceps.csv')

# Aplica a função de anonimização
df['CEP'] = df['CEP'].apply(anonimizar_cep)

# Salva o arquivo anonimizado
df.to_csv('ceps_anonimizados.csv', index=False)

Passo 2: Executar o script

Para executar o script, abra o terminal e digite:

python anonimizar_ceps.py

Exemplo Prático

CEP Original CEP Anonimizado
01001-000 01001-000
01001-001 01001-000
01001-002 01001-000
01002-000 01002-000
01002-001 01002-000

Conclusão

Com este script, você pode anonimizar CEPs de forma rápida e eficiente, mantendo a região para análises posteriores. A automação deste processo economiza tempo e reduz erros manuais.