As dez principais maneiras de limpar os dados

Palavras com erros ortográficos, os irritantes espaços à direita, prefixos indesejados, o uso inadequado de letras maiúsculas e minúsculas, e os caracteres não imprimíveis deixam uma péssima impressão. E isso ainda não é a lista completa de itens que bagunçam os dados. Arregace as mangas e faça uma limpeza geral nas suas planilhas com o Microsoft Office Excel.

Neste artigo


Início da página Início da página

Conceitos básicos da limpeza de dados

Nem sempre você tem controle sobre o formato e o tipo de dados que importa de uma fonte de dados externa, como um banco de dados, um arquivo de texto ou uma página da Web. Antes de analisar os dados, geralmente é necessário limpá-los. Felizmente, o Office Excel tem vários recursos que ajudará você a obter os dados no formato desejado. Às vezes, a tarefa é simples e há um recurso específico que faz tudo automaticamente. Por exemplo, você pode usar facilmente o verificador ortográfico para limpar palavras com erros ortográficos nas colunas que contêm comentários ou descrições. Se precisar remover palavras duplicadas, poderá fazer isso rapidamente usando a caixa de diálogo Remover Duplicatas.

Possivelmente, você precisará manipular uma ou mais colunas usando uma fórmula para converter os valores importados em novos valores. Por exemplo, para remover os espaços à direita, crie uma nova coluna para limpar os dados usando uma fórmula, preenchendo a nova coluna, convertendo as fórmulas da nova coluna em valores e removendo a coluna original.

Estas são as etapas básicas da limpeza de dados:

  1. Importe os dados de uma fonte de dados externa.
  2. Crie uma cópia de backup dos dados originais em uma pasta de trabalho separada.
  3. Verifique se os dados estão em um formato tabular de linhas e colunas com: dados similares em cada coluna, todas as colunas e linhas visíveis, e linhas não vazias dentro do intervalo. Para obter melhores resultados, use uma tabela do Excel.
  4. Primeiro, realize tarefas que não requeiram a manipulação de colunas, como verificação ortográfica ou uso da caixa de diálogo Localizar e Substituir.
  5. Em seguida, realize tarefas que requeiram a manipulação de colunas. Estas são as etapas gerais de manipulação de uma coluna:
    1. Insira uma nova coluna (B) ao lado da coluna original (A) que precisa de limpeza.
    2. Adicione uma fórmula que transformará os dados na parte superior da nova coluna (B).
    3. Preencha a fórmula na nova coluna (B). Em uma tabela do Excel, será criada automaticamente uma coluna calculada criada com valores preenchidos.
    4. Selecione a nova coluna (B), copie-a e cole-a como valores na nova coluna (B).
    5. Remova a coluna original (A), que converte a nova coluna de B em A.

Para limpar periodicamente a mesma fonte de dados, é recomendável gravar uma macro ou escrever um código para automatizar todo o processo. Há também diversos suplementos externos criados por fornecedores de terceiros, listados na seção Fornecedores de terceiros, que você pode usar caso não tenha tempo ou recursos para automatizar o processo por sua própria conta.

Mais informações Descrição
Visão geral da conexão (importação) de dados Descreve todas as formas de importar dados externos no Office Excel.
Preencher dados automaticamente em células de planilha Mostra como usar o comando Preencher.
Criar ou excluir uma tabela do Excel

Adicionar ou remove linhas e colunas de tabela do Excel

Criar, editar ou remover uma coluna calculada em uma tabela do Excel
Mostre como criar uma tabela do Excel e adicione ou exclua colunas ou colunas calculadas.
Criar uma macro Mostra várias maneiras de automatizar tarefas repetitivas usando uma macro.

Início da página Início da página

Verificação ortográfica

Você pode usar um verificador ortográfico não somente para localizar palavras com erros ortográficos, mas também para localizar valores que não são usados de forma consistente, como nomes de produto ou empresa, adicionando esses valores a um dicionário personalizado.

Mais informações Descrição
Verificação ortográfica e gramática Mostra como corrigir palavras com erros ortográficos em uma planilha.
Usar dicionários personalizados para adicionar palavras ao verificador ortográfico Explica como usar dicionários personalizados.

Início da página Início da página

Removendo linhas duplicadas

As linhas duplicadas são um problema comum durante a importação de dados. Antes de remover os valores duplicados, é recomendável filtrar valores exclusivos primeiro para confirmar se os resultados são os desejados.

Mais informações Descrição
Filtrar valores exclusivos ou remover valores duplicados Mostra dois procedimentos relacionados: como filtrar linhas exclusivas e como remover linhas duplicadas.

Início da página Início da página

Localizando e substituindo texto

Talvez seja necessário remover uma cadeia de caracteres à esquerda comum, como um rótulo seguido por dois-pontos e espaço, ou um sufixo, como uma frase entre parênteses no final da cadeia de caracteres obsoleta ou desnecessária. Você pode fazer isso localizando instâncias desse texto e, em seguida, substituindo-o por outro texto ou algo diferente de texto.

Mais informações Descrição
Verificar se uma célula contém texto (não diferencia maiúsculas de minúsculas)

Verificar se uma célula contém texto (diferencia maiúsculas de minúsculas)
Mostra como usar o comando Localizar e várias funções para localizar texto.
Remover caracteres do texto Mostra como usar o comando Substituir e várias funções para remover texto.
Localizar ou substituir texto e números em uma planilha

Localizar e Substituir
Mostra como usar as caixas de diálogo Localizar e Substituir.
PROCURAR, PROCURARB

LOCALIZAR, LOCALIZARB

SUBSTITUIR, SUBSTITUIRB

SUBSTITUIR

ESQUERDA, ESQUERDAB

DIREITA, DIREITAB

NÚM.CARACT, NÚM.CARACTB

EXT.TEXTO, EXT.TEXTOB
Essas são as funções que você pode usar para realizar várias tarefas de manipulação de cadeia de caracteres, como localizar e substituir uma subcadeia de caracteres em uma cadeia de caracteres, extrair partes de uma cadeia de caracteres ou determinar o tamanho de uma cadeia de caracteres.

Início da página Início da página

Alterando as maiúsculas e minúsculas do texto

Às vezes, o texto vira uma bagunça, especialmente quando o uso de maiúsculas e minúsculas é fundamental. Usando uma ou mais das três funções de uso de maiúsculas e minúsculas, você pode converter o texto em letras minúsculas (como em endereços de email), letras maiúsculas (como em códigos de produto) ou letras maiúsculas ou minúsculas conforme apropriado (como em nomes e títulos de livro).

Mais informações Descrição
Alterar as maiúsculas e minúsculas do texto Mostra como usar as três funções de maiúsculas e minúsculas.
MINÚSCULA Converte todas as letras maiúsculas de uma cadeia de caracteres de texto em letras minúsculas.
PRI.MAIÚSCULA Coloca em maiúsculas a primeira letra de uma cadeia de caracteres de texto e todas as outras letras do texto depois de qualquer caractere diferente de uma letra. Converte todas as outras letras em minúsculas.
MAIÚSCULA Converte o texto em letras maiúsculas.

Início da página Início da página

Removendo espaços e caracteres não imprimíveis do texto

Às vezes, os valores de texto contêm caracteres à esquerda, caracteres à direita ou vários caracteres de espaço incorporados (valores de conjunto de caracteres Unicode (Unicode: um padrão de codificação de caractere desenvolvido pela Unicode Consortium. Usando mais de um byte para representar cada caractere, o Unicode permite que quase todos os idiomas escritos no mundo sejam representados usando um único conjunto de caracteres.) 32 e 160), ou caracteres não imprimíveis (valores de conjunto de caracteres Unicode de 0 a 31, 127, 129, 141, 143, 144 e 157). Esses caracteres podem, algumas vezes, gerar resultados inesperados durante uma classificação, filtragem ou pesquisa. Por exemplo, na fonte de dados externa, os usuários podem cometer erros tipográficos adicionando inadvertidamente caracteres de espaço extra ou os dados de texto importado de fontes externas podem conter caracteres não imprimíveis incorporados no texto. Como esses caracteres não são facilmente observados, os resultados inesperados podem dificultar a compreensão. Para remover os caracteres indesejados, use uma combinação das funções ARRUMAR, TIRAR e SUBSTITUIR.

Mais informações Descrição
Remover espaços e caracteres não imprimíveis do texto Mostra como remover todos os espaços e caracteres não imprimíveis do conjunto de caracteres Unicode.
CÓDIGO Retorna um código numérico para o primeiro caractere de uma cadeia de caracteres de texto.
TIRAR Remove, do texto, os 32 primeiros caracteres não imprimíveis do código ASCII de 7 bits (valores de 0 a 31).
ARRUMAR Remove, do texto, o caractere de espaço ASCII de 7 bits (valor 32).
SUBSTITUIR Você pode usar a função SUBSTITUIR para substituir os valores Unicode de valor mais alto (valores 127, 129, 141, 143, 144, 157 e 160) pelos caracteres ASCII de 7 bits para os quais as funções ARRUMAR e TIRAR foram designadas.

Início da página Início da página

Corrigindo números e sinais numéricos

Quando os números são utilizados, existem dois problemas principais que podem requerer a limpeza dos dados: a importação inadvertida do número como texto e a necessidade de o sinal negativo ser alterado para o padrão da sua organização.

Mais informações Descrição
Formatos de número disponíveis Mostra todos os formatos de número disponíveis.
Converter números armazenados como texto em números Mostra como converter números formatados e armazenados em células como texto, o que pode ocasionar problemas em cálculos ou gerar ordens de classificação confusas, em formato de número.
MOEDA Converte um número em formato de texto e aplica um símbolo de moeda.
TEXTO Converte um valor em texto, em um formato de número específico.
DEF.NÚM.DEC Arredonda o número para o número especificado de decimais, formata o número em formato decimal usando vírgula e pontos, e retorna o resultado como texto.
VALOR Converte uma cadeia de caracteres de texto que representa um número em um número.

Início da página Início da página

Corrigindo datas e horas

Como há muitos formatos de data diferentes e eles podem ser confundidos com códigos de peça numerados ou outras cadeias de caracteres que contêm barras "/" ou hífens, as datas e as horas geralmente precisam ser convertidas e reformatadas.

Mais informações Descrição
Alterar o sistema de data, o formato ou a interpretação de ano de dois dígitos Descreve como o sistema de data funciona no Office Excel.
Converter horas Mostra como fazer a conversão entre unidades de tempo diferentes.
Converter datas armazenadas como texto em datas Mostra como converter datas formatadas e armazenadas em células como texto, o que pode ocasionar problemas em cálculos ou gerar ordens de classificação confusas, em formato de data.
DATA Retorna o número de série seqüencial que representa uma determinada data. Se o formato da célula era Geral antes de a função ser inserida, o resultado será formatado como uma data.
DATA.VALOR Converte uma data representada por um texto em número de série.
TEMPO Retorna o número decimal para uma determinada hora. Se o formato da célula era Geral antes de a função ser inserida, o resultado será formatado como uma data.
VALOR.TEMPO Retorna o número decimal da hora representada por uma cadeia de caracteres de texto. O número decimal é um valor que varia de 0 a 0,99999999 e que representa as horas entre 0:00:00 (12:00:00 AM) e 23:59:59 (11:59:59 PM).

Início da página Início da página

Mesclando e dividindo colunas

Uma tarefa comum após a importação dos dados de uma fonte de dados externa é a mesclagem de duas ou mais colunas em uma ou a divisão de uma coluna em duas ou mais colunas. Por exemplo, talvez seja necessário dividir uma coluna que contenha um nome completo em colunas de nome e sobrenome. Talvez seja necessário dividir uma coluna que contenha um campo de endereço em colunas separadas de endereço, cidade, região e código postal (o contrário também pode se aplicar). Talvez seja necessário mesclar uma coluna de nome e sobrenome em uma coluna de nome completo ou combinar colunas de endereço separadas em uma única coluna. Valores comuns adicionais que possam requerer a mesclagem em uma única coluna ou a divisão em várias colunas incluem códigos de produto, caminhos de arquivo e endereços IP.

Mais informações Descrição
Combinar nome e sobrenome

Combinar texto e números

Combinar texto com uma data ou hora

Combinar duas ou mais colunas usando uma função
Mostrar exemplos típicos de como combinar valores de duas ou mais colunas.
Dividir nomes usando o Assistente para Conversão de Texto em Colunas Mostra como usar este assistente para dividir colunas com base em vários delimitadores comuns.
Dividir texto entre colunas usando as funções Mostra como usar as funções ESQUERDA, EXT.TEXTO, DIREITA, LOCALIZAR e NÚM.CARACT para dividir uma coluna de nome em duas ou mais colunas.
Combinar ou dividir o conteúdo das células Mostra como usar a função CONCATENAR, o operador & (E comercial) e o Assistente para Conversão de Texto em Colunas.
Mesclar células ou dividir células mescladas Mostra como usar os comandos Mesclar Células, Mesclar através e Mesclar e Centralizar.
CONCATENAR Associa duas ou mais cadeias de caracteres de texto em uma única.

Início da página Início da página

Transformando e reorganizando colunas e linhas

A maioria dos recursos de análise e formatação do Office Excel assume que os dados constam em uma única tabela bidimensional e sem formatação. Talvez seja necessário transformar as linhas em colunas e vice-versa. Em outras ocasiões, os dados não estarão sequer estruturados em um formato tabular e você precisará achar uma maneira de transformar os dados não tabulares em formato tabular.

Mais informações Descrição
TRANSPOR Retorna um intervalo vertical de células como intervalo horizontal ou vice-versa.

Início da página Início da página

Reconciliando dados de tabela através da associação ou correspondência

Ocasionalmente, os administradores de banco de dados usam o Office Excel para localizar e corrigir erros de correspondência quando duas ou mais tabelas estão associadas. Isso provavelmente envolve a reconciliação de duas tabelas de diferentes planilhas; por exemplo, para ver todos os registros de ambas as tabelas ou para comparar tabelas e localizar linhas que não são correspondentes.

Mais informações Descrição
Pesquisar valores em uma lista de dados Mostra formas comuns de pesquisar dados usando as funções de pesquisa.
PROC Retorna um valor de um intervalo de linha ou coluna ou de uma matriz. A função PROC possui dois formatos de sintaxe: de vetor e de matriz.
PROCH Procura um valor na linha superior de uma tabela ou em uma matriz de valores e, em seguida, retorna um valor na mesma coluna a partir de uma linha especificada na tabela ou matriz.
PROCV Procura um valor na primeira coluna de uma matriz de tabela e retorna um valor na mesma linha de outra coluna na matriz da tabela.
ÍNDICE Retorna um valor ou a referência a um valor de uma tabela ou de um intervalo. A função ÍNDICE possui dois formatos: de matriz e de referência.
CORRESP Retorna a posição relativa de um item em uma matriz que coincide com um valor especificado em uma ordem específica. Use CORRESP em vez de uma das funções PROC quando precisar da posição de um item em um intervalo, em vez do item propriamente dito.
DESLOC Retorna uma referência a um intervalo, que é um número especificado de linhas e colunas de uma célula ou intervalo de células. A referência retornada pode ser uma única célula ou um intervalo de células. Você pode especificar o número de linhas e de colunas a serem retornadas.

Início da página Início da página

Fornecedores de terceiros

Esta é uma lista parcial de fornecedores de terceiros que oferecem produtos usados para limpar dados de várias maneiras.

Fornecedor Produto
Add-in Express Ltd.
Add-Ins.com Duplicate Finder
AddinTools
JKP Application Development Services
J-Walk & Associates, Inc. Power Utility Pak Version 7
Office Assistance LLC
PATools
Vonnix Excel Power Expander 4.6
WinPure ListCleaner Lite

ListCleaner Pro

Clean and Match 2007

Início da página Início da página

 
 
Aplica-se a:
Excel 2007