Tipos de variáveis

As variáveis em análise de dados podem ser classificadas em diferentes tipos, dependendo da natureza dos valores que elas podem assumir. Os principais tipos de variáveis são: numéricas e categóricas.

  1. Variáveis Numéricas:

    • Variáveis Numéricas Contínuas: São aquelas que podem assumir valores em uma escala contínua, ou seja, valores fracionados ou decimais. Elas representam medidas quantitativas e podem ter uma infinidade de valores possíveis dentro de um intervalo. Exemplos incluem altura, peso, temperatura, renda, entre outras.

    • Variáveis Numéricas Discretas: São aquelas que podem assumir apenas valores inteiros e enumeráveis. Elas também representam medidas quantitativas, mas possuem valores específicos e não podem ser fracionadas. Exemplos incluem número de filhos, quantidade de itens vendidos, idade (em anos), entre outras.

  2. Variáveis Categóricas:

    • Variáveis Categóricas Nominais: São aquelas que representam categorias ou rótulos que não possuem uma ordem específica. Os valores possíveis são apenas rótulos distintos para diferenciar grupos ou classes. Exemplos incluem cores (vermelho, azul, verde), estados (São Paulo, Rio de Janeiro, Minas Gerais), categorias de produtos (eletrônicos, roupas, alimentos), etc.

    • Variáveis Categóricas Ordinais: São aquelas que representam categorias com uma ordem específica ou relação de ordenação. Os valores possíveis têm uma relação de ordem, mas não há um intervalo ou escala numérica definida entre eles. Exemplos incluem níveis de satisfação (baixo, médio, alto), graus de educação (ensino fundamental, ensino médio, ensino superior), classificações de filmes (bom, regular, ruim), etc.

A diferenciação entre esses tipos de variáveis é importante para escolher as técnicas de análise de dados adequadas. Por exemplo, ao analisar variáveis numéricas contínuas, pode ser relevante utilizar gráficos de dispersão ou regressão linear. Já para variáveis categóricas nominais, a análise pode envolver tabelas de frequência ou gráficos de barras. Entender a natureza dos dados é fundamental para obter insights e tomar decisões informadas a partir da análise de dados.

Exemplos

Análise de base de dados do censo

A base de dados abaixo foi extraída do site UC Irvine:

ageworkclassfinal-weighteducationeducation-nummarital-statusoccupationrelationshipracesexcapital-gaincapital-looshour-per-weeknative-countryincome
039State-gov77516Bachelors13Never-marriedAdm-clericalNot-in-familyWhiteMale2174040United-States<=50K
150Self-emp-not-inc83311Bachelors13Married-civ-spouseExec-managerialHusbandWhiteMale0013United-States<=50K
238Private215646HS-grad9DivorcedHandlers-cleanersNot-in-familyWhiteMale0040United-States<=50K
353Private23472111th7Married-civ-spouseHandlers-cleanersHusbandBlackMale0040United-States<=50K
428Private338409Bachelors13Married-civ-spouseProf-specialtyWifeBlackFemale0040Cuba<=50K
3255627Private257302Assoc-acdm12Married-civ-spouseTech-supportWifeWhiteFemale0038United-States<=50K
3255740Private154374HS-grad9Married-civ-spouseMachine-op-inspctHusbandWhiteMale0040United-States>50K
3255858Private151910HS-grad9WidowedAdm-clericalUnmarriedWhiteFemale0040United-States<=50K
3255922Private201490HS-grad9Never-marriedAdm-clericalOwn-childWhiteMale0020United-States<=50K
3256052Self-emp-inc287927HS-grad9Married-civ-spouseExec-managerialWifeWhiteFemale15024040United-States>50K

Com base nos valores fornecidos na tabela, podemos classificar o tipo de variável de cada coluna da seguinte forma:

ColunaTipo de VariávelJustificativa
ageNumérica ContínuaA coluna ‘age’ representa a idade dos indivíduos, sendo uma variável numérica contínua, pois pode assumir uma infinidade de valores em um intervalo contínuo.
workclassCategórica NominalA coluna ‘workclass’ indica a classe de trabalho dos indivíduos, e apresenta categorias distintas como ‘State-gov’, ‘Self-emp-not-inc’, ‘Private’, etc. Portanto, é uma variável categórica nominal.
final-weightNumérica ContínuaA coluna ‘final-weight’ contém valores numéricos, que representam o peso atribuído a cada indivíduo na amostra, sendo uma variável contínua, uma vez que pode assumir qualquer valor em um intervalo contínuo.
educationCategórica NominalA coluna ‘education’ representa o nível de educação dos indivíduos e apresenta categorias como ‘Bachelors’, ‘HS-grad’, ‘11th’, etc. Sendo assim, é uma variável categórica nominal.
education-numNumérica DiscretaA coluna ‘education-num’ representa o número associado ao nível de educação dos indivíduos, como ‘13’ para ‘Bachelors’, ‘9’ para ‘HS-grad’, etc. Apesar de serem números inteiros, os valores são discretos e representam categorias.
marital-statusCategórica NominalA coluna ‘marital-status’ indica o estado civil dos indivíduos e apresenta categorias como ‘Never-married’, ‘Married-civ-spouse’, ‘Divorced’, etc. Por isso, é uma variável categórica nominal.
occupationCategórica NominalA coluna ‘occupation’ representa a ocupação dos indivíduos, apresentando diversas categorias distintas como ‘Adm-clerical’, ‘Exec-managerial’, ‘Handlers-cleaners’, etc. Portanto, é uma variável categórica nominal.
relationshipCategórica NominalA coluna ‘relationship’ indica o relacionamento dos indivíduos com a família, apresentando categorias como ‘Not-in-family’, ‘Husband’, ‘Wife’, etc. Sendo assim, é uma variável categórica nominal.
raceCategórica NominalA coluna ‘race’ representa a raça dos indivíduos, apresentando categorias distintas como ‘White’, ‘Black’, etc. Por isso, é uma variável categórica nominal.
sexCategórica NominalA coluna ‘sex’ indica o gênero dos indivíduos, com as categorias ‘Male’ e ‘Female’, sendo, portanto, uma variável categórica nominal.
capital-gainNumérica ContínuaA coluna ‘capital-gain’ representa o ganho de capital dos indivíduos, que pode assumir valores contínuos em um intervalo. Assim, é uma variável numérica contínua.
capital-loosNumérica ContínuaA coluna ‘capital-loos’ representa a perda de capital dos indivíduos, apresentando valores contínuos em um intervalo. Sendo assim, é uma variável numérica contínua.
hour-per-weekNumérica ContínuaA coluna ‘hour-per-week’ indica o número de horas trabalhadas por semana pelos indivíduos, que representa uma variável numérica contínua, pois pode assumir valores em um intervalo contínuo.
native-countryCategórica NominalA coluna ‘native-country’ representa o país de origem dos indivíduos, apresentando categorias distintas como ‘United-States’, ‘Cuba’, etc. Portanto, é uma variável categórica nominal.
incomeCategórica NominalA coluna ‘income’ indica a faixa de renda dos indivíduos, com categorias ’<=50K’ e ‘>50K’, tornando-a uma variável categórica nominal.