Função fit_transform
O método StandardScaler.fit_transform
pertence ao módulo sklearn.preprocessing
da biblioteca Scikit-learn. Esse método é usado para realizar o pré-processamento de dados conhecido como padronização (standardization). A padronização é uma técnica comum de escalonamento de atributos, onde os valores dos atributos são transformados para terem média zero e desvio padrão igual a 1.
Sintaxe
StandardScaler.fit_transform(X)
Parâmetros:
X
: Uma matriz ou DataFrame de tamanho [n_samples, n_features], que representa o conjunto de dados a ser padronizado.
Retorno:
- Retorna os dados padronizados em forma de matriz [n_samples, n_features], onde n_samples é o número de amostras (instâncias) e n_features é o número de atributos (características).
Exemplo
from sklearn.preprocessing import StandardScaler
# Dados de treinamento
dados_treinamento = [[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]]
# Criação do StandardScaler
scaler = StandardScaler()
# Ajuste e transformação dos dados de treinamento
dados_padronizados = scaler.fit_transform(dados_treinamento)
print(dados_padronizados)
Saída:
[[-1.41421356 -1.41421356]
[-0.70710678 -0.70710678]
[ 0. 0. ]
[ 0.70710678 0.70710678]
[ 1.41421356 1.41421356]]
Agora com os valores escalonados, o algoritmo não dará prioridade para valores de alto valor, assim não prejudicando a precisão do modelo resultante.
O método StandardScaler.fit_transform
é uma combinação das etapas de ajuste (fit
) e transformação (transform
) do StandardScaler
, que realiza a padronização dos dados em uma única chamada. Essa técnica é útil para garantir que todos os atributos tenham a mesma escala, o que melhora a eficácia e a precisão dos modelos de aprendizado de máquina. O StandardScaler
é uma das muitas ferramentas disponíveis no Scikit-learn para pré-processar e preparar os dados antes de alimentá-los em algoritmos de aprendizado de máquina.