Função fit_transform

O método StandardScaler.fit_transform pertence ao módulo sklearn.preprocessing da biblioteca Scikit-learn. Esse método é usado para realizar o pré-processamento de dados conhecido como padronização (standardization). A padronização é uma técnica comum de escalonamento de atributos, onde os valores dos atributos são transformados para terem média zero e desvio padrão igual a 1.

Sintaxe

StandardScaler.fit_transform(X)

Parâmetros:

  • X: Uma matriz ou DataFrame de tamanho [n_samples, n_features], que representa o conjunto de dados a ser padronizado.

Retorno:

  • Retorna os dados padronizados em forma de matriz [n_samples, n_features], onde n_samples é o número de amostras (instâncias) e n_features é o número de atributos (características).

Exemplo

from sklearn.preprocessing import StandardScaler
 
# Dados de treinamento
dados_treinamento = [[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]]
 
# Criação do StandardScaler
scaler = StandardScaler()
 
# Ajuste e transformação dos dados de treinamento
dados_padronizados = scaler.fit_transform(dados_treinamento)
 
print(dados_padronizados)

Saída:

[[-1.41421356 -1.41421356]
 [-0.70710678 -0.70710678]
 [ 0.          0.        ]
 [ 0.70710678  0.70710678]
 [ 1.41421356  1.41421356]]

Agora com os valores escalonados, o algoritmo não dará prioridade para valores de alto valor, assim não prejudicando a precisão do modelo resultante.

O método StandardScaler.fit_transform é uma combinação das etapas de ajuste (fit) e transformação (transform) do StandardScaler, que realiza a padronização dos dados em uma única chamada. Essa técnica é útil para garantir que todos os atributos tenham a mesma escala, o que melhora a eficácia e a precisão dos modelos de aprendizado de máquina. O StandardScaler é uma das muitas ferramentas disponíveis no Scikit-learn para pré-processar e preparar os dados antes de alimentá-los em algoritmos de aprendizado de máquina.