ترانسفورماتور ها و پیش پردازنده ها

جریان کاری یادگیری ماشین اغلب از قسمت های مختلفی تشکیل شده است. یک پایپ لاین معمول و متداول تشکیل شده از یک مرحله پیش پردازش است که داده ها را transform یا imputes می‌کند، و در نهایت یک پیش‌بینی کننده مقادیر هدف را پیش‌بینی می‌کند.

در scikit-learn، پیش پردازنده ها و ترانسفورماتورها به دنباله API مشابه ای که برای براوردگر استفاده می‌کنیم می‌آیند. (در واقع همه آن ها از یک کلاس به اسم BaseEstimator ارث می‌برند.)

اشیاء ترانسفورماتور متد predict ندارند بلکه یک متد transform دارند که به عنوان خروجی ماتریس X که دگرگون شده است را می‌دهند:

from sklearn.preprocessing import StandardScaler
X = [[0, 15],
     [1, -10]]
# scale data according to computed scaling values
StandardScaler().fit(X).transform(X)

گاهی اوقات، شما می‌خواهید تغییرات مختلفی را در ویژگی های مختلف اعمال کنید: ColumnTransformer برای این موارد استفاده طراحی شده است.