Python使用 sklearn pipeline进行数据清洗

news/2025/2/25 13:45:49

setup pipeline

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
(‘imputer’, Imputer(strategy=“median”)), #中值写入
(‘attribs_adder’, CombinedAttributesAdder()),#增加比例列
(‘std_scaler’, StandardScaler()),#标准化
])
housing_num_tr = num_pipeline.fit_transform(housing_num)

And a transformer to just select a subset of the Pandas DataFrame columns:
from sklearn.base import BaseEstimator, TransformerMixin

Create a class to select numerical or categorical columns

since Scikit-Learn doesn’t handle DataFrames yet

class DataFrameSelector(BaseEstimator, TransformerMixin):
def init(self, attribute_names):
self.attribute_names = attribute_names
def fit(self, X, y=None):
return self
def transform(self, X):
return X[self.attribute_names].values

2. 建立总的pipeline*

num_attribs = list(housing_num)
cat_attribs = [“ocean_proximity”]

num_pipeline = Pipeline([
(‘selector’, DataFrameSelector(num_attribs)),
(‘imputer’, Imputer(strategy=“median”)),
(‘attribs_adder’, CombinedAttributesAdder()),
(‘std_scaler’, StandardScaler()),
])

cat_pipeline = Pipeline([
(‘selector’, DataFrameSelector(cat_attribs)),
(‘cat_encoder’, CategoricalEncoder(encoding=“onehot-dense”)),
])

from sklearn.pipeline import FeatureUnion

full_pipeline = FeatureUnion(transformer_list=[
(“num_pipeline”, num_pipeline),
(“cat_pipeline”, cat_pipeline),
])
housing_prepared = full_pipeline.fit_transform(housing)
housing_prepared

Python使用 sklearn pipeline进行数据清洗

Create a class to select numerical or categorical columns

since Scikit-Learn doesn’t handle DataFrames yet

相关文章

Swift iOS macOS 多语言支持，国际化支持， Localization Localizable

Swift iOS macOS 字符串插入到已排序的数组中，字符串对比

python 回归和决策树数据验证和参数调整

Swift iOS macOS 如何 Localize StoryBoard，StoryBoard 本地化，添加多语言支持，基于 String

Integer类型的数据比较大小

使用NLP从文章中自动提取关键字

Power BI中的QA功能预览

用户关闭页面前提示，提醒保存内容 Window 的 unload onunload onbeforeunload 事件