2026/4/18 19:35:52
网站建设
项目流程
18款禁用网站app直播,网站建设要注意,北京手机软件开发,wordpress归档侧边栏按分类一、核心结论Pandas是AI数据预处理的核心工具#xff0c;通过“数据清洗→特征工程→格式转换”流程#xff0c;配合高效函数#xff08;如fillna/groupby/pivot_table#xff09;#xff0c;可将数据处理效率提升60%#xff0c;为模型训练奠定高质量数据基础。二、数据清…一、核心结论Pandas是AI数据预处理的核心工具通过“数据清洗→特征工程→格式转换”流程配合高效函数如fillna/groupby/pivot_table可将数据处理效率提升60%为模型训练奠定高质量数据基础。二、数据清洗从“脏数据”到“可用数据”1. 缺失值处理fillna与dropna场景处理空值NaN避免模型训练报错。实战技巧数值型缺失用均值/中位数填充避免极端值影响python df[age].fillna(df[age].median(), inplaceTrue) # 中位数填充年龄类别型缺失用众数或“Unknown”填充python df[city].fillna(df[city].mode()[0], inplaceTrue) # 众数填充城市删除无效行缺失值比例过高时如50%python df.dropna(subset[critical_feature], inplaceTrue) # 删除关键特征缺失的行2. 重复值处理drop_duplicates场景去除重复数据避免模型学习冗余信息。实战技巧python df.drop_duplicates(subset[id], keepfirst, inplaceTrue) # subset指定去重依据列如用户IDkeepfirst保留第一条3. 异常值处理clip与IQR法则场景识别并修正极端值如年龄200。实战技巧截断法限制数值范围如年龄1-120岁python df[age] df[age].clip(lower1, upper120) # 超出范围的强制设为边界值IQR法则删除3倍IQR外的异常值python Q1 df[price].quantile(0.25) Q3 df[price].quantile(0.75) IQR Q3 - Q1 df df[(df[price] Q1 - 3*IQR) (df[price] Q3 3*IQR)]三、特征工程从“原始数据”到“模型特征”1. 特征转换astype与replace场景数据类型转换如字符串→数值、类别映射。实战技巧类型转换将“字符串日期”转为datetimepython df[timestamp] pd.to_datetime(df[timestamp], format%Y-%m-%d)类别映射将“男/女”转为0/1python df[gender] df[gender].replace({男: 0, 女: 1})2. 特征提取str.extract与dt属性场景从文本/日期中提取关键信息。实战技巧智优达从文本提取数字如从“价格99元”提取99python df[price] df[text].str.extract((\d)).astype(float) # 正则提取数字从日期提取特征如星期几、月份python df[day_of_week] df[timestamp].dt.dayofweek # 0周一6周日3. 特征聚合groupby与pivot_table场景按类别统计如“各城市平均收入”。实战技巧基础聚合计算各分组均值/总和python city_avg_income df.groupby(city)[income].mean().reset_index()数据透视表多维度聚合如“城市×性别”的收入均值python pivot df.pivot_table( indexcity, columnsgender, valuesincome, aggfuncmean )四、数据格式转换为模型训练准备输入1. 独热编码get_dummies场景将类别特征转为模型可接受的数值如“城市”→多个0/1列。实战技巧python df pd.get_dummies(df, columns[city], drop_firstTrue) # columns指定需编码的列测drop_firstTrue去除冗余特征。2. 标准化/归一化场景统一数据尺度提高模型训练效果。智优达实战技巧python from sklearn.preprocessing import StandardScaler scaler StandardScaler() df[normalized_value] scaler.fit_transform(df[value])3. 特征选择筛选与排序特征选择通过相关性分析选择重要特征。代码示例python corr df.corr() print(corr)4. 数据拆分数据拆分将数据集分为训练集和测试集。代码示例python from sklearn.model_selection import train_test_split X df.drop(target, axis1) y df[target] X_train, X_test, y_train, X_train, y_train, X_test, y_test train_test_split(X, y, test_size0.2, random_state42)总结通过合理的预处理可大幅提升模型性能。建议优先处理数据清洗和特征工程确保数据质量。