西南科技大学数据挖掘技术课程设计.zip资源-CSDN文库资源-CSDN文库

共2个文件

xlsx：1个

py：1个

需积分: 5 46 浏览量 2025-01-14 14:24:19 上传评论收藏 692KB ZIP 举报

随着信息技术的飞速发展，数据挖掘技术已成为当今研究和应用的热点领域之一。数据挖掘技术的核心目的是从海量数据中提取有价值的信息和知识，这些知识可以是以前未知的，具有潜在的商业价值或能为决策提供支持。西南科技大学作为一所综合性大学，紧跟时代潮流，开设了数据挖掘技术课程设计，旨在培养学生的实践能力，让学生通过实际的项目来掌握和应用数据挖掘的理论和方法。在这份课程设计中，学生们面对的是一个具体的应用场景——能源厂工业生产指标预测。能源厂的生产过程复杂，涉及众多的指标和变量，如产量、质量、能耗、排放量等。通过对这些指标的预测，能够帮助能源厂优化生产流程，提高资源利用效率，降低环境污染，增强市场竞争力。学生们通过编写“能源厂工业生产指标预测.py”脚本，可能使用了机器学习算法，例如时间序列分析、回归分析、聚类分析等，来处理和分析历史数据，并根据这些数据建立预测模型。此外，“数据挖掘——预测.xlsx”是一个电子表格文件，它可能包含了课程设计中所需的数据集，或者是对预测结果的整理和分析。电子表格是数据分析中常用的一种工具，它便于数据的输入、处理和可视化展示。在数据挖掘项目中，电子表格通常用于记录原始数据、处理后的数据、模型参数、预测结果等关键信息，辅助研究者更直观地理解数据特征，验证模型的准确性和可靠性。数据挖掘不仅要求研究者掌握扎实的理论知识，还需要具备良好的编程能力和数据分析技能。在实际的项目中，研究者可能需要使用Python、R、MATLAB等编程语言和相关数据挖掘软件，如Weka、RapidMiner、KNIME等。通过这些工具，研究者可以进行数据清洗、转换、建模、评估等操作，最终输出有价值的预测结果。通过西南科技大学的数据挖掘技术课程设计，学生们不仅能够学习到数据挖掘的基本概念、方法和工具，还能通过实际的案例来加深理解，提升实践能力。该课程设计不仅对学生们未来从事数据科学相关工作有着极大的帮助，也对他们在其他领域的研究和工作中运用数据挖掘技术提供了宝贵的经验。数据挖掘技术的广泛应用已经渗透到社会经济生活的各个层面，从商业智能、金融分析到医疗健康、交通管理等，无一不体现了数据挖掘技术的重要价值。因此，对于未来想要在数据科学领域有所建树的学生而言，西南科技大学提供的这门课程设计无疑是一次难得的实践机会。

资源推荐

资源详情

资源评论

收起资源包目录

西南科技大学数据挖掘课程设计.zip （2个子文件）

能源厂工业生产指标预测.py 9KB

数据挖掘——预测.xlsx 698KB

import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.ensemble import RandomForestRegressor from sklearn.svm import SVR from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt import seaborn as sns from sklearn.tree import DecisionTreeRegressor from sklearn.metrics import mean_squared_error from sklearn.model_selection import cross_val_score file_path = '数据挖掘——预测.xlsx' data = pd.read_excel(file_path) # 分离特征和目标变量 X = data.drop('target', axis=1) y = data['target'] #计数、平均值、标准差、最小值、四分位数（25%、50%、75%）和最大值 print(X.describe())#打印X的描述性统计信息 # 检查缺失值 # 打印每列中缺失值的数量 print(X.isnull().sum()) # 检查是否有重复的行 print(X.duplicated().any()) #去掉重复行 X = X.drop_duplicates() # 检查数据类型 print(X.dtypes) # 检查数据分布 for col in X.columns: print(col) print(X[col].value_counts()) #检查异常值 for col in X.columns: if X[col].dtype == 'object': continue else: q1 = X[col].quantile(0.25) q3 = X[col].quantile(0.75) iqr = q3 - q1 lower_bound = q1 - (1.5 * iqr) upper_bound = q3 + (1.5 * iqr) outliers = X[(X[col] < lower_bound) | (X[col] > upper_bound)] print(f"{col} 中的异常值: {outliers}") corr_matrix = X.corr()#计算X的相关性矩阵 print(corr_matrix) # 可视化相关性矩阵 # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False #可视化 plt.figure(figsize=(15, 8)) #annot=False意味着不在单元格中显示数值,颜色映射 sns.heatmap(corr_matrix, annot=False, cmap='coolwarm', xticklabels=X.columns, yticklabels=X.columns) plt.title('特征相关性矩阵') plt.xticks(rotation=0) # x轴标签旋转0度 plt.yticks(rotation=0) # y轴标签旋转0度 plt.show() # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 输出划分结果，确认操作成功 print(f"训练集大小: {X_train.shape}")#打印训练集大小 print(f"测试集大小: {X_test.shape}")#打印测试集大小 print(f"训练集目标变量的分布: {y_train.value_counts()}")#打印训练集目标变量的分布 print(f"测试集目标变量的分布: {y_test.value_counts()}")#打印测试集目标变量的分布 # 特征缩放 scaler = StandardScaler()#创建一个标准化器对象 X_train_scaled = scaler.fit_transform(X_train)#对训练集进行标准化处理 X_test_scaled = scaler.transform(X_test)#对测试集进行标准化处理 # 线性回归模型 linear_model = LinearRegression()#创建一个线性回归模型对象 linear_model.fit(X_train_scaled, y_train)#训练模型 y_train_pred_linear = linear_model.predict(X_train_scaled)#预测训练集 y_test_pred_linear = linear_model.predict(X_test_scaled)#预测测试集 mse_train_linear = mean_squared_error(y_train, y_train_pred_linear)#计算训练集和测试集的均方误差 mse_test_linear = mean_squared_error(y_test, y_test_pred_linear)#计算训练集和测试集的均方误差 print("线性回归模型:") print(f"训练集上的均方误差（MSE）: {mse_train_linear:.4f}") print(f"测试集上的均方误差（MSE）: {mse_test_linear:.4f}\n") #结果可视化 plt.figure(figsize=(10, 6)) plt.scatter(y_train, y_train_pred_linear, label='训练集') plt.scatter(y_test, y_test_pred_linear, color='red', label='测试集') plt.plot([min(y), max(y)], [min(y), max(y)], linestyle='--', color='gray', linewidth=2) plt.xlabel('真实值') plt.ylabel('预测值') plt.legend() plt.title('线性回归模型') plt.show() # 交叉验证线性回归模型 #使用5折交叉验证来评估一个线性模型在缩放后的训练数据集上的性能，并计算其均方误差 scores_linear = cross_val_score(linear_model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error') #计算线性回归模型的交叉验证均方误差 print("线性回归模型 - CV MSE:", -scores_linear.mean(), "+/-", scores_linear.std(), "\n") # 随机森林回归模型 # 初始化随机森林回归模型 rf_model = RandomForestRegressor(n_estimators=100, random_state=42) # 训练模型 rf_model.fit(X_train_scaled, y_train) # 预测 y_train_pred_rf = rf_model.predict(X_train_scaled) y_test_pred_rf = rf_model.predict(X_test_scaled) mse_train_rf = mean_squared_error(y_train, y_train_pred_rf) mse_test_rf = mean_squared_error(y_test, y_test_pred_rf) print("随机森林回归模型:") print(f"训练集上的均方误差（MSE）: {mse_train_rf:.4f}") print(f"测试集上的均方误差（MSE）: {mse_test_rf:.4f}\n") #结果可视化 plt.figure(figsize=(10, 6)) plt.scatter(y_train, y_train_pred_rf, label='训练集') plt.scatter(y_test, y_test_pred_rf, color='red', label='测试集') plt.plot([min(y), max(y)], [min(y), max(y)], linestyle='--', color='gray', linewidth=2) plt.xlabel('真实值') plt.ylabel('预测值') plt.legend() plt.title('随机森林回归模型') plt.show() # 交叉验证随机森林回归模型 scores_rf = cross_val_score(rf_model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error') print("随机森林回归模型 - CV MSE:", -scores_rf.mean(), "+/-", scores_rf.std(), "\n") # 初始化决策树回归模型 dt_model = DecisionTreeRegressor(random_state=42) # 训练模型 dt_model.fit(X_train_scaled, y_train) # 使用模型进行预测 y_train_pred_dt = dt_model.predict(X_train_scaled) # 训练集上的预测 y_test_pred_dt = dt_model.predict(X_test_scaled) # 测试集上的预测 # 计算均方误差（MSE） mse_train_dt = mean_squared_error(y_train, y_train_pred_dt) mse_test_dt = mean_squared_error(y_test, y_test_pred_dt) # 输出MSE结果 print("决策树回归模型:") print(f"训练集上的均方误差（MSE）: {mse_train_dt:.4f}") print(f"测试集上的均方误差（MSE）: {mse_test_dt:.4f}\n") #结果可视化 plt.figure(figsize=(10, 6)) plt.scatter(y_train, y_train_pred_dt, label='训练集') plt.scatter(y_test, y_test_pred_dt, color='red', label='测试集') plt.plot([min(y), max(y)], [min(y), max(y)], linestyle='--', color='gray', linewidth=2) plt.xlabel('真实值') plt.ylabel('预测值') plt.legend() plt.title('决策树回归模型') plt.show() # 交叉验证决策树回归模型 scores_dt = cross_val_score(dt_model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error') print("决策树回归模型 - CV MSE:", -scores_dt.mean(), "+/-", scores_dt.std(), "\n") # 支持向量回归模型 svr_model = SVR(kernel='rbf', C=100, gamma='scale', epsilon=0.1) svr_model.fit(X_train_scaled, y_train) y_train_pred_svr = svr_model.predict(X_train_scaled) y_test_pred_svr = svr_model.predict(X_test_scaled) mse_train_svr = mean_squared_error(y_train, y_train_pred_svr) mse_test_svr = mean_squared_error(y_test, y_test_pred_svr) print("支持向量回归模型:") print(f"训练集上的均方误差（MSE）: {mse_train_svr:.4f}") print(f"测试集上的均方误差（MSE）: {mse_test_svr:.4f}\n") #结果可视化 plt.figure(figsize=(10, 6)) plt.scatter(y_train, y_train_pred_svr, label='训练集') plt.scatter(y_test, y_test_pred_svr, color='red', label='测试集') plt.plot([min(y), max(y)], [min(y), max(y)], linestyle='--', color='gray', linewidth=2) plt.xlabel('真实值') plt.ylabel('预测值') plt.legend() plt.title('支持向量回归模型') plt.show() # 交叉验证支持向量回归模型 scores_svr = cross_val_score(svr_model, X_train_scaled, y_train, cv=5, scoring='neg_mean_squared_error') print("支持向量回归模型 - CV MSE:", -scores_svr.mean(), "+/-", scores_svr.std(), "\n") # X.columns是一�

评论收藏

内容反馈