数据科学导论复习与考试总结
数据科学概述 机器学习 机器学习是一门人工智能的科学,该领域的主要研 究对象是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进计算机算法的研 究。 有监督学习:基于输入数据及目标值建立模型 无监督学习:无监督学习不指定目标值或预先无法知道目标值 深度学习解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并利用这些组合特征解决问题,深度学习是机器学习的一个分支。 数据挖掘算法概述 分类 回归 一元线性回归 多元线性回归 SVM支持向量机 KNN 近邻 决策树 朴素贝叶斯 聚类 K-Means K均值 层次聚类 谱聚类 DBSCAN(基于密度) 集成算法 Bagging Boosting Stacking 模型评价 分类模型:混淆矩阵、正确率、召回率 回归模型:平方绝对差、均方误差、决定系数 聚类模型:内部指标、外部指标、轮廓系数 数据预处理 描述性数据汇总 分布式度量 代数度量 整体度量 度量中心趋势 经验公式计算众数mean−mode=3*(mean − median) 方差和标准差(standa...



