大数据分析复习与考试总结
刘盛华部分 第二章 大数据分析技术与系统 第1节 数据与计算的演变 第2节 大数据分布式计算模型 大数据分析算法特点: 以优化为中心,多轮迭代直到收敛,容错高。 序列计算 在处理器上按照先后顺序进行 将问题分解为指令序列,按顺序依次执行指令,在一个处理器上执行所有指令,任意时间片里处理器只有一条指令在执行。 并行计算 将问题分解为可以并发处理的子问题 每一个子问题分为逻辑虚列 需要一个总体的控制机制 在大数据处理中 O(n2)算法很难处理intractable 算法可扩展(scalable)性 当c=0,A是线性scalable,当 A(n)=o(1)A(n) = o(1)A(n)=o(1) 是super scalable Cost Measures Communication cost = total I/O of all processes Elapsed communication cost = max of I/O along any path 第3节 分布式计算系统:map-reduce **Map:**读取输入值,生成key-value对。 用户设计ma...
图像处理复习与考试总结
第三章:空域图像处理 第四章:频域图像处理 第五章:图像噪声建模与图像恢复 第七章:多分辨率分析与小波变换 考试总结 考试题型:填空题,选择题,判断题,简答题,计算分析题。全都是考前两三天可以学完的。z变换忘学了,其他地方应该也写错了较多。主要是没搞到2019年的卷子,听说都是那年的原题。问题不大,能过就行。
KDD'22 Cam_Traj_Rec文献阅读与复现
KDD’22 Cam_Traj_Rec 论文简介 Fudan Yu∗, Wenxuan Ao∗, Huan Yan†, Guozhen Zhang, Wei Wu, and Yong Li. 2022. Spatio-Temporal Vehicle Trajectory Recovery on Road Network Based on Traffic Camera Video Data. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’22), August 14–18, 2022, Washington, DC, USA. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3534678.3539186 复现细节 文件结构 数据文件 camera_info.pkl 1234class: listlen(): 147# 例:000: {'id...
CVPR'2017 Recurrent FGVC-RA-CNN
Abstract 识别纹理细密的物体类别,判别区域定位(discriminative region localization)和细粒度特征学习(fine-grained feature learning)是很具有挑战性的。区域检测(region detection)和细粒度特征学习(fine-grained feature learning)之间的相互关联性,可以互相强化,循环注意力卷积神经网络(recurrent attention convolutional neural network——RA-CNN),用互相强化的方式对判别区域注意力(discriminative region attention)和基于区域的特征表征(region-based feature representation)进行递归学习。在每一尺度规模(scale)上进行的学习都包含一个分类子网络(classification sub-network)和一个注意力建议子网络(attention proposal sub-network——APN)。APN 从完整图像开始,通过把先期预测作为参考,由粗到细迭...
Python文件读取
在对想要预测的文件夹进行文件操作时的学习,读取文件结构和按照文件读取。 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758#!/usr/bin/python # -*- coding:utf8 -*-import predictimport os#fileList = os.listdir('D:\Desktop\部分识别样本\部分识别样本')#print(fileList)allFileNum = 0 def printPath(path, level = 1): global allFileNum ''''' 打印一个目录下的所有文件夹和文件 level:当前目录级别 path:当前目录路径 ''' # 次目录的级别 dirList = [] ...
信号与系统复习与考试总结
绪论 信号 周期信号与非周期信号 能量信号与功率信号 典型连续间信号 正弦信号 指数信号 抽样信号 系统 因果系统与非因果系统 稳定系统与非稳定系统 线性系统与非线性系统 时不变系统和时变系统 连续时间系统的时域分析 电路系统的古典解法 通解-自然响应-零输入相应 特解-受迫相应-零状态响应 系统方程的算子表示法 微分算子 转移算子 H(p)=N(p)D(p)H(p)=\frac{N(p)}{D(p)}H(p)=D(p)N(p) 系统的零输入响应-解齐次方程 特征多项式 D(p)=0D(p)=0D(p)=0 的根为特征根 λi\lambda_iλi,自然频率 无重根 有重根 系统的零状态响应-激励和单位冲激相卷积 任意函数可以分解为冲激函数积分 奇异函数 单位阶跃函数 冲激函数 阶跃响应和冲激响应-求解h(t) 激励函数表示为冲激函数的积分 冲激响应的特解有标准的形式 用系统转移算子 H(p)H(p)H(p) 计算 h(t)h(t)h(t) 零状态响应由激励函数与冲激卷积积分求得 rzs(t)=e(t)∗h(t)r_{z_s}...
数据科学导论复习与考试总结
数据科学概述 机器学习 机器学习是一门人工智能的科学,该领域的主要研 究对象是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进计算机算法的研 究。 有监督学习:基于输入数据及目标值建立模型 无监督学习:无监督学习不指定目标值或预先无法知道目标值 深度学习解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并利用这些组合特征解决问题,深度学习是机器学习的一个分支。 数据挖掘算法概述 分类 回归 一元线性回归 多元线性回归 SVM支持向量机 KNN 近邻 决策树 朴素贝叶斯 聚类 K-Means K均值 层次聚类 谱聚类 DBSCAN(基于密度) 集成算法 Bagging Boosting Stacking 模型评价 分类模型:混淆矩阵、正确率、召回率 回归模型:平方绝对差、均方误差、决定系数 聚类模型:内部指标、外部指标、轮廓系数 数据预处理 描述性数据汇总 分布式度量 代数度量 整体度量 度量中心趋势 经验公式计算众数mean−mode=3*(mean − median) 方差和标准差(standa...
使用朴素贝叶斯进行个人信用风险评估
朴素贝叶斯 朴素贝叶斯方法是基于贝叶斯定理的一组有监督学习算法,即“简单”地假设每对特征之间相互独立。 给定一个类别yyy和一个从x1x_1x1到xnx_nxn的相关的特征向量,贝叶斯定理阐述了一下关系: P(y∣x1,…,xn)=P(y)P(x1,…,xn∣y)P(x1,…,xn)P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \dots, x_n \mid y)}{P(x_1, \dots, x_n)} P(y∣x1,…,xn)=P(x1,…,xn)P(y)P(x1,…,xn∣y) 使用简单(naive)的假设-每对特征之间都相互独立: P(xi∣y,x1,…,xi−1,xi+1,…,xn)=P(xi∣y)P(x_i | y, x_1, \dots, x_{i-1}, x_{i+1}, \dots, x_n) = P(x_i | y) P(xi∣y,x1,…,xi−1,xi+1,…,xn)=P(xi∣y) 对于所有的iii都成立,这个关系式可以简化为: P(y∣x1,…,xn)=P(y)∏i=1nP...








