首页 > 图像处理 > 正文

cv tips

标签:cv tips


目录

图片分类

提特征:

  1. 对空间建模
  2. 各像素当做bag of words
  3. 对图片做金字塔分割

处理特征:

pca 降维 bootstrap 增维

视频分类: 提取视频内的interest point

特征:有区分性和鲁棒性,合适的特征是任务驱动的

普通的nn是不具备平移不变性的,而cnn可以,因为同一个卷积核在不同位置的权重是一样的

imgnet: top5:打5个标签 有一个对就算对

vgg:不断用3*3的卷积核

inception: google系的,用各种不同大小的卷积核,然后再拼起来

分组卷积:嵌入式的地方常用,mobilenet,因为速度快。例如256层,变成8组,每组32层,在cpu上加速很快,在gpu一般

残差:2015年的paper,在所有网络都有提升

se-net:引入se-block,在所有网络都有提升==》浅层、中层、深层 分别去做分类,然后把结果merge到一起

视频分类:先对每个图做光流,然后把rgb和光流图一起去做分类

用上lstm: 1.拿出最后一个隐状态的结果做分类 2.把每一个时间步的状态做pooling,再分类,会稍微好一点

  1. attention : 每一帧做卷积 再做softmax 得到一个一维的权重==》aaai 2018

做3d的卷积,直接输入32张图,32*3个channel,然后分块卷积,参数变大了

空间维度,先用一个cnn提取出1024维,t个时间步,看成1024个channel的图像,高1,宽是t,就变成了一个图像分类问题

与3d卷积相比,参数少很多

训练时 会采样,例如只采样10帧(不用采太多),采一样多zhen,只要样本够多;测试可以所有帧

分类 欠拟合:区分性不足, 解决:把类别分细一点,类间不要有重合 加batchnorm

过拟合:对于hardsample,不容易区分是哪一类,人工加入正确的样本

交叉熵等价mle 加入weightdecay等价于map

学习率优化(2个很有效的方法):

cos annealing sgd+nestrov momentom

plateau anealing + rmsprop

图文相关性

百度去搜图 搜出top10的 提出来 当做这个文本的表示

ocr:一般先做检测再做分类



上篇: tensorflow基础用法
下篇: nginx

comment here..