如何系统性掌握深度学习模型设计和优化

模型是深度学习的核心技术之一,我们平时在从事相关工作时,有很大一部分精力都在模型设计和优化上。对于新手朋友们来说,往往只会跑一跑别人的模型或者只会盲目的简单修改一下参数,不知道该如何进行设计和优化。
今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升。
文/编辑 | 言有三
1 需要掌握哪些内容
根据不同的用途(刷榜或者工业级部署),模型设计需要实现以下目标:
(1) 获得更高的任务指标。
(2) 获得更快的运行速度。
(3) 获得更小的模型体积。
(4) 获得稳定可靠的性能。
以上各类要求其实对模型设计的侧重点又不同。要获得更高的任务指标,需要不断提高模型的学习能力。要获得更快的运行速度和更小的模型体积,需要优化模型结构。要获得性能稳定的模型,需要保证模型的通用性。
具体涉及的技术又非常多了,下面列举一些常用的。
(1) 模型深度和宽度的设计。
(2) 分辨率和感受野的设计。
(3) 卷积类型,大小,步长的设计。
(4) 正则化技术的设计。
(5) 网络拓扑结构的设计。
(5) 多尺度与信息融合的设计。
(6) 注意力等感知机制的使用。
(7) 量化与剪枝技术的使用。
(8) 半监督/无监督技术的使用。
(9) 一些工程技巧的使用。
(10) AutoML技术的使用。
除了这些内容,还涉及模型的具体训练,部署,转换等各种问题。
2 有三AI已经做了什么
有三从至少三四年之前就致力于CNN网络架构相关的设计和优化研究,至今公众号已经写过很多的文章,知乎也回答过相关的问题,直播也做过几次分享,首先我们回顾一下已有的内容!
在两年多前,有三AI就开始关注模型优化并撰写了相关综述文章和实验文章,如下:
为了压榨CNN模型,这几年大家都干了什么(外链移步公众号)
【技术综述】如何Finetune一个小网络到移动端(时空性能分析篇)(外链移步公众号)
在有三的新书第8章,非常详细地讨论了模型压缩理论和实战。

从去年开始,我们公众号发了非常多的模型结构解读,比如主流的图像分类,分割模型。


现在我们又开始了GAN模型结构相关的分享,如果时间容许还会有其他任务,比如目标检测,跟踪等,很多很多。
另外,我们在《AI修行之路》的不惑境界系列中深刻探讨过网络的宽度和深度对模型性能的影响,并进行了一系列实验的验证!讲述了残差网络,分组网络,多尺度网络,注意力机制等网络的设计。
有三在知乎上也开设过三个相关的直播,分别是《如何设计更加强大的CNN架构》,《如何设计更加高效的CNN架构》,《千奇百怪的CNN网络架构》内容如下:

在这个网络上,比有三更熟悉各种各样的模型架构设计的朋友,已知的恐怕真不多。
3 哪里有更多更新
以上就是全部了吗?当然远远不是,仅仅是九牛一毛。几个月前开始,有三在知识星球平台每天更新各种各样的模型结构,涉及或者即将涉及几乎所有领域。

已经更新有多少不记得了,可能接近200期了,最近的一个总结是这篇,【知识星球】超3万字的网络结构解读,学习必备。
不过现在应该已经超过4万字的解读了,为了方便大家收藏阅读,有三将分享做成了卡片的形式,案例如下:

更多的内容,下面从其中10类中随机挑选出一些给大家感受一下。











今年的目标只有一个:做到500期以上。
4 最后要说的话
老朋友们应该都知道,有三做内容不喜欢推送信息,而是喜欢做原创,系统彻底的原创。因此,每次讲述一个模型,我不会只是告诉大家有什么,而是会细致剖析解读。
在这个系列上,我每天花的时间就超过了3个小时,后面还要增加模型训练和部署相关的内容。
因此,更多的内容都会在有三AI知识星球分享,不会继续在公众号分享。有三AI没有广告收入,希望大家能够理解支持。
如果真的需要,就加入有三AI知识星球,一起讨论学习吧。

另外,网络结构只是有三AI知识星球中的一个板块,还有很多重磅,相信你不会失望。

已经加入的朋友,邀请一位新朋友加入,就可以获得超过50元微信红包的即时奖金噢,系统自动发放。

就是这样了。