来源:https://www.zhihu.com/question/383486199

整理:深度学习与计算机视觉

声明:本文仅作学术交流,如有侵权,请联系删文

作者:匿名用户https://www.zhihu.com/question/383486199/answer/1152839921

计算机视觉是一个方向,可以通过刷过拟合来解决一些工业界的问题,例如检测水泥裂缝。这种方法可以有效地击败传统方法,并且可以通过发表一些无关痛痒的SCI/EI论文来进行学术交流。对于那些希望在计算机视觉领域找到工作的人来说,这种方法并不合适,因为他们很容易被更优秀的人击败。对于打算转行的学生来说,最好的建议是花业余时间掌握一些基础知识,比如C++/Java和Leetcode,毕业后找一份开发方向的工作。对于学历背景较弱(非双一流)的学生来说,这也是最容易走的路。

正经一点:

计算机视觉领域有很多尚未解决的问题,例如COCO数据集的准确度无法提高就是一个典型的例子。要将准确度从50%提高到70%、80%甚至接近ImageNet水平,可能需要基础理论上的突破,而不仅仅是修改网络架构。研究人员的能力是有限的,在计算机视觉领域的入门门槛已经降低到大学生甚至高中生的水平,而且在GitHub上可以轻松找到可以微调参数并获得良好效果的模型。想要在众多调参者中脱颖而出是非常困难的。很有可能研究员在花费三年的博士生涯后,才发现自己在浩如烟海的“计算机视觉从业者”中并没有任何优势。

计算机视觉的应用场景也非常有限,尽管自动驾驶、人脸识别、工业机器人和医学图像检测等领域看起来很有前景。近年来,汽车行业增长乏力,自动驾驶这条路并不容易走。人脸识别已经成为一个即将被解决的问题,并已大规模部署。工业机器人和医学图像检测等领域还处于概念阶段,商业化还有很长一段路要走,工业界根本没有多少职位空缺。

计算机视觉目前处于一个门槛低、从业者多、职业机会少的尴尬局面。一方面,大量的学生涌入该领域,经济环境不景气,就业岗位越来越少。如果你的目标是就业而不是研究,那么我建议你打好开发的基础,并与那些没有超过1万行项目代码的所谓计算机视觉从业者划清界限。

作者:陈历飞https://www.zhihu.com/question/383486199/answer/1192004116

长期看好,短期谨慎。

随便翻开一本深度学习入门教程,你都会看到一个“手写数字识别”的项目,它是人工智能领域的“Hello World”。

通过调优CNN和运行ResNet,似乎每个人都可以成为计算机视觉领域的专家。通过修改模型和损失函数,再使用一个时髦的生成对抗网络,一篇论文就可以呼之欲出了。

那么,为什么开始有人不看好现在的计算机视觉方向呢?

我认为,在学术界,计算机视觉仍然蓬勃发展,但在工业界,它遇到了人工智能领域的普遍问题:难以落地,赚钱难。我来列举一些计算机视觉领域的应用:

1. 无人驾驶

2. AR VR

3. 内容理解

4. 传统领域的赋能(教育、安防、医疗……)

无人驾驶领域是使用计算机视觉最集中的领域,吸引了大量计算机视觉人才。例如,前文提到的计算机视觉的目标检测,在无人驾驶领域具有很高的实用价值。无人驾驶仍处于发展初期,已经有很多公司倒闭,剩下的公司也在勒紧裤腰带,不可能招聘太多人。他们需要的也是能够突破关键技术的顶级人才。如果你不是来自著名高校实验室的学生,很难在竞争中脱颖而出。

AR和VR,与无人驾驶一样,也处于早期阶段。同样地,计算机视觉目标检测技术可以用在抖音等平台上的各种特效中……但是呢?即使性能提高一倍,对这种商业模式和应用场景的影响也是有限的,不像广告和推荐那样能给公司带来直接的收益。对于像抖音这样的大公司来说,都需要考虑性价比,对于小公司来说,直接使用商汤的API就足够了,甚至不需要招聘计算机视觉人员。

内容理解,国外在这一块投入很大,但国内情况或许不一样。据传,国内的每一条内容都有人工审核,人力成本低,直接使用“真人工”智能了……

<img image_type=”1″ img_height=”353″ img_width=”720″ mime_type=”image/jpeg” src=”https://p3-sign.toutiaoimg.com/pgc-image/4951d261a9ff44a08f6f95ba18e5e924~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x

CV的未来仍光明

综合以上观点,我并不是唱衰CV,只是希望跟风进入CV领域的年轻人务必保持理性,而真正的有志者并不会因此而退缩。作为CV从业者,我依然相信这是一个前景广阔、值得探索的方向,让我们携手前行,共创未来!

作者:宝珠道人 https://www.zhihu.com/question/383486199/answer/1190760008
从长期来看,我对CV方向持乐观态度

我部分理解现阶段对CV不乐观的观点,并尝试从我的角度解释这些观点背后的原因。

一、部分观点理解原因:

  1. 进入CV的门槛较低,科研工作相对容易开展。拥有GPU即可开展大量研究工作,论文也相对容易发表,学术界和产业界从事CV相关科研的人数基数庞大且增长迅速(尤其是学术界),导致每年培养的研究生数量激增,就业岗位开始供不应求。
  2. 前几年AI(以CV为代表)领域泡沫过大。不可否认,AI确实带来了技术和应用的进步,但资本界和产业界特别是非计算机专业的人员夸大了其意义。前几年投资容易时,大家自然会采取粗糙莽撞的方式,而从去年开始进入冷却期,再加上今年的疫情,CV需求在短期内下降是难以避免的。
  3. CV虽然能够提升产业界应用的准确度,但更多表现为“锦上添花”而非“至关重要”。这也是旷视、商汤等CV龙头企业在产业界一直不温不火的原因。还需要技术进一步突破才能打开产业应用的天花板。

二、长期乐观的理由:

  1. 人类80%以上的信息都是通过视觉系统获取的。试想一下,如果人类都无法看见,社会生活中现有的许多活动将无法进行。李飞飞教授在其cs231n课程中指出,人类区别于其他生物并能进化到更高层次的一个重要原因在于人类发展出了视觉系统。从这一进化逻辑来看,虽然CV在当前社会生活中并不十分重要,但主要原因是目前的分析技术尚未达到要求,而不是CV本身不重要。随着社会发展,技术终将进步,CV在社会生活中的重要性不断提升是必然趋势。
  2. 科技从技术突破到广泛应用落地需要一定时间周期。近十年来,基于监督学习的深度学习技术在目标检测上取得了突破性进展,与十年前的目标检测技术相比,这一点十分明显。目前,这些技术已经能够实实在在地提升部分医疗影像处理、人脸、工业视觉等应用,但从全面改变这些应用范式的角度来看,还有很长的路要走,毕竟技术只占一方面。近年来半监督/非监督的深度学习技术也在迅速发展,这些技术的突破也会为技术的广泛应用落地打开更多窗口。利用CV技术改变社会生活是一个不可逆转的方向。

三、给CV方向新入行业者的建议:

  1. 深入学习。不要只做调参侠,这个门槛真的不高。利用现成的数据和框架跑出好性能,真的不难,也不构成核心竞争力。大家要扎实地打好基础,你能手写卷积等基本运算吗?你能一步一步推导出大网络的梯度传递吗?
  2. 不要只想着深度学习,要把图像处理及相关的基本功底打好。深度学习是效果相对有保障的一种方法,它对数据和计算资源要求较高。社会生活的方方面面都存在能通过CV技术提升的地方。首先要好好分析具体问题,如果可以通过相对简单的方法解决,部署起来稳定且低成本,为什么非要用深度学习呢。

作者:呆中之歪 https://www.zhihu.com/question/383486199/answer/1178983517

CV、NLP、语音等领域都很好找工作,但不是说训练一个网络就等于CV,你能手写多层感知器的BP算法吗,卷积神经网络呢,循环神经网络呢,长短期记忆网络呢,许多人只了解网络架构,觉得很厉害,处理复杂的数据集,打标签都不会,分布式训练,大数据集需要边读边训练,如果底层优化也不会,只是拿别人的baseline改点小结构,做点小技巧提高0.1%,然后发论文,觉得自己已经上天了。真正厉害的人才(理论+代码)太少了,所以CV和人工智能方向仍然非常缺人,现在让人感觉很火爆,但其实大部分都是水,现在硕士学位动不动就是非算法不找,其实真的没必要,算法工程师的前提是工程师。

CV仍然非常缺人,NLP现在看起来比CV更好找工作,原因很简单,NLP还没有被深度学习完全替代,传统算法需要学习,而那些数学基础一般的NLP根本学不会,所以自然会劝退他们,但CV也有需要大量基础的地方,但现在这个方向学习太表面化和浮躁。不过现在也逐渐降温,公司也不是养闲人的地方,公司也不需要你会推公式,研究通常只建立一个实验室,找博士就足够了,而CV工程师呢,企业需要的是(代码能力+理论分析能力)极强的人。

作者:匿名用户 https://www.zhihu.com/question/383486199/answer/1204285642

说多了就是内卷

无论CV还是NLP,即使算力充足,模型容量提高10倍,最终反映到点数上,可能与现有模型不会有太大的优势。最早最老的Google BERT仍然很出色,更不用说许多地方还不流畅地运行BERT。

再说应用。要进一步拓展CV的应用范围,必须发展基于视觉的理解,许多应用只给定一个标签是不够的,更通用的应用是通过视觉输入映射到更多样化的决策空间。随之而来的问题是,数据制作更加复杂,产量更低,而且QA复杂。结果就是问题变得更加复杂,但数据却更少,而且健壮性还必须得到保证。

继续在现有的一些成熟任务上投入人力+硬件,对于各个公司来说,除了公关之外,收益真的很小了。烧钱的研究最终还是要由商业需求来埋单,如果你是AI公司的老板,是固定HC,你会找工程师还是找销售?答案显而易见啊。

更不用说现在全球肆虐的新冠疫情,近两年的R&D在各个公司肯定都是重灾区。

作者:yutenghttps://www.zhihu.com/question/32. 发展瓶颈:当学术界在创新前沿遇阻时,该领域将进入积累期。急于求成的学者可能会转向更热门的新兴领域,寄希望于这些领域即将迎来爆发。
3. 就业困境:如果学术突破对产业影响有限,产品升级无法带来显著便利和价值,则本领域就业竞争加剧,进而影响求学者对该领域的兴趣。本人认为计算机视觉在产学研方面仍有巨大潜力,技术革新和产品革新指日可待。
总结:计算机视觉是一个刚需领域,具有巨大的学术价值和潜力。在这个领域,脚踏实地的研究者会比急功近利者取得更出色的成果,共同推动该领域发展得更快更强。
作者:JianquanLihttps://www.zhihu.com/question/383486199/answer/1198096611
计算机视觉的目标检测:
学术界:在清晰图像中准确识别所有目标。
工业界:在复杂的实时视频流中,低成本地检测出有效目标,并获取其在世界坐标系下的关系,满足低漏检率和误检率的要求。
简言之:学术界和工业界对相同技术的期望差异显著。