机器学习太讨厌！细数ML五大罪，引发网友大讨论

鱼羊 2019-07-15 13:12:44 来源：量子位

机器学习是天使还是魔鬼？

鱼羊发自凹非寺

量子位报道 | 公众号 QbitAI

在当今的人工智能领域，机器学习已成主宰，独领时代风骚。

但登上技术王座并不意味着地位永固，万众归心。

偏偏就有人不买账，恨不能拿着大喇叭向全世界宣布：讨厌机器学习！

甚至还有理有据，灵魂拷问机器学习。

振臂一呼，追随者众。对机器学习的质疑掀起波澜，引发了一片热议。

五问机器学习

质疑源自一位不愿透露姓名的人工智能研（shou）究（nue）者。

灵魂质疑一：今年的技术明年就out

当年还说RNN好，转头就投入了CNN的怀抱。

如果不做技术的弄潮儿，转眼机器学习的大浪就把你拍死在沙滩上。

技术迭代是正常的，可无休止的更新会让一天的专注学习全都付诸流水。

灵魂质疑二：付费墙

想做机器学习，数据集和算力缺一不可。

拥有更强大的计算资源，你就可以快人一步地训练并测试方案。

那不就是比谁更能烧钱吗？

诚然在许多工业领域，资金投入一样非常重要，钱总能带来更快更好的进步，但在机器学习领域，问题远不止于此。

只要肯烧钱，即使你的数据集分类器是一坨垃圾，你的模型也可能比别人学得更快更好——这才是问题所在。

哦，做数据集也要花钱呢！

这还不够让人讨厌的吗？

灵魂质疑三：code/改进机器学习代码令人沮丧

黑盒是老生常谈了，但你可知道，它竟给程序员造成了精神折磨？

码代码解决问题给人一种创造的快感，但神经网络的黑盒属性破坏了这一切。

做一个炼丹师会快乐吗？不会的。我调参了，我的分类准确度提升了，可它是为什么提升的？鬼知道！

这位工程师举了个例子，Ta曾花费了数周的时间在改变输入数据的形态和设置，调整每个层的节点数量这样的事情上，然而，这一切毫无效果。

有一天Ta把稠密层上的激活函数从relu换成了selu，神奇的事情出现了，只是改变了字母，网络的准确度就超越了过去几周里所有的尝试！

这样的感觉太糟糕了，就好像你并把握不住你的代码。你做出了调整并且也知道会有所改进，可这个改进在何时何地以何种程度出现，没人能给出准确的答案。

花费在这种事情上的时间越久，失望的感觉就会捆得人越紧，到底是我玩机器学习，还是机器学习玩我？

工程师可不是无情的调参机器啊。

灵魂质疑四：依赖数据集

没有数据集的神经网络是没有灵魂的空壳，可数据集会存在什么样的bias可说不好。

拿考试复习来举个例子，非机器学习的方式是从头开始建立对学习资料的理解，扎实的理解足以解决任何可能出现的问题。

而机器学习的方式则是搜集教授前几年出的试题，而后疯狂刷题。

诚然刷题可能会让成绩更好看，但问题是在考试结束之后，在实际解决问题之时，真正掌握了知识的人更有可能发挥坚实的作用。

更糟糕的是，在机器学习的逻辑里，如果答题出错，那么一定是因为这道题没出过。

在实际应用场景当中，神经网络会把数据集里的固有偏差变成自己的特质，在遇到以前没有见过的情况时它就变成了那个不靠谱的猪队友。

灵魂质疑五：建议使用机器学习解决问题的人和真正的ML工程师缺乏联系

引发热议

五点质疑引起热烈讨论，许多人产生了共鸣：

我非常烦恼的是有些人文章写得稀烂还沾沾自喜，要是不开源代码，我压根不想读他们的文章。在这个领域里，许多结果根本无法重现。

付费墙这件事我也很想吐槽。看英伟达的论文里说的：噢，看我们这个网络多么鹅妹子嘤，你只需要8个V100就能复现我们的工作哟。简直想打人。

赞成。让模型变快基本就是纯靠经验，课程和教材都没啥帮助。不过倒是有一些技术标准可以用来诊断模型里偏差 vs. 方差的问题。

也有人不以为然：

我认为这些方法并没有变化得那么快。注意力机制是在2013年提出的，但它对机器翻译来说依然非常重要。同样的例子还有LSTM，90年代末期它就出现了。

甚至是RNN，尽管用的比以前少了（这也是有争议的），但ResNet在概念上仍对LSTM有很大影响。

机器学习的准入门槛很低了，有时候甚至能从Google和AWS上拿到免费的GPU时间。即使是在计算机科学领域，ML也不是最贵的。更何况ML是非常开放的，很多最新研究成果都能轻松获取。

其实，机器学习还是一个非常年轻的领域，它潜力巨大，但这也意味着存在许多未知。随着基础研究的推进，这个黑盒在未来很可能渐渐透明，发挥更加强大的超能力。

你觉得呢？

— 完 —

机器学习

鱼羊

机器学习太讨厌！细数ML五大罪，引发网友大讨论

五问机器学习

引发热议

相关阅读

阿里达摩院提出时序预测新模型精准预测电网负荷

完胜ReLU！斯坦福的神经网络采用这种激活函数，竟高保真还原各种图像视频

深挖之后吓一跳，谷歌AI专利何止一个dropout，至少30项今日生效

不写代码，用图形界面搞机器学习：MIT发布“全球最快AutoML”，刷新DARPA比赛成绩

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

8亿参数，刷新ImageNet纪录：何恺明团队开源最强ResNeXt预训练模型

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会

机器学习太讨厌！细数ML五大罪，引发网友大讨论

五问机器学习

引发热议

相关阅读

阿里达摩院提出时序预测新模型 精准预测电网负荷

完胜ReLU！斯坦福的神经网络采用这种激活函数，竟高保真还原各种图像视频

深挖之后吓一跳，谷歌AI专利何止一个dropout，至少30项今日生效

不写代码，用图形界面搞机器学习：MIT发布“全球最快AutoML”，刷新DARPA比赛成绩

谷歌“史上最强GAN”，现在有了PyTorch预训练版，可直接玩耍 | 代码

8亿参数，刷新ImageNet纪录：何恺明团队开源最强ResNeXt预训练模型

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会

阿里达摩院提出时序预测新模型精准预测电网负荷