机器学习的入门平台天花板,还可免费实操经典教程,确实也没谁了

最近,我发现有平台干了个更给劲的事。

韩智 边策 发自 凹非寺
量子位 报道 | 公众号 QbitAI

论 AI 圈活菩萨,非李沐老师莫属。

前有编写「动手学深度学习」,成就圈内入门经典,后又在B站免费讲斯坦福 AI 课,一则艰深硬核讲论文的视频播放量36万,不少课题组从导师到见习本科生都在追番。

如此给劲的分享,难怪不少人骄傲自称「已拜在老师门下」——

而最近,我发现有平台干了个更给劲的事。

这个平台无偿提供算力不说,还将入门经典「动手学深度学习」放进平台,免费供大家学习和实操,名曰:Amazon SageMaker Studio Lab 。

图片

按介绍说法,该平台基于 JupyterLab,提供免费 GPU 和 CPU 算力+15G永久存储功能,还与 GitHub 链接,支持主流机器学习工具组件和开源资源包使用,开发者可结合「动手学深度学习」教材自行训练模型、看结果。

而且,他们还号称申请只需一个邮箱,不要官方账号,更不用填什么信用卡。

真有这么好的事?

今天就带着大家一起亲测试试。

真能实操「动手学深度学习」案例?

通过链接 studiolab.sagemaker.aws ,我们即可登入 web 端平台,探探虚实。

  • 哪能找到「动手学深度学习」?

从界面能看到,平台提供 GPU/CPU 算力选择,而且,可直接开启使用,确实无需付款。

右下角,我们就能看到那本 Dive into Deep Learning (缩写为 D2L )。

直接点击 Open D2L notebooks 可打开:

图片

开启项目后,系统自动加载D2L资源,并存储在我们的云上文件夹中。

README 文件也一并打开好了,在这里面,系统环境配置、全书概要、面向受众、目录框架一应俱全。文末还有每个章节链接,从中能直接进入。

图片

到这,就可以通过平台结合课程内容与实操来学习深度学习了——

那么实操效果如何?

  • 哪儿哪儿的代码,都能运行给你看

以经典中的经典的 AlexNet 部分为例,感受一下。

平台上,AlexNet 沿袭发展、基础原理解释均呈现出来,模型的定义构建代码均可运行。

为保证初学者更好理解,还能构建单通道数据示例,观察 AlexNet 内部8个层的输出情况,目的嘛,在于帮我们直观了解不同层的作用:

图片

最关键的是,训练模型环节也开放实操,选中代码部分运行即可。

不过该过程允许时间较长,我们在 GPU 选项下训练大约使用7分钟,慢慢等吧!

图片

眼看曲线缓缓慢慢画出来

值得一提的是,由于整个界面都能作为 Notebook 添加代码,记录学习思考——

因此,即便我们课程完成,还能在文末添加代码栏,对照着章节末尾习题,编程实现作业。

  • 从数理基础到实操环境配置,都安排得明明白白

上面展示还只是一个小节。其实,从全连接层、卷积、池化等概念介绍,到 ResNet、DenseNet 讲解…在 Amazon SageMaker Studio Lab 免费环境中均有呈现及实操,都安排得明明白白。

平台还贴心地考虑到我们的高数线性代数基础不一,不是每个人都过了90分,还把单变量微积分、最大似然等数理基础介绍和代码实现都给出来了,还附上环境配置方法,一副很靠谱的架势。

图片

经过上面验证,这个 Amazon SageMaker Studio Lab 确实可免费又完整地实操大神的「动手学深度学习」——

对希望入门乃至深度掌握 AI/ML 这门技术的人来说,这种理论+实践型的研习方式自然更为高效,日后切换到实际工作或科研甚至创业中,过渡也更为无缝。

事实上,它的能力还不仅这个水平。

一个面向开发者的免费平台

从名字上你也发现了,推出 Amazon SageMaker Studio Lab 的幕后企业是亚马逊云科技。

这家前沿技术大厂此次推出免费平台,不只将「动手学深度学习」做成理论+实操练习场,更想面向数据科学家、企业开发者、高校师生——

提供一个免费低门槛入门机器学习的普惠机会。

其实在亚马逊云科技之前,业内已有多个开放机器学习平台——

那么,这回的 Amazon SageMaker Studio Lab ,又有什么值得关注的新亮点?

我们一起先从配置看起。

平台提供15G以上永久存储,16G内存,4个 CPU ,GPU 为英伟达 Tesla T4 ,比目前其他主流平台稍高。

由于使用了较新架构的英伟达 Tesla T4 ,其混合精度运算速度指标相应也更高,此外,免费版与 SageMaker Studio 使用相同架构,相当于叠加一层企业级 Buff ,稳定性更有保障。

图片

值得我们注意的是,平台宣传的是4小时 GPU+12小时 CPU ,但实际上,我们到时间后仍可再次开启 Runtime ,原来的文件依然存在。

不过如果你想挖币,还是算了…

平台明令禁止使用 SageMaker Studio Lab 进行生产行为,挖掘加密货币查到直接封号。

说完配置,再看下实操。

从操作性上来说, Amazon SageMaker Studio Lab 相比其他平台更简洁直观。

界面不仅仅能建立 Jupyter Notebook 文件,还支持我们直接新建 Terminal 标签页、 Markdown 格式文件。

此外,这个平台配置有 Conda 和 Pip 资源包管理器,避免我们重复安装开源软件包,省事省心。

拉取 GitHub 项目甚至无需使用命令行,点击左侧按钮即可。

图片

若克隆项目中有 yml 环境配置文件,在建立项目同时,也会同步建立好 Conda 环境。

图片

平台还与 Github 关联。

在我们自己的 Github 项目 README 文档中加入以下内容:

[![Open In Studio Lab](https://studiolab.sagemaker.aws/studiolab.svg)](https://studiolab.sagemaker.aws/import/github/org/repo/blob/master/path/to/notebook.ipynb)

即可加入「 Open in Studio Lab 」按钮——

他人只需一键,即可接入 Amazon SageMaker Studio Lab 平台。

图片

当然,我们也可以通过手动上传或拷贝的方式新建 ipynb 。

以经典的图像分类算法举例。

从其他平台拷贝一份 ipynb 文件后,无需修改即可使用,最多也就是手动安装依赖项。

图片

实测训练模型的速度与其他平台基本相同,有时,甚至稍快。

图片

最后,得看看很多人关心的数据安全问题。

我们做机器学习,经常拿着大量人脸隐私信息,甚至是尚未脱敏的医院病患信息,为保护他人隐私和数据安全,还得看看这方面情况。

Amazon SageMaker Studio Lab 脱胎于企业级应用,承诺每个人数据均通过加密保护,且如果删除账户,所有相关数据也均相应删除,平台方承诺,不做保留。

目前,已有很多名校名企用上了 Amazon SageMaker Studio Lab ,并为其站台背书。

这里面,有 ENIAC 诞生地的宾夕法尼亚大学工程学院,也有美国加州圣克拉拉大学金融系,还有 Hugging Face 。

国内关注者也不少。

南方某985理工院校机器学习领域博士生表示,他们课题组方向虽然是传统机器学习,但仍需深度学习方式辅助验证。

由于实验室的计算设备好几年前购入的,随着人员与研究方向的增加,特别是在投稿前夕,计算资源的争抢情况很普遍。Amazon SageMaker Studio Lab 对他们来说,的确有吸引力。

图片

说完该免费平台的种种优点,下个问题就是:怎么申请?

这里展开讲讲。

无需亚马逊云科技账号,登陆官方链接 studiolab.sagemaker.aws/requestAccount 填写邮箱及相关信息即可。

图片

不过,为保证大家早日通过申请用起来,有些 Tips ,希望大家留意:

建议语言用英文,填写清楚相关机构名称,所留邮箱后缀与所在机构英文名匹配,这样的申请更可信靠谱。

满足上述条件,亲测24小时内就能获得邀请,注意查收邮箱。

无缝迁移的进阶版

前面已经提到了, Amazon SageMaker Studio Lab 与专业版 Amazon SageMaker Studio 为同一架构,所以,如果想从初学免费版迁移专业版,肯定不是大事儿。

对专业开发者来说,这当然提供更多进阶科研及创业的可能。

更具体看,专业版 Amazon SageMaker Studio 从头到尾已经提供给开发者一套相当全面的功能:

比如提供大规模分布式训练,面向我们生产性的大模型训练需求。使用分区算法,在 GPU 实例中自动拆分大模型和数据集,提升并行度加快训练速度。

比如数据标注功能 Ground Truth Plus ,拉上了人类专家,结合机器学习辅助预标记,大幅降低标注错误,提升标注速率。

再比如 Amazon SageMaker Data Wrangler ,该功能面向机器学习中的数据准备阶段,可通过可视化界面进行数据选择、清理、探查。只需一键导入,无需代码即可快速标准化、转换大批量、结构五花八门的数据。「四大」之一的德勤就采用了该项功能,原本几个月才能完成的数据准备,现在压缩到几天完成。

图片

此外,Amazon SageMaker Studio 还包括访问权限控制管理、模型监控、无服务器推理功能、推理配置推荐…直至全周期的工业化 AI/ML 服务,都给包圆了。

图片

上述种种,不少是今年亚马逊云科技 re:Invent 2021 新推出的功能,很大程度展示出这家企业对需求的理解和技术的前瞻性——

对专业开发者、数据科学家,不管是研究,还是创业,这些功能均提供了更多可能性。

更有意思的是,亚马逊云科技着眼点似乎并不止于经营业务,还有很多「不挣钱」的普惠性活动提供给我们。

机器学习马拉松项目就是一个体现。

该活动一年好几场,平台一方会在AI相关领域应用中拿出试题,涵盖 AI 自动化编程、对灾害进行预防或定损等等方面。

活动将会测试挑战者 CV 、NLP 等方面技能高低,这期间,相关平台、资源也由平台方提供。优胜者会得到最高5万美元的奖品。

图片

像这种面向实际需求,又将技术普惠开发者的活动还有很多,而且,各有好玩之处或社会价值。

有0门槛即可入门机器学习的自动驾驶竞速赛 Amazon DeepRacer ,关注者数百万,参与开发者已有14万;

也有活动跟非盈利性组织 Girls in Tech 合作,帮助更多女性了解并上手机器学习,消除科技圈的性别差距;

还有最新推出,在圈内引发高度关注的 Amazon SageMaker Canvans ,面向0代码经验的企业内部分析师、运营者,帮他们在实际业务中应用到机器学习这门技术。

图片

技术大厂退居幕后

最后,如何评价亚马逊云科技的 SageMaker Studio Lab ?

经营角度看,这些做法对未来自家生态构建当然有利,是头部企业保持身位的必要动作。此外大批企业动辄年薪50万招相关从业者,对很多开发者也是好事。

毕竟,人工智能短缺肉眼可见,大部分开发者有丰富编程经验和数理基础,唯一挡板就是:不熟悉机器学习。补上这块就喝汤,何乐不为?

不过,从行业维度看,上述动作也确实在推动前沿技术落地——

不过这里的推动,不在于更快,而在于更广。

要知道,一百年前汽车刚发明,只有机械专家才能成为车主,以至于当时社会,司机都是一个手握前沿技术的职业。

也要知道,三十年前,PC 和互联网只是少部分开发者的玩具,以至于开发网站都能让人迅速暴富,积累起万丈高楼一样高的资产。

所以,百年前的人无法理解一个人人可开车的社会,所以,30年前的人们也很难想象自己可以动动手指拥有属于自己的互联网平台。

今天放在机器学习上也一样。即便是最前沿的科技界大师,也只能窥见AI落地版图的小部分状貌。只有一再降维,这项技术才能走进千行百业场景,在不同背景不同经历的人手里才会产生不同频率的回响——

这既是亚马逊云科技普惠布局的价值体现,也是李沐老师等大拿的公心所在。

那么,将来 AI 技术还能释放多大能量?

答案还得从每位个体开发者、每个场景裂隙里,去寻找。

更多技术风向,长按下方图片,即可了解:

图片

—  —

不知不觉,又到年末,对技术圈而言,这一年中,各种技术与行业发展,既站高峰,也历跌宕。

在2021年最后时刻,亚马逊云科技想聆听来自云计算领域开发者的声音,为此,云计算开发者有奖调研正式开启,诚邀各位伙伴参与,多重好礼等你来领!

图片

版权所有,未经授权不得以任何形式转载及使用,违者必究。