博士在淘宝“扫垃圾”

十三 2021-01-28 13:41:01 来源：量子位

因“网络牛皮癣”泛滥成灾

金磊发自凹非寺
量子位报道 | 公众号 QbitAI

相信在座各位网上冲浪时，总会遇到一些“葬爱家族”式的文字：

“胃♡”、“叩—裙”、“9え”、“发嘌”……

这些词语的出现，不单单是追求个性这么简单，更多的是为了规避系统排查，以便发送成千上万条“垃圾信息”。

这样的情况在淘宝、旺旺等平台上泛滥成灾，堪称互联网时代的“牛皮癣”。

而有这么一位叫刘翔宇的博士，他和团队在阿里巴巴每天的工作，便是扫除诸如此类的垃圾。

这位博士用AI“扫垃圾”

“垃圾清理人”面对的不是散兵游勇，而是黑灰产的团伙作战。

刘翔宇这样介绍道：

他们应该是专业团伙，按照攻击时间，可以看出他们每天也有固定的上下班时间，不少人应该是学计算机相关专业出身的，甚至是像我们一样做过安全防控的人，这些人对安全防控非常了解，会用智能化手段对抗，比如他们会发测试信息，对我们的拦截做试探再做调整。

尤其是“双11”大促期间，黑灰产非常疯狂，发出的垃圾信息量比平时多几十倍。刘翔宇说：

临近大促节日的晚上，垃圾信息像消费者去抢‘秒杀’一样呼地一下就上去了。他们很聪明，知道‘双11’期间用户最活跃，这时候骚扰用户感觉效果最好，这就需要我们提前做好预案防控，把他们赶出去。

不仅如此，这种行径还会像病毒一样，发生“变异”。

也就是刚才提到的那种情况，用音近、形近或语义相近的字词代替，让系统无法快速识别。

面对这种情况，“垃圾清理人”也需要升级装备，更好的清除网络垃圾。

于是，在这些算法专家们的努力下，平台利用神经机器翻译和多模态词嵌入技术，不断增强垃圾文本内容风险识别系统的性能。

刘翔宇介绍：

基于主动生成的对抗平行语料，利用神经机器翻译技术，构建对抗纠错模型，可消除黑灰产发出的内容对抗扰动。

同时，利用多模态词嵌入技术提取垃圾文本的语义、语音、字形特征，并通过多模态融合机制有效地增强系统针对基于义近、音近、形近等文本变异的鲁棒性，可进一步提供系统识别准确率。

现在，他们打造的算法已能够自行理解某个字和与它音形义近似的字的关联，识别准确率高于98%，可有效新增识别变异违规文本内容50%以上。

此外，算法专家还开发了“变异垃圾语言”翻译功能，系统可以将“变异信息”翻译回正常语句。

值得一提的是，刘翔宇和团队成员的技术成果，还获得了国际顶尖AI会议的承认，被USENIX Security、ACL、WWW、SIGIR、IJCAI等收录。

关于刘翔宇

2016年，香港中文大学博士刘翔宇毕业后来到了阿里工作。同一年，《网络安全法》和《国家网络空间安全战略》正式通过，社会对于网络环境治理和网络安全的关注度迅速飙升。

刘翔宇随着这股浪潮加入了阿里安全。起初，他做着基础安全的研究。

后来，慢慢聚焦在淘宝交互内容、旺旺、直播弹幕等的内容安全治理。

如果说阿里巴巴是座城，刘翔宇和他的同事们就是专门为这座城“扫垃圾”的人。

对于清扫垃圾内容的“刘翔宇”们而言，城太大，人力不可能覆盖每一个角落。

如何对这些垃圾信息做到秒级处理，同时误判率必须在万分之五以下，刘翔宇和一众算法专家与不断变异的黑灰产斗智斗勇。

现在，刘翔宇和阿里安全的小二研发的阿里新一代安全架构核心算法，每日已能清理百万级的垃圾信息。

博士淘宝港中文

十三

Ilya宣判：预训练即将终结！NeurIPS现场沸腾2024-12-14
罕见！云计算一哥CTO，现场不发产品只讲教训2024-12-06
清华系初创面壁智能获新一轮数亿元融资2024-12-11
马斯克新文生图模型闪现！网友抢时间疯狂实测：人物生成超逼真，可算把赛博皮卡画明白了2024-12-09

博士在淘宝“扫垃圾”

这位博士用AI“扫垃圾”

关于刘翔宇

相关阅读

每人20万！十位华人博士生获豪华AI奖学金，清华、南大、斯坦福等高校精英脱颖而出

博士在读却连矩阵的秩都搞不清，我该如何毕业？｜Reddit热议

1800万引进23名菲律宾博士引热议，学校老师回应：权宜之计

多模态大模型+自动驾驶=？ECCV'24这场Workshop开启招募啦

两年实现Nature和Science双发，这位电子科大博士火了

他2年拿下博士学位，发表11篇顶会论文！浙大校友李旻辰斩获SIGGRAPH最佳博士论文奖

热门文章

Sora/可灵/海螺/混元大PK！多场景对比，谁是最强视频生成模型？

AI音乐战火升级！三路国产大军全面对决Suno

OpenAI员工意外泄露下一代ChatGPT！网友：故意的还是不小心的？

小雨智造：小米系首家工业具身大模型公司崛起，“国家队”助力产业化落地

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态