2024国际基础科学大会“计算机之夜”活动圆满举行
共同探讨最新的科研成果和技术应用
7月17日晚,国际基础科学大会的“计算机之夜”活动成功举办。
该活动吸引了众多计算机科学领域的专家学者,共同探讨最新的科研成果和技术应用。
致辞环节
丘成桐先生作为大会主席首先致辞。
丘先生强调,科学的发展需要大量的数据处理和深刻的科学见解,而这些都离不开计算机的支持。
他指出,计算机科学和人工智能的发展为基础科学研究提供了新的工具和方法,能够解决许多复杂的问题。
丘先生还提到,物理学的许多重要进展为计算机产业的发展奠定了基础,尤其是在量子计算机领域,尽管这一技术可能还需要10到20年的发展时间,但基础物理学在其中起到了重要作用。
此外,他认为,人工智能和计算机科学的发展依赖于数学的深入研究,并且很多重要的数学思想在这些领域中反复应用。他对此表示乐观,认为中国科学家在这一领域能够做出重要贡献。
最后,丘成桐先生呼吁大家打破学科界限,互相学习,共同促进科学的发展,不仅为中国,也为全球科学进步做出贡献。
接着,ICBS基础科学终身成就奖、图灵奖得主Leslie Valiant教授也发表了讲话。
Leslie Valiant教授表示,对于计算机科学与其他学科如数学和物理学的密切关系,他一直深感兴趣,并强调这些学科的交叉和融合对于推动整体科学发展具有重要意义。
Valiant教授提到,与数学和其他自然科学相比,计算机科学的历史较为短暂,但其所面临的问题同样深远而复杂。
他特别提到了计算机科学领域中的一些基本问题,如P与NP问题,至今尚未解决。
Leslie Valiant教授进一步指出,计算机科学正处于发展的早期阶段,许多基本问题仍需解答。尤其是量子计算的兴起,带来了许多新的问题和研究方向,使得计算机科学家们需要不断应对新技术的挑战。
与此同时,认知科学与人工智能领域的快速发展,为计算机科学的应用与研究提供了广阔的前景和无限的可能性。
最后,Valiant教授鼓励年轻人和资深研究者继续投身计算机科学领域,他坚信这个领域在未来将会有更多重大的突破和发展机遇。
主题演讲
在主旨演讲环节,腾讯杰出科学家、国际电气与电子工程师学会会士以及国际模式识别协会会士刘威博士,首先围绕腾讯混元大模型的进展发表了主旨演讲,详细阐述了腾讯在多模态生成模型领域的最新研究进展。
刘威博士主要介绍了三种生成模型:视频生成模型、图像生成模型和文本生成模型,并分享了这些模型在多个领域的突破和实际应用。
刘威博士特别提到了腾讯混元大模型名称的由来,表示“混元”在古代汉语中意味着从无序到有序、从混乱到规律的过程,这也正是生成模型的使命。
刘威博士首先从视频生成模型开始讲起。
他介绍了混元大模型的基础技术,即“扩散模型”(Diffusion Model)。
扩散模型是一种概率模型,通过逐步将噪声添加到数据中,最终逆转这个过程以生成新的数据。
训练完成后,可以从纯噪声开始,通过逆向模型逐步去噪,生成新的数据样本。
刘威博士进一步讲解了DiT架构和ST-DiT模型等技术创新。
刘威博士展示了ST-DiT模型在视频生成方面的独特优势,该模型将视频数据转化为时空潜在代码,并通过变换器架构进行处理,从而实现高质量的视频生成。
刘威博士强调,ST-DiT模型在语义理解等方面表现出色,能够生成长度达一分钟的高质量视频片段。他介绍了混元文本到视频(T2V)模型的效果表现和多种应用,包括视频风格化、“运动笔刷”(Motion Brush)、姿势引导视频生成、视频重绘等。
刘威博士接下来详细介绍了混元大模型在三维生成领域的创新。
该模型通过五个主要组件进行三维网格生成,从文本或图像描述到高精度三维资产生成,整个过程包括多级扩散和变换步骤。
首先,输入可以是文本描述或单张图像,经过多视角扩散和3D Transformer,并通过3D超分辨技术,最终生成高质量的三维资产。
刘威博士指出,通过混元大模型,仅需半分钟便可生成一个高质量的三维模型,大大提升了生产效率。
刘威博士特别展示了一些具体应用案例,包括物品的三维建模和复杂的卡通角色生成,展示了这一技术在电子商务、游戏设计和动画制作等领域具有广泛的应用前景。
刘威博士还探讨了混元大模型在图像生成方面的进展。
刘威博士介绍的图像生成的任务之一是根据输入的文本提示词生成对应的图像,刘威博士提到了腾讯开源的拥有15亿参数的基础版本模型,并详细讲解了其内部部件和运行流程,其中第一个组件是一个多模态语言大模型(Multi-modal LLM),第二个组件是一个图像DiT或空间DiT,而第三个组件负责超分辨处理,可以实现4k甚至8k的超清图像生成。整个模型具有语义理解、高质量结果、支持中式场景和支持多轮对话等亮点。
刘威博士介绍的另一个图像生成任务是由图像生成新图像,并保留原图像的特征。刘威博士通过例子展示了如何从一张图生成多张相关图片,以及将图像物体迁移到新场景。模型在语义精准理解与对齐、亚洲人人像生成和中式元素生成方面表现出了极佳效果。
在演讲的最后,刘威博士深刻总结了当前AI生成模型的两大范式LLM/GPT与Diffusion的对比差异,并深刻地指出LLM/GPT是“世界推理器”,而Diffusion是“世界模拟器”。
刘威博士还鲜明并深刻地指出LLM/GPT的骨干网络是方向性变换器(Directional Transformer)而Diffusion则为方向性变换器(Bidirectional Transformer);LLM/GPT的学习目标是预测下一个标记(token)而Diffusion则为预测噪声;LLM/GPT的学习理论是压缩世界知识而Diffusion则是迁移概率分布。
刘威博士对LLM/GPT和Diffusion的分析为与会者提供了印象深刻的见解和启发。
京东集团副总裁、国际电气与电子工程师学会会士何晓冬博士发表了题为《生成式AI:前沿技术进展及产业实践》的主旨演讲。
何晓冬博士指出,AI生成内容技术已经达到一个新的高度,他提到,自2022年以来,AI生成的内容与专业内容之间的差距不断缩小,这表明AI生成的内容在质量上已接近或达到专业水平,具备了实际应用的价值。
何晓冬博士详细阐述了生成式AI技术的发展历程。
他讲到,十年前开始使用的神经网络模型和语言模型成为了大规模模型的起点。特别是2017年谷歌学者团队发表的Transformer模型,使得AI在处理和理解文本信息方面的能力得到了极大的提升。
基于此,GPT-3模型应运而生,首次将参数量提升到了1750亿个,展示了令人印象深刻的生成效果,能够生成长篇且合理的文本内容。
在图像生成领域,何晓冬博士提到,从2014年开始的生成对抗网络(GAN)技术,以及后来加入注意力机制的Attention GAN,使得图像生成质量显著提高。
最新的扩散模型、扩散变换器(Diffusion Transformer, DiT)进一步提升了图像生成的质量。他还指出,多模态智能的进展,使得AI不仅能处理单一模态的内容,还能结合文本和图像等多种模态信息,进行复杂的推理和生成。
何晓冬博士接着谈到了多模态智能的具体实现。
他指出,多模态智能的关键在于对不同模态信息的对齐和处理能力。
例如,在文本与图像的对齐方面,2018年京东发布的论文提出了一种自下而上和自上而下的注意力机制,这种方法模仿人类对图像中物体的关注方式,显著提升了文本与图像语义内容的对齐精度。
他进一步介绍了在视频理解领域的最新进展,何博士指出,由于需要对每一帧进行标注,训练视频模型的成本非常高,为了减少视频标注的工作量,京东提出了关键帧标注的方法,这种方法只需对视频中的关键帧进行标注,大大降低了标注成本。
在此基础上,他们还提出了一种基于多实例学习的两阶段框架,通过单帧监督和覆盖学习,有效提升了模型在视频理解任务中的表现。
随后,何晓冬博士展示了生成式AI在实际应用中的一些案例。
他介绍了一个生成数字人的项目,这个项目旨在生成高质量的虚拟人类形象,用于各种商业应用场景。
通过编码图像、视频、文本、音频和三维动作信息,他们能够生成与真实人类高度相似的虚拟形象。何晓冬博士特别指出,这些虚拟形象在动作、表情和细节处理上都非常自然,几乎无法被普通用户分辨出是AI生成的内容。
他展示了一个具体案例:京东创始人刘强东的数字人形象。
这个数字人不仅在外貌上高度还原了刘强东,还精确模拟了他的行为习惯和面部表情,在一个小时的直播销售活动中表现出色,获得了用户的高度评价和信任。
在具身智能方面,何晓冬博士强调,将大模型的智能能力应用到机器人等物理设备中,将会带来巨大的潜力。
例如,京东在物流领域使用的机械臂已经展示了初步的智能化能力,未来希望通过进一步增强这些设备的智能性,使其能够执行更复杂的任务。通过具身智能技术,机器人将能够在实际场景中完成更多复杂的操作,显著提升生产效率和服务质量。
最后,何晓冬博士展望了生成式AI的未来发展。
他认为,随着技术的不断进步,生成式AI将在更广泛的领域内实现突破,包括语言处理、图像生成、多模态智能和具身智能等方面。
他指出,生成式AI不仅在技术上已经取得了显著进展,在实际应用中也展示了巨大的商业价值和潜力。通过不断探索和创新,生成式AI将为各行各业带来更多可能性,推动社会进步和经济发展。
圆桌讨论
在圆桌论坛环节,清华大学教授刘云浩主持了此次高规格的讨论会。
与会嘉宾包括菲尔兹奖得主丘成桐、图灵奖得主Leslie Valiant、腾讯杰出科学家刘威、京东集团副总裁何晓冬、谷歌杰出研究科学家Moti Yung以及微软杰出首席科学家刘铁岩。在讨论中,刘云浩教授提出了人工智能对社会的正面与负面影响这一广泛话题,并邀请每位嘉宾分享他们对这一问题的看法。
谷歌杰出研究科学家Moti Yung在发言中指出,尽管人工智能在许多领域取得了显著进展,尤其在视频和图像生成领域表现出色,但他对人工智能技术的潜在滥用表达了担忧。
他强调,历史上每一项计算机科学技术都可能被不法分子滥用,人工智能也不例外。
Yung提到,随着生成技术的进步,虚假信息将变得更加逼真,这可能带来严重后果。
他还指出,不法分子可能会因经济利益驱动而利用这些技术,对社会造成负面影响。尽管人工智能在提高生产力和解决复杂问题方面具有巨大潜力,但其背后的不透明性和缺乏解释性机制仍然是一个重要的挑战。
微软杰出首席科学家刘铁岩在发言中指出,人工智能正在对多个行业产生深远的变革影响,他强调,人工智能不再是实验室里的玩具,而是能够真正改变生活和工业的实用工具。
刘铁岩博士还提出,当前的人工智能研究范式存在一些挑战。
他认为,过度依赖大规模数据和计算资源的方法,可能使得传统的科研智慧和灵感逐渐被忽视。这种趋势可能对研究社区产生负面影响,因为拥有大量计算资源的团队可能更容易引起关注,而那些没有足够资源的研究人员的创新成果可能被埋没。
此外,刘铁岩还对人工智能的环境可持续性问题表示担忧。
他指出,训练大规模模型所消耗的资源巨大,而人类通过简单的学习过程就能达到类似的效果,这引发了对当前计算范式是否值得如此高昂成本的质疑。
他强调,未来的人工智能发展需要在技术进步和资源消耗之间找到平衡,以确保其长期可持续性。
图灵奖得主Leslie Valiant教授在发言中表示,人工智能技术将深入到生活的各个方面,这种普及不仅带来了巨大的机遇,也加剧了潜在的风险。
他指出,许多与人工智能相关的问题实际上并不新鲜。
例如,公平性的问题在人工智能时代变得更加突出,但这类问题在人类社会中早已存在。人工智能的出现使得人们必须更加严肃和谨慎地思考什么是公平,什么是不公平。
Valiant教授认为,尽管人工智能增强了人类的能力,也带来了新的挑战,但这也驱使我们更深入地审视我们的行为和决策。在回应关于人工智能是否可能拥有意识的问题时,Valiant表示,目前对意识的定义尚不统一,他个人并不认为在讨论人工智能时,意识是一个有用的概念。
他还强调,即使未来的人工智能具备了一定程度的自主性,关键问题仍然是谁在控制这些技术,以及如何保持对其的控制。
丘成桐教授在发言中表示,尽管人工智能在许多方面展现了巨大的潜力,但他对其当前的贡献持谨慎态度。
他强调,历史上一些伟大的数学成就,如20世纪80年代的重大突破,主要依靠的是人类智慧而非计算机的辅助。
丘成桐指出,虽然计算机能够帮助进行复杂的计算,但要达到这些伟大的科学成就,还需要进一步挖掘人工智能的潜力。
丘成桐教授还提到,虽然人工智能在计算和模拟方面有很大优势,但它们在创造全新概念上的能力仍然有限。
他举例说明了复数概念在数学史上的发展,而这一历程充满了人类智慧和创造力。
他质疑当前的人工智能是否具备类似的创新能力。
此外,丘成桐教授对人工智能对社会的潜在影响表达了关切。
他认为,过度依赖人工智能可能导致人类思维能力的退化,尤其是年轻一代。
他呼吁人们在使用人工智能时保持平衡,强调人工智能应当作为促进人类思维的工具,而非替代人类思维的手段。
京东集团副总裁何晓冬在发言中指出,尽管人工智能在许多领域取得了显著进展,但当前的AI仍然缺乏基本的原则。
他认为,现阶段的AI更依赖于经验性的方法,而对其背后的原理尚未完全理解。
他提到,尽管现有的神经网络非常强大且具有广泛的应用前景,但对其底层原理的认识仍然有限。
何晓冬博士认为,未来的研究需要在积累大量实验结果的基础上,进一步探索和发现AI背后的基本原理。
他还强调,尽管人工智能尚未完全成熟,但其在实际应用中已经展现出巨大的价值。以京东的客户服务为例,AI技术已经显著提升了服务效率,特别是在处理大量重复性工作方面,AI表现出了极高的效率。
最后,何晓冬博士指出,尽管人工智能技术尚不完善,但他对其未来的发展持积极态度。他相信,随着研究的深入,AI的基本原理终将被发现,从而使AI在各个领域发挥更大的作用。
腾讯杰出科学家刘威在发言中指出,人工智能是人类创新的重要成果。
他认为当前的生成模型并非完全的新发明,而是对人类知识和观察的重组与再生产。
刘威强调,生成模型在为用户提供个性化内容和服务方面展现了强大能力,但这也带来了一些负面影响。
他指出,互联网上的虚假信息和数字内容显著增加,某些公司甚至可能利用生成模型进行虚假发现和检测。
刘威还提到,基础模型在不断改进过程中,存在数据滥用和隐私安全问题,这引发了对用户数据安全的担忧。
刘威博士呼吁,必须有组织和规章来控制生成模型的发展与滥用,以保障用户隐私和安全。他认为,尽管生成模型在某些方面具备创新能力,但其对社会的负面影响不容忽视。
刘威博士强调,合理使用生成模型,可以在提高生产力和创造力方面发挥积极作用,但必须同时警惕其可能带来的潜在风险。
圆桌讨论中,嘉宾们围绕人工智能技术的前景和挑战展开的深刻探讨,为与会者提供了一个深入思考和交流的平台,促使人们更全面地认识和理解人工智能的潜力与风险。
展示环节
在展示环节,来自全球知名高校和科研机构的专家们展示了多项前沿技术成果。
首先,国际计算机学会会士、加利福尼亚大学圣迭戈分校计算机学院教授Ravi Ramamoorthi演示了其团队提出的利用少量不规则采样图像生成沉浸式场景的新方法。
Ramamoorthi教授详细介绍了该方法如何通过结合渲染和光流技术,有效减少采样数量,并在移动设备上实现高质量图像重建。
他展示了在不同复杂场景下的应用效果,证明了技术的稳健性和广泛适用性。
接下来,浙江大学 – 之江实验室平台百人计划研究员裘捷中分享了他在图对比编码(GCC)方面的研究成果。
他介绍了这一创新方法如何在大规模、复杂的社交、商业和信息网络中实现图结构的向量空间转换,从而使深度学习模型能够发现有价值的模式。裘捷中研究员详细说明了图对比编码如何通过随机游走对图进行采样,确保图神经网络实例能够区分相似和不相似的子图对。
他提出了GCC的两种微调策略:全微调(Full fine-tuning)和冻结微调(Freezing fine-tuning)。
实验结果表明,冻结微调在与从头训练的监督模型竞争时表现良好,而全微调则进一步提升了性能,实验展示了图对比编码在各种图学习任务中的巨大潜力。
随后,来自亚利桑那大学的David Brady教授展示了其在多尺度千兆像素摄影方面的研究成果。
Brady教授强调了现实世界数据在构建模型时的必要性,传统相机通常只能捕捉人眼可见的图像,而机器学习需要更大规模的数据。
为此,他们构建了并行超级相机,通过安装在球面透镜后的数百个微型摄像头,能够在极高分辨率下捕捉图像和视频。
Brady教授展示了这一相机系统在美国橄榄球比赛中的应用,能够实时冻结和回放任何场景,提供前所未有的细节观察。
他还展示了该技术在天空监测中的应用,通过超级相机捕捉到肉眼无法识别的遥远物体。
最后,清华大学计算机系计算机图形学实验室的博士生李晓磊展示了他与合作者在复杂场景生成中的研究成果,李晓磊提出了“对象解耦和交互建模”的方法,详细介绍了他们的系统如何对多物体及其关系进行三维场景解耦和建模,解决了工业级场景生成中的诸多挑战。
他们提出了复杂关系生成的明确定义,并从二维扩散模型中汲取知识应用于实际场景。
李晓磊开发了新方法,通过可学习的结构和图形表示实现复杂场景的生成,并提出了一种新的对象感知记忆优化方法,实现了背景和对象之间清晰、锐利的边界。
他展示的可视化结果显示了物体解耦和生成在各种复杂场景中的应用潜力,强调了其方法在工业三维生产管线中直接应用的前景。
在热烈的讨论和互动中,2024国际基础科学大会“计算机之夜”活动圆满落下帷幕。
本次活动不仅展示了计算机科学前沿的最新成果,也促进了国际学术界与产业界的深度交流。
期待未来,在全球科研人员的共同努力下,计算机科学将继续引领科技前沿,推动各行各业的持续进步与创新。
- 万物智联AIoT2.0洞察:2025中国AIoT产业年会盛况回顾2024-11-22
- 如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解2024-11-19
- 字节视频生成模型 PixelDance上线即梦AI,用户可免费体验2024-11-18
- AIoT年会最新议程揭晓!院士/专家/大咖确认出席!这场年度盛会不容错过!2024-11-18