jony 发表于 2023-7-14 11:41:16

大模型加速涌向移动端!ControlNet 手机出图只需 12 秒,高通 AI 掌门人:LLaMA 也只是时间问题

大模型重塑一切的浪潮,正在加速涌向移动应用。
不久前,高通刚在 MWC 上露了一手纯靠手机跑 Stable Diffusion,15 秒就能出图的骚操作:
https://img.ithome.com/newsuploadfiles/2023/7/e704742b-55f3-4e23-a4d6-4c80803132be.gif
3 个月后的 CVPR 2023 上,参数加量到 15 亿,ControlNet 也已在手机端闪亮登场,出图全程仅用了不到 12 秒:
https://img.ithome.com/newsuploadfiles/2023/7/d79eb515-d9a6-4170-96f4-a7039f092ad5.gif
更令人意想不到的速度是,高通技术公司产品管理高级副总裁兼 AI 负责人 Ziad Asghar 透露:
从技术角度来说,把这些 10 亿 + 参数大模型搬进手机,只需要不到一个月的时间。
并且这还只是个开始。
在与量子位的交流中,Ziad 认为:
大模型正在迅速重塑人机交互的方式。这会让移动应用的使用场景和使用方式发生翻天覆地的变化。
“大模型改变终端交互方式”每一个看过《钢铁侠》的人,都很难不羡慕钢铁侠无所不能的助手贾维斯。
https://img.ithome.com/newsuploadfiles/2023/7/6fcf4dab-8121-4d9f-b938-0378162d9e7b.gif
尽管语音助手早已不是什么新鲜事物,但其现如今的形态多少还是离科幻电影中的智能助手有点差距。
而大模型,在 Ziad 看来,正是一个破局者。
大模型有能力真正重塑我们与应用交互的方式。
这种改变的一种具体的表现,就是 all in one。
也就是说,通过大模型加持下的数字助手这一个应用入口,人们就可以在手机这样的终端上操控一切:
通过自然语言指令,数字助手能自动帮你管理所有手机上的 APP,完成办理银行业务、撰写电子邮件、制定旅程并订票等等各种操作。
https://img.ithome.com/newsuploadfiles/2023/7/0103cd05-95d6-4845-9356-66e1f13c023f.jpg
更为关键的是,这样的数字助手还能做到“私人订制”——
手机上的个性化数据,与能够理解文字、语音、图像、视频等多模态输入的大语言模型相结合,就能使数字助手更为精准地把握使用者的偏好。
并且这样的个性化体验,可以在不牺牲隐私的情况下实现。
从技术的角度来说,背后关键,其实就是如今把 Stable Diffusion 和 ControlNet 搬进手机的混合 AI 架构及作为支撑的量化、编译和硬件加速优化等 AI 技术。
混合 AI,指的是终端和云端协同工作,在适当场景和时间下分配 AI 计算的工作负载,以更为高效地利用算力资源。
量化、编译和硬件加速优化,则是实现混合 AI 的关键 AI 技术,受到高通等终端 AI 厂商的长期关注和押注。
量化,是将更大的模型在精度不变的情况下,从浮点数转变成整数,节省计算时间;又或是在确保模型性能的同时,对其大小进行压缩,使之更容易部署在终端。
编译器是 AI 模型能够以最高性能和最低功耗高效运行的关键。AI 编译器将输入的神经网络转化为可以在目标硬件上运行的代码,同时针对时延、性能和功耗进行优化。
硬件加速方面,以高通为例,其 AI 引擎中的关键核心 Hexagon 处理器,采用专用供电系统,支持微切片推理、INT4 精度、Transformer 网络加速等,能够在提供更高性能的同时,降低能耗和内存占用。
数据显示,Transformer 加速大幅提升了生成式 AI 中充分使用的多头注意力机制的推理速度,在使用 MobileBERT 的特定用例中能带来 4.35 倍的 AI 性能提升。
https://img.ithome.com/newsuploadfiles/2023/7/fd5f6bdb-5477-4d0b-b6a1-29497c347dec.png
以 Stable Diffusion 为例,现在,高通的研究人员通过量化、编译和硬件加速优化,已经能够在搭载第二代骁龙 8 移动平台的手机上,以 15 秒 20 步推理的速度运行这一模型,生成出 512×512 像素的图片。
https://img.ithome.com/newsuploadfiles/2023/7/092d91f2-00dd-4379-898a-c08fec50e6db.gif
△ 图源油管 @TK Bay这样一来,整个推理过程可以完全只靠手机实现 —— 开着飞行模式不联网也能做到。
这类 AI 技术的部署并非易事,Ziad 表示在相关软件、工具和硬件方面,高通准备了 2-3 年的时间。
但现在,当高通 AI 模型增效工具包、高通 AI 软件栈和高通 AI 引擎等软硬件工具齐备之后,正如前文所言,高通只花了不到一个月的时间,就实现了 Stable Diffusion 在骁龙平台上的高速运行。
也就是说,当基础技术准备就绪,包括大模型在内的生成式 AI 部署,就会更加容易,原本无法想象的“大模型部署到终端变成数字助手”,现在看来也并非不可能。
具体而言,在硬件上混合 AI 和软件 AI 技术的“双重”架构下,部署在手机等终端中的大模型,可以在终端侧根据用户习惯不断优化和更新用户画像,从而增强和打造定制化的生成式 AI 提示。这些提示会以终端侧为中心进行处理,只在必要时向云端分流任务。
https://img.ithome.com/newsuploadfiles/2023/7/c4bf1405-757a-4259-9c7b-bdb901c5241e.png
Ziad 也进一步向我们解释说:
云不了解你,但终端设备了解你。如果模型可以在设备上进行微调,那它的功能将非常强大。
这也是突破大模型幻觉和记忆瓶颈的方式之一。高通可以做到通过一系列技术让大模型在不联网的情况下,借助终端设备数据长时间提供“专属”服务,同时也保护了用户隐私。
值得关注的是,Ziad 还透露,在 Stable Diffusion 和 ControlNet 之外,基于高通全栈式的软件和硬件能力,研究人员正在将更多生成式 AI 模型迁移到手机之中,参数量也正在向百亿级别进发。
很快,你就会在终端上看到像 LLaMA 7B / 13B 这样的模型。一切工具已经就绪,剩下的只是时间问题。
而且,虽然目前能在终端侧部署的只是“特定”的大模型,但随着技术的不断应用成熟,能部署的大模型数量、模态类型和部署形式,都会飞速进化。Ziad 表示:
随着更多更好的 AI 算法被开源出来,我们也能更快地沿用这套软硬件技术将它们部署到终端侧,这其中就包括文生视频等各种多模态 AI。
这样来看,未来用户将自己想用的大模型迁移到手机端,成为超级助手的核心,也并非不可能实现。
大模型正在重塑移动互联网实际上,手机上的交互变革,还只是冰山一角。
早在生成式 AI、大模型技术爆发之前,在移动互联网时代,AI 需求已经呈现出向边缘设备转移的趋势。
正如 Ziad 的观点“终端侧 AI 是 AI 的未来”一样,随着以大模型为代表的生成式 AI 浪潮加速改变人机交互方式,更多终端侧如笔记本电脑、AR / VR、汽车和物联网终端等,也都会因为这场变革迎来重塑,甚至反过来加速 AI 规模化落地。
在这个过程中,不仅硬件会诞生新的衡量标准,软件上以大模型为核心的超级 AI 应用,更是有可能出现。
首先是硬件上,由于终端侧算力会成为延展生成式 AI 落地应用不可或缺的一部分,对于移动端芯片本身来说,AI 处理能力也会日益凸显,甚至成为新的设计基准之一。
随着大模型变得更受欢迎、更多应用不断接入其能力,更多潜在的用户也会意识到大模型具备的优势,从而导致这类技术使用次数的迅猛上升。
但云端算力终究有限。Ziad 认为:
随着 AI 计算需求的增加,云端算力必然无法承载如此庞大的计算量,从而导致单次查询成本急剧增加。
要解决这一问题,就应当让更多算力需求“外溢”到终端,依靠终端算力来缓解这一问题。
为了让更多大模型在终端就能处理甚至运行,从而降低调用成本,必然需要在确保用户体验的同时,提升移动端芯片处理 AI 的能力。
长此以往,AI 处理能力会成为衡量硬件能力的 benchmark,如同过去手机芯片比拼通用算力和 ISP 影像能力一样,成为整个移动端芯片的新“赛点”。
https://img.ithome.com/newsuploadfiles/2023/7/dae3f262-6c5b-4648-a24a-01003005b7af.png
谁能在设计移动端芯片时将之考虑进去,谁就更有可能取得这场大模型较量的话语权。
不止是硬件。软件上,通过改变人机交互的方式,大模型将重塑包括娱乐、内容创作、生产力在内的所有移动应用。
在这种情况下,越来越多的大模型、或者说生成式 AI 会参与其中,重塑不同移动端 AI 应用,而这些应用随着不同移动端算力和应用场景的差异,又会有所不同:
在智能手机端,正如前文所述,这种重塑会率先出现在搜索和“智能助手”上。例如,只需要一句“安排 5 人会议”,大模型就能将以往需要用电子邮件反复确认的消息简化成一条指令,自动发送到其他人的日历上。
https://img.ithome.com/newsuploadfiles/2023/7/16e4f758-3f09-4303-87f7-e0e33f28f727.png
而在笔记本电脑和 PC 上,最大的影响可能是工具生产效率的提升,如使用 Office 的方式不再需要是依靠打字输入内容,而是聊聊天就能完成自己想要写的报告、处理的 PPT。
至于在汽车端,率先受到影响的可能会是数字助理和自动驾驶软件,像使用导航软件时不再需要点击目的地,而是直接告诉它“我想去 XX,中途安排一个吃饭的地点,别太贵”,大模型就能读懂人话,自动规划汽车路线。
https://img.ithome.com/newsuploadfiles/2023/7/48a83a24-1fd3-4edf-9e57-4f59ad89bb2e.png
又或是 XR 更吸引人的应用重塑,在于 3D 内容创作和沉浸式体验;物联网的改变,则可能发生在运营效率和客户支持应用上……
https://img.ithome.com/newsuploadfiles/2023/7/4fab24be-8b8c-4223-bbb0-6946375bd666.png
当然,这并不意味着 AI 小模型的“消失”。大模型出现之前,图像应用已经成为移动端 AI 落地最显著的领域,包括 AI 修图、暗景视频拍摄去噪算法等在内已有不少成熟的 AI 应用。
Ziad 认为,生成式 AI 的出现并不会替代已有 AI 应用,甚至在其刺激下,CPU、GPU、AI 处理器的升级进化,会进一步提升去噪等传统 AI 算法的能力。
同时,移动端应用之间并非“孤岛”。无论智能手机、电脑、汽车、物联网还是 XR,一旦大模型促使某个真正的“杀手级”应用出现,势必也会在各个移动端之间部署。
因此在这波大模型浪潮下,如何让开发的应用快速适配到不同移动端,实现“一次开发多端互联”,也是不可或缺的技术趋势。
总而言之,从硬件的芯片设计、软件的应用程序,到应用的整体开发方式,大模型都在给移动端、甚至是整个移动互联网带来改变。
那么,高通在这场大模型变革浪潮中会扮演什么样的角色?
Ziad 认为,高通将会领导技术前沿,成为引领这场变革的核心:
在终端侧,无论是从硬件还是软件而言,高通都处在领先地位。不仅仅是手机,在电脑、AR、VR、汽车、物联网等领域都是如此。

https://img.ithome.com/newsuploadfiles/2023/7/dda6e623-8d66-4d72-9727-cbf78938885d.png
而这份信心的来源,是高通长期的 AI 技术积累,“一切工具都已经就绪”。
无论是硬件上的 Hexagon AI 处理器、让生成式 AI 在云端和终端之间“无缝”应用的混合 AI,还是软件上所具备的量化、压缩、神经网络架构搜索(NAS)和编译等技术,高通都已经具备了将大模型随时应用到终端侧的技术储备。
一旦成功将大模型部署到某个终端侧,如智能手机,就能通过高通 AI 软件栈将之迅速部署到其他所有端侧设备上,进一步加速大模型的规模化落地。
像 10 亿参数 Stable Diffusion 模型,在部署到手机上之后,也已经实现在搭载骁龙计算平台的笔记本上运行。
https://img.ithome.com/newsuploadfiles/2023/7/4041712e-dbe5-4cff-823d-cbaec24c9877.png
面对这波大模型浪潮下生成式 AI 带来的机遇和挑战,不少科技公司都在寻找应对之策,以探求如何跟进其中的技术。
至少在终端侧,高通已经以技术玩家的身份,为行业率先打了个样。
One More Thing在这波生成式 AI 热潮下,大模型是否可能带来新的如微信一样的“杀手级”应用?高通如何看待这个观点?
Ziad 回答称,可能会,而且这类“杀手级”应用,更可能率先在中国出现:
如果按发展趋势来看的话,中国确实可能会更快出现这类应用。
页: [1]
查看完整版本: 大模型加速涌向移动端!ControlNet 手机出图只需 12 秒,高通 AI 掌门人:LLaMA 也只是时间问题