大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

jony 发表于 2023-7-14 11:41:16

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题

大模型重塑一切的浪潮，正在加速涌向移动应用。
不久前，高通刚在 MWC 上露了一手纯靠手机跑 Stable Diffusion，15 秒就能出图的骚操作：
https://img.ithome.com/newsuploadfiles/2023/7/e704742b-55f3-4e23-a4d6-4c80803132be.gif
3 个月后的 CVPR 2023 上，参数加量到 15 亿，ControlNet 也已在手机端闪亮登场，出图全程仅用了不到 12 秒：
https://img.ithome.com/newsuploadfiles/2023/7/d79eb515-d9a6-4170-96f4-a7039f092ad5.gif
更令人意想不到的速度是，高通技术公司产品管理高级副总裁兼 AI 负责人 Ziad Asghar 透露：
从技术角度来说，把这些 10 亿 + 参数大模型搬进手机，只需要不到一个月的时间。
并且这还只是个开始。
在与量子位的交流中，Ziad 认为：
大模型正在迅速重塑人机交互的方式。这会让移动应用的使用场景和使用方式发生翻天覆地的变化。
“大模型改变终端交互方式”每一个看过《钢铁侠》的人，都很难不羡慕钢铁侠无所不能的助手贾维斯。
https://img.ithome.com/newsuploadfiles/2023/7/6fcf4dab-8121-4d9f-b938-0378162d9e7b.gif
尽管语音助手早已不是什么新鲜事物，但其现如今的形态多少还是离科幻电影中的智能助手有点差距。
而大模型，在 Ziad 看来，正是一个破局者。
大模型有能力真正重塑我们与应用交互的方式。
这种改变的一种具体的表现，就是 all in one。
也就是说，通过大模型加持下的数字助手这一个应用入口，人们就可以在手机这样的终端上操控一切：
通过自然语言指令，数字助手能自动帮你管理所有手机上的 APP，完成办理银行业务、撰写电子邮件、制定旅程并订票等等各种操作。
https://img.ithome.com/newsuploadfiles/2023/7/0103cd05-95d6-4845-9356-66e1f13c023f.jpg
更为关键的是，这样的数字助手还能做到“私人订制”——
手机上的个性化数据，与能够理解文字、语音、图像、视频等多模态输入的大语言模型相结合，就能使数字助手更为精准地把握使用者的偏好。
并且这样的个性化体验，可以在不牺牲隐私的情况下实现。
从技术的角度来说，背后关键，其实就是如今把 Stable Diffusion 和 ControlNet 搬进手机的混合 AI 架构及作为支撑的量化、编译和硬件加速优化等 AI 技术。
混合 AI，指的是终端和云端协同工作，在适当场景和时间下分配 AI 计算的工作负载，以更为高效地利用算力资源。
量化、编译和硬件加速优化，则是实现混合 AI 的关键 AI 技术，受到高通等终端 AI 厂商的长期关注和押注。
量化，是将更大的模型在精度不变的情况下，从浮点数转变成整数，节省计算时间；又或是在确保模型性能的同时，对其大小进行压缩，使之更容易部署在终端。
编译器是 AI 模型能够以最高性能和最低功耗高效运行的关键。AI 编译器将输入的神经网络转化为可以在目标硬件上运行的代码，同时针对时延、性能和功耗进行优化。
硬件加速方面，以高通为例，其 AI 引擎中的关键核心 Hexagon 处理器，采用专用供电系统，支持微切片推理、INT4 精度、Transformer 网络加速等，能够在提供更高性能的同时，降低能耗和内存占用。
数据显示，Transformer 加速大幅提升了生成式 AI 中充分使用的多头注意力机制的推理速度，在使用 MobileBERT 的特定用例中能带来 4.35 倍的 AI 性能提升。
https://img.ithome.com/newsuploadfiles/2023/7/fd5f6bdb-5477-4d0b-b6a1-29497c347dec.png
以 Stable Diffusion 为例，现在，高通的研究人员通过量化、编译和硬件加速优化，已经能够在搭载第二代骁龙 8 移动平台的手机上，以 15 秒 20 步推理的速度运行这一模型，生成出 512×512 像素的图片。
https://img.ithome.com/newsuploadfiles/2023/7/092d91f2-00dd-4379-898a-c08fec50e6db.gif
△ 图源油管 @TK Bay这样一来，整个推理过程可以完全只靠手机实现 —— 开着飞行模式不联网也能做到。
这类 AI 技术的部署并非易事，Ziad 表示在相关软件、工具和硬件方面，高通准备了 2-3 年的时间。
但现在，当高通 AI 模型增效工具包、高通 AI 软件栈和高通 AI 引擎等软硬件工具齐备之后，正如前文所言，高通只花了不到一个月的时间，就实现了 Stable Diffusion 在骁龙平台上的高速运行。
也就是说，当基础技术准备就绪，包括大模型在内的生成式 AI 部署，就会更加容易，原本无法想象的“大模型部署到终端变成数字助手”，现在看来也并非不可能。
具体而言，在硬件上混合 AI 和软件 AI 技术的“双重”架构下，部署在手机等终端中的大模型，可以在终端侧根据用户习惯不断优化和更新用户画像，从而增强和打造定制化的生成式 AI 提示。这些提示会以终端侧为中心进行处理，只在必要时向云端分流任务。
https://img.ithome.com/newsuploadfiles/2023/7/c4bf1405-757a-4259-9c7b-bdb901c5241e.png
Ziad 也进一步向我们解释说：
云不了解你，但终端设备了解你。如果模型可以在设备上进行微调，那它的功能将非常强大。
这也是突破大模型幻觉和记忆瓶颈的方式之一。高通可以做到通过一系列技术让大模型在不联网的情况下，借助终端设备数据长时间提供“专属”服务，同时也保护了用户隐私。
值得关注的是，Ziad 还透露，在 Stable Diffusion 和 ControlNet 之外，基于高通全栈式的软件和硬件能力，研究人员正在将更多生成式 AI 模型迁移到手机之中，参数量也正在向百亿级别进发。
很快，你就会在终端上看到像 LLaMA 7B / 13B 这样的模型。一切工具已经就绪，剩下的只是时间问题。
而且，虽然目前能在终端侧部署的只是“特定”的大模型，但随着技术的不断应用成熟，能部署的大模型数量、模态类型和部署形式，都会飞速进化。Ziad 表示：
随着更多更好的 AI 算法被开源出来，我们也能更快地沿用这套软硬件技术将它们部署到终端侧，这其中就包括文生视频等各种多模态 AI。
这样来看，未来用户将自己想用的大模型迁移到手机端，成为超级助手的核心，也并非不可能实现。
大模型正在重塑移动互联网实际上，手机上的交互变革，还只是冰山一角。
早在生成式 AI、大模型技术爆发之前，在移动互联网时代，AI 需求已经呈现出向边缘设备转移的趋势。
正如 Ziad 的观点“终端侧 AI 是 AI 的未来”一样，随着以大模型为代表的生成式 AI 浪潮加速改变人机交互方式，更多终端侧如笔记本电脑、AR / VR、汽车和物联网终端等，也都会因为这场变革迎来重塑，甚至反过来加速 AI 规模化落地。
在这个过程中，不仅硬件会诞生新的衡量标准，软件上以大模型为核心的超级 AI 应用，更是有可能出现。
首先是硬件上，由于终端侧算力会成为延展生成式 AI 落地应用不可或缺的一部分，对于移动端芯片本身来说，AI 处理能力也会日益凸显，甚至成为新的设计基准之一。
随着大模型变得更受欢迎、更多应用不断接入其能力，更多潜在的用户也会意识到大模型具备的优势，从而导致这类技术使用次数的迅猛上升。
但云端算力终究有限。Ziad 认为：
随着 AI 计算需求的增加，云端算力必然无法承载如此庞大的计算量，从而导致单次查询成本急剧增加。
要解决这一问题，就应当让更多算力需求“外溢”到终端，依靠终端算力来缓解这一问题。
为了让更多大模型在终端就能处理甚至运行，从而降低调用成本，必然需要在确保用户体验的同时，提升移动端芯片处理 AI 的能力。
长此以往，AI 处理能力会成为衡量硬件能力的 benchmark，如同过去手机芯片比拼通用算力和 ISP 影像能力一样，成为整个移动端芯片的新“赛点”。
https://img.ithome.com/newsuploadfiles/2023/7/dae3f262-6c5b-4648-a24a-01003005b7af.png
谁能在设计移动端芯片时将之考虑进去，谁就更有可能取得这场大模型较量的话语权。
不止是硬件。软件上，通过改变人机交互的方式，大模型将重塑包括娱乐、内容创作、生产力在内的所有移动应用。
在这种情况下，越来越多的大模型、或者说生成式 AI 会参与其中，重塑不同移动端 AI 应用，而这些应用随着不同移动端算力和应用场景的差异，又会有所不同：
在智能手机端，正如前文所述，这种重塑会率先出现在搜索和“智能助手”上。例如，只需要一句“安排 5 人会议”，大模型就能将以往需要用电子邮件反复确认的消息简化成一条指令，自动发送到其他人的日历上。
https://img.ithome.com/newsuploadfiles/2023/7/16e4f758-3f09-4303-87f7-e0e33f28f727.png
而在笔记本电脑和 PC 上，最大的影响可能是工具生产效率的提升，如使用 Office 的方式不再需要是依靠打字输入内容，而是聊聊天就能完成自己想要写的报告、处理的 PPT。
至于在汽车端，率先受到影响的可能会是数字助理和自动驾驶软件，像使用导航软件时不再需要点击目的地，而是直接告诉它“我想去 XX，中途安排一个吃饭的地点，别太贵”，大模型就能读懂人话，自动规划汽车路线。
https://img.ithome.com/newsuploadfiles/2023/7/48a83a24-1fd3-4edf-9e57-4f59ad89bb2e.png
又或是 XR 更吸引人的应用重塑，在于 3D 内容创作和沉浸式体验；物联网的改变，则可能发生在运营效率和客户支持应用上……
https://img.ithome.com/newsuploadfiles/2023/7/4fab24be-8b8c-4223-bbb0-6946375bd666.png
当然，这并不意味着 AI 小模型的“消失”。大模型出现之前，图像应用已经成为移动端 AI 落地最显著的领域，包括 AI 修图、暗景视频拍摄去噪算法等在内已有不少成熟的 AI 应用。
Ziad 认为，生成式 AI 的出现并不会替代已有 AI 应用，甚至在其刺激下，CPU、GPU、AI 处理器的升级进化，会进一步提升去噪等传统 AI 算法的能力。
同时，移动端应用之间并非“孤岛”。无论智能手机、电脑、汽车、物联网还是 XR，一旦大模型促使某个真正的“杀手级”应用出现，势必也会在各个移动端之间部署。
因此在这波大模型浪潮下，如何让开发的应用快速适配到不同移动端，实现“一次开发多端互联”，也是不可或缺的技术趋势。
总而言之，从硬件的芯片设计、软件的应用程序，到应用的整体开发方式，大模型都在给移动端、甚至是整个移动互联网带来改变。
那么，高通在这场大模型变革浪潮中会扮演什么样的角色？
Ziad 认为，高通将会领导技术前沿，成为引领这场变革的核心：
在终端侧，无论是从硬件还是软件而言，高通都处在领先地位。不仅仅是手机，在电脑、AR、VR、汽车、物联网等领域都是如此。

https://img.ithome.com/newsuploadfiles/2023/7/dda6e623-8d66-4d72-9727-cbf78938885d.png
而这份信心的来源，是高通长期的 AI 技术积累，“一切工具都已经就绪”。
无论是硬件上的 Hexagon AI 处理器、让生成式 AI 在云端和终端之间“无缝”应用的混合 AI，还是软件上所具备的量化、压缩、神经网络架构搜索（NAS）和编译等技术，高通都已经具备了将大模型随时应用到终端侧的技术储备。
一旦成功将大模型部署到某个终端侧，如智能手机，就能通过高通 AI 软件栈将之迅速部署到其他所有端侧设备上，进一步加速大模型的规模化落地。
像 10 亿参数 Stable Diffusion 模型，在部署到手机上之后，也已经实现在搭载骁龙计算平台的笔记本上运行。
https://img.ithome.com/newsuploadfiles/2023/7/4041712e-dbe5-4cff-823d-cbaec24c9877.png
面对这波大模型浪潮下生成式 AI 带来的机遇和挑战，不少科技公司都在寻找应对之策，以探求如何跟进其中的技术。
至少在终端侧，高通已经以技术玩家的身份，为行业率先打了个样。
One More Thing在这波生成式 AI 热潮下，大模型是否可能带来新的如微信一样的“杀手级”应用？高通如何看待这个观点？
Ziad 回答称，可能会，而且这类“杀手级”应用，更可能率先在中国出现：
如果按发展趋势来看的话，中国确实可能会更快出现这类应用。

页: [1]

数字公关网_专业互联网公关行业社区's Archiver

大模型加速涌向移动端！ControlNet 手机出图只需 12 秒，高通 AI 掌门人：LLaMA 也只是时间问题