基于通义深度定制场景专属大模型雷鸟AR眼镜反应速度提升一倍创新场景

　　本文摘自《云栖计谋参考》，这本刊物由阿里云与钛媒体合伙筹划。宗旨是为了把各个行业先行者的本领探寻、营业施行映现出来，与推敲同样题目的“数字先行者”配合讨论、碰撞，心愿这些内容能让你有所策动。

　　AR(Augmented Reality，巩固实际)眼镜，被以为是代替手机成为下一个超等终端的有力图取者。这两年，伴跟着 Meta、苹果等巨头的入局和鼎力参加，加上供应链的成熟，AR 眼镜也被更众人所眷注，成为这一波 XR(Extended Reality，扩展示实)高潮中的最大受益者。

　　而正在同偶然期，AI 大模子的横空出生和急迅迭代，成为第四次工业革命的引擎，鼎新各行各业，立异着全新的贸易形式。

　　2024 年下半年，不带显示的 AI 眼镜包括全数科技行业，估计他日商场界限超千亿美金。AI 眼镜的爆火，也让更众人信任，“下一个 iPhone 时辰，由 AI+AR 成立”。

　　然而行动联贯物理天下与数字天下的桥梁，AI+AR 不是做大略的 1+1 加法题，AR 的场景很杂乱也很分外，对响应的速率以及交互的式样都有着更高的恳求。

　　行动邦内第一梯队的 AR 眼镜公司，雷鸟立异向来正在做 AI 与 AR 的统一研发处事，并正在 AI 生态上参加了多量的人力和物力，去探寻 AI+AR 的最佳统一式样。针对当下 AR 产物崭露的 AI 体验不佳的题目，雷鸟立异与阿里云一同，探寻走出了一条智能化互助立异共赢之途。

　　比拟较手机、PC 等古代终端，AR 生长的时分并不长，近几年才将落地产物推向群众商场。而陪同计谋支撑和 AI 大模子的加快生长和落地，消费电子行业迎来了新一轮的生长时机。

　　来自机构统计的数据显示，2024 年上半年，邦内消费级 AR 修造销量同比延长 49%，反应出商场对 AR 的平凡认同。众家 AR 公司负担人也不止一次正在公然地方示意，AR 眼镜会是 AI 的理思载体，正在空间计较时间中，将会展示出奇异的代价和潜力。

　　IDC 主张以为，AI 正在硬件搭载上有良众遴选，手机、PC、AR 眼镜都是好的载体。然而关于 AR 这种轻量级硬件来说，AI 的参预会极大厚实 AR 的利用场景，更加是正在糊口助手类的利用中，都邑使得其操纵的便捷性、确切性取得显著提拔。

　　中商物业探求院也正在呈文中示意，正在 AR 修造中，AI 本领可能助助修造更好地意会用户的妄图、手脚和境遇，从而供应加倍天性化的体验。跟着干系本领途途的渐渐成熟，他日 AI+AR 眼镜希望跑通功效提拔类场景，向消费级放量，AI+AR眼镜希望正在短期杀青百万出货量，中期杀青切切出货量，AI+AR 眼镜他日希望成为下一个过亿的立异终端产物。

　　雷鸟立异可能说是邦内 AR 物业的最早一批探途者，创立至今已有三年众的时分，用了不到一年的时分就做到了中邦消费级 AR 商场占领率的第一名，正在对 AI+AR 的探寻上也是处于前哨，并众次正在公然地方说明公司正在 AI 与 AR 统一上的竭力。

　　雷鸟立异创始人兼 CEO 李庞杂以为，“AR 眼镜将授予 AI 与人类高度同等的感官本事，并使得 AI 真正成为人们的‘外脑’，巩固人们对视觉音信、音频音信的处分本事。AI+AR 会是行业的一个很首要的趋向。咱们信任，他日 2-3 年 AI 带来的最首要的新硬件即是 AR 眼镜，下一个 iPhone 时辰由 AI+AR 来成立。”

　　过去，AR 眼镜固然能同时映现数字与物理天下，但二者是拒绝的，没有交互，也没有联动性。正在 AI 生长的初期，其更众的是被利用正在极少软件优化等底子利用上，并没有直接串联起物理与数字天下。

　　而这两年，AI 生长的速率逾越任何史籍工夫，本能也有了极大的提拔，主动性和利用的场景也更众、更深化。

　　有了 AI 大模子的融入，AR 不光能映现实际与虚拟天下，更能借助 AI 与算法去收受和驱动数字天下，并与物理天下酿成联贯，与你正在实际中看到的场景实行交互，看你所看，听你所听，正在你刻下，正在你耳边，重构咱们的视听天下。

　　就像李庞杂说的那样，“AI+AR 的统一，不光可能杀青过去手机的场景，还可能成为绝顶好用的 AI 聪明助手，更首要的是，它们会杀青虚拟与实际的深度统一，带来全数天下的数字化。”

　　正在显然了 AI+AR 的生长途途后，2024 年有众家 AR 企业起先了产物与 AI 统一的落地以及新推敲。

　　一个绝顶显著的信号是，正在岁暮这段时分，行动承托 AR 眼镜的 AI 眼镜产物频发，不光有雷鸟立异如此的笔直厂商的参预，也有创业者以及大模子企业的入局。

　　入局者浩繁，产物也良众，然而，真正能直击用户，连通数字天下和物理天下的很少。这里一个闭头的题目正在于，AI 与 AR 的统一不是大略的去做加法，大模子的遴选以及场景化深度优化很是首要。就近似是苹果的 Siri 相同，因为有良众场景的题目解答不了，因此被良众人弃用。

　　李庞杂也指出，跟大模子对话也是相同，借使不行做到 80% 以上确切切率的话，那大众也就不消了。借使用 AR 眼镜来识别途牌或者采用，只要一半概率能识别出来，也很影响用户的心绪。用户正在产物体验上面，要的绝顶首要的一个的东西即是确定性。就比如你发个微信新闻给对方，借使只要 50% 的概率能收到，那这个产物确定没人要。

　　“咱们须要鉴定的即是谁正在大模子上面会永远处于指引者职位，这也是遴选和阿里通义互助的来由之一。”

　　个中，Qwen2.5 全系列模子正在 18T Tokens 数据长进行预演练，比拟 Qwen2，整个本能提拔 18% 以上，具有更众常识、更强编程和数学本事。视觉措辞模子 Qwen-VL-72B 具备自立操作手机和呆板人的视觉智能体本事。大界限音频措辞模子 Qwen-Audio，语音闲话个别统一了语音识别和自然措辞意会，不须要众个模子实行连续，杀青了端到端大模子，可能识别音乐、心思、境遇声响等。

　　AR 眼镜正在搭载了通义千问杰出的众模态识别本事之后，图像、文字、视频和音频等众种输入样子都或许被及时处分。

　　好比，用户正在途边看到了一栋修筑或者是不相识的植物，通义借助 AR 眼镜的摄像头便或许识别用户看到的物体，对其实行先容。关于用户刻下所看到的物理天下，通义也可能实行刻画，不光或许助助用户深化分解暂时所处的境遇，也能助助视障人群看到刻下的天下。

　　同时，AR 眼镜正在有了通义大模子的加持后，还或许杀青即时翻译，支撑中文与英语、日语、韩语、法语、德语、俄语等众邦措辞互译。即使用户身处生疏的邦度，也能从容与外地人实行调换，提拔疏导的功效。

　　雷鸟立异遴选通义，又有一个更首要的来由，即是两边都努力于杀青虚拟天下与实际天下的深度统一，乐意面向用户做深度的研发参加。换句话说，有良众款通用大模子都很出色，然而正在 AR 眼镜上的体验并不佳，闭头就正在于大模子没有针对 AR 眼镜的需求做深度的定制和配合。

　　李庞杂示意，“良众 AR 厂商做的仅仅即是把大模子接进来，这是不成的。现正在的通用大模子确切可能做良众事项，然而关于 AR 上涉及的场景，做的还不敷深化不敷好。咱们看好阿里云通义大模子的现正在和他日，而且两边也都有一个共鸣，那即是不行说正在 AR 眼镜上放一个通用大模子就行了，要针对 AR 的场景去做定制和适配，把它造就成一个很合适这个利用场景的大模子，让 AR 眼镜真正深化到用户的普通糊口之中。”

　　2025 年 1 月 7 日 CES 岁月，雷鸟立异正式揭橥雷鸟 V3 AI 拍摄眼镜。这款新品上搭载了其与阿里云通义配合打制的业内首个特意面向智能眼镜的 AI 大模子。这必然制化模子不光能更好地意会眼镜场景下的用户需求，还能为 Agent 供应更精准的常识支撑和计划凭据，从根底上提拔了 AI 眼镜的交互体验。

　　得益于此，雷鸟 V3 的 AI 均匀相应速率为 1.3s，远超 Ray-BanMeta 及其他接入通用模子的 AI 眼镜；V3 的 AI 识别确切率高达 98%，可称为用户真正万能的百科助手。正在此底子上，雷鸟 V3 还将一连上线 RayNeo 电台、探寻视界 2.0、手罗网照 AI 总结播报、QQ 音乐点播、AI 讯息播客、全场景灌音总结、支小宝扫码支出等厚实成效，让 AI 真正任事于用户的普通糊口。

　　之后，雷鸟立异安放正在第二季度揭橥的 AR 眼镜 X3 Pro，也将搭载与阿里云深度定制和统一后的通义大模子。

　　正在产物研发岁月，两边都参加了多量的人力和物力，针对简直的场景去做演练和提问，对硬件端侧的模子实行优化，从而去配合 AR 场景下的需求。

　　好比 AI 翻译，惯例的通用大模子更众的是凭据采纳到的措辞音信去做简单的翻译，然而正在简直的场景维系上没有深化统一，会导致有时翻译的内容会显得很生疏。其它，速率是翻译很首要的目标，借使仅仅是接入现有的通用大模子，整个的体验并不会很顺畅。

　　为了提拔 AI 的体验，雷鸟立异和阿里通义做了众方面的演练处事。一方面，是做了速率上的提拔，比拟较于暂时市道上通用大模子翻译，搭载了定制通义大模子的 RayNeo AI 的响应速率提拔起码一倍。

　　另一方面，除了速率之外，通义还针对游览、点餐、购物等众个细分场景做了优化，借助 AR 眼镜去识别暂时的境遇、对话人的神态、手势等众个音信源，更好地意会用户的操纵场景，从而给出更确切的翻译结果。

　　视觉也是相同，AI+AR 要收受物理天下，要做到的第一点即是或许对实际天下的场景实行确切的反应。然而，物理天下是相当杂乱的，好比途牌，有种种材质、巨细，差异光辉下反光的水平也不相同。为了普及识别确切切率，阿里云和雷鸟立异一同做了增量的演练，通过接续地搜罗演练和优化，提拔杂乱场景下的识别确切率。

　　此外，又有 AR 眼镜的 AI 聪明助手，也是一个众音信输入的场景，须要做一个新的分类模子，针对差异的指令做出低延迟质地高的相应。

　　当然，以上所说的只是个别场景，他日雷鸟立异和阿里通义还会针对更众的细分场景去做好底层的优化，从而真正杀青“收受数字天下，改良物理天下”。

　　当下，AR 正处于发达生长的阶段，但仍处于上半场的初期。并且，AI+AR 是为数不众正在上半场就由中邦厂商深度参预以至是主导的物业。

　　雷鸟立异与阿里云正在 AI+AR 上的深度互助，会进一步加深用户对 AI 落地场景的感染和意会，促进 AR 走向群众商场，联贯数字天下和物理天下。

　　讲及与阿里云的互助，李庞杂示意，AI 正在新的场景下，正在物理天下的落地进入到了一个闭头工夫，阿里云所做的一概绝顶好也很有代价，咱们跟阿里云的互助也开创了这个行业的一个新形式。他日的模范也会被从头创立，那即是 AR 接入的大模子要或许做深度的定制化和从头演练，从而餍足场景化需求。

　　然而，目前所做的场景探寻仍是不敷的，伴跟着本领的提拔，以及 AR 正在更众场景的探寻，AI+AR 又有进一步统一的空间。好比正在对话翻译时，能否将字幕显示正在对方的嘴边？“戴上 AR 眼镜之后，每个别措辞的时分，嘴边都邑显示一个对话框，就像是逛戏里的场景相同，能看到措辞人的措辞，与全天下各地的人都能无攻击调换。”李庞杂说道。

　　他还以为，有了 AI 的加成，AR 眼镜他日不光可能意会文字、图片和视频，还能意会空间，从而可能做内幕统一的逛戏了，好比跑步的时分网罗金币。

　　此外，跟着大模子落地接续深化，端侧利用成为趋向，手机、PC 已有 AI 大模子端侧利用的施行。日前，阿里云就将“通义千问”大模子铺排正在联发科的 SoC 上，通过量化、参数剪枝和常识蒸馏等众种本领本事减小模子体积。正在端云协同本领的促进下，带来了低延迟、隐私保卫、离线本事、俭约带宽和及时处分这五大上风。

　　关于 AR 眼镜来说，因为体积、续航等方面的局部，目前端侧大模子的利用还正在探寻中，好比留心地遴选参数目，要归纳功耗与本能去做更众的探求，这也是他日雷鸟立异和阿里云去配合配合处理的题目。一朝落地，AR 眼镜会更疾地响利用户的指令，端云协同本领通过正在修造端处分敏锐数据，将大幅提拔 AR 眼镜用户的数据平安性和隐私性。

　　场景正在转化，趋向和需求正在转化，但褂讪的是数字天下与物理天下的加快统一。关于雷鸟立异和阿里云来说，AI+AR目前仍正在前半程，二者的统一还要接续的精进。

基于通义深度定制场景专属大模型雷鸟AR眼镜反应速度提升一倍 创新场景

相关文章