想让AI进家门,不能靠手机

虎嗅APP
03/12

进入2026年,人工智能领域的聚光灯显然已从模型参数的狂飙,转向更为实质性的命题:如何让AI在现实扎根,真正走进生活。

然而,真实的生活往往充满了复杂性:当独居老人久坐不动、孩子调皮乱拔插头、宠物因焦虑撕咬家具……想成为物理世界中实实在在的参与者,都需要AI能够主动“看见”和“理解”。

如今,多模态的快速发展,让大模型的能力边界正从语言智能向视觉智能快速延伸。AI不再只是“读懂”文字、“听懂”声音,更开始“看懂”画面,甚至构建起对时空约束、物体关系、人物行为的完整理解。也就是说,AI能够像人一样,通过对物理环境的感知、理解和分析,建立关于“正在发生什么”的情境认知。

一个新问题随之而来:多模态时代,什么才是AI进入现实世界的第一入口?

家庭,作为人们现实世界最密切的互动单元,无疑是找寻答案的关键。

被低估的摄像头

要回答“第一入口是什么”,不妨先问:一定是手机吗?

过去十年,手机是毋庸置疑的智能中心。它随身携带、交互便捷、算力强大,几乎承载了数字生活的全部。

但让手机作为AI的物理世界入口,存在根本性的局限:它的“注意力”属于用户,而非环境。

手机捕捉的画面,是经过用户主观意图过滤后的现实片段,是“第三人称快照”,它无法捕捉用户“不感兴趣”但至关重要的环境事实。此外,手机会被放入口袋、扣在桌上、电池耗尽,它的“观察”更是随机的、被动的、断断续续的。

而想要实现“真正的物理世界智能”,需要的恰恰是连续的、无感的、全景客观的感知能力——这恰恰是手机无法提供的。

在所有家庭设备中,摄像头是最接近“物理世界连续信息流”的终端。它不需要被唤醒,不需要被操作,只要通电在线,就在持续“看”和“听”。更重要的是,它具备视觉与听觉“双感官”,能够捕捉场景中的人、物、关系、时序、行为——这些信息,正是多模态大模型理解现实世界所需的“燃料”。

所以,多模态的第一入口,不是手机,而是摄像头。

当然,前提是它不再只是“会看的眼睛”,而是“能思考的大脑”。

所谓多模态,是指能够同时处理文字、图片、视频、声音等多种信息。

而AI想要在现实生活中真正发挥作用,就亟需一个可以提供真实、连贯、富情境交互数据的硬件载体。

不同于手机依赖用户主观使用的碎片化感知,也不像以“唤醒-提问”的强交互为核心的智能音箱,摄像头是家中少数能做到7×24小时在线,天然具备视觉与听觉“双感官”的设备,这为大模型提供了从感知(发生了什么)、到认知(这意味什么)、再到行动(应该做什么)的完整闭环数据。例如,从“宝宝走向沙发”到“爬上沙发”再到“伸手够桌子上的水杯”,就形成一个可被理解、预测,甚至是主动干预的行为链。

更重要的是,它足够普及,不需要用户为了迁就技术而改造居家环境,或是改变生活习惯。

与此同时,家庭看护的核心需求,也从“看见异常”升级为“理解风险”。

传统的摄像头,尽管也有移动侦测、电子围栏、人脸识别、人形/宠物检测等功能,但异常判断往往依赖像素变动和简单规则设定,缺乏对看护对象、行为、场景、时序、因果的综合理解。

比如,同样是进厨房,成年人做饭是日常,但三岁孩子独自靠近灶台却危险异常;同样是躺在地上,宠物午睡是惬意时光,老人摔倒无法起身则是生死时速。

哪怕摄像头越来越高清、灵敏,如果无法对正在发生的事件进行整体解读,也只会造成用户被大量误报和无效预警淹没,依然无法在关键时刻获得有效信息,徒增焦虑。

这种“伪安全感”,正是多模态大模型可以填补的技术空白。

因此,面对多模态AI时代的技术拐点与家庭看护的需求迭代,在今年AWE的现场,小度就率先采取了行动,将自研的多模态大模型能力,深度集成到了智能摄像头这个硬件载体上。

那么,拥有“情境理解”能力的摄像头,如何颠覆传统看护体验?

看护范式的跃迁

传统摄像头的看护焦虑,本质是“像素检测”带来的结构性弊端。它只知道“画面上有像素变化”(比如有人出现、移动),然后触发记录提醒、支持回看录像等。

但在新的多模态AI智能看护范式下,摄像头能做到告诉你:谁在做什么、判断可能的风险、主动洞察,甚至进行干预,其本质是在执行理解行为链的推理分析。

以“孩子靠近灶台”这个场景为例,对于传统摄像头而言,会触发一条“有人进入厨房”的提醒。

而小度摄像头则支持用户通过自然语言来设置任意一种看护事件,如 “孩子靠近灶台”、“小狗翻垃圾桶”等等。只需要一句话,AI就会自动进行需求分析,并主动拆解生成一条包含具体对象、行为的事件看护任务。这并非是简单的规则设定,而是将用户意图转化为可执行的视觉行为模型。

对于传统摄像头另一个“痛”了很久的需求——回看录像。相信大家都有过为了找某个片段,不得不手动翻找好几个小时录像的经历,费时也费力。

在录像检索这个高频场景中,小度智能摄像头也重构了检索的底层逻辑,即从时间轴查询升级为语义检索。

用户可语音直接“询问”摄像头,或在小度App上直接查询:“宝宝今天上午哭了几次?”“小猫有没有频繁挠耳朵?”,依托“AI随心问”功能,完成目标识别、行为识别、时空推理、频次分析、自动摘要的全链路推理分析,用户可直接得到一段总结描述,对应的录像画面,甚至还包含宝宝可能长牙期疼痛、小猫可能有耳螨的风险提示。

值得一提的是,它还可以运用在非常实用的寻物场景。

比如,用户只需要问一句“帮我看下遥控器放哪了”,摄像头就会实时环视检测,还能回溯24小时内的视频画面,帮助用户快速定位遥控器的最后出现位置。

而对于家庭看护摄像头真正升维,是其从设备到家庭Agent的跃迁。

通过整合视觉感知、AI事件理解、语音交互、智能联动等核心能力,小度全能陪伴Agent能够基于不同生活场景下的看护需要,将视觉、声音、时空链、上下文等置于目标语境中进行识别-理解-判断-主动干预,将摄像头体验从“被动监控”升级为AI时代的“主动看护”。

比如,针对伴学场景,你只需要对它说“帮我陪孩子写作业”,它就可以:当孩子坐姿不当时主动语音提醒,或是孩子注意力不集中时,给家长发送提醒及时关注,还能生成陪学看护报告,不仅可以帮助了解孩子学习过程中可能存在的问题,也会记录孩子的学习成果和优异表现。

这样的场景还有很多:阅读时的灯光明暗,步入卧室时的窗帘开合......此时摄像头已不再只是单点硬件,它正在成为家庭智能系统的决策节点。

家庭AI入口的重构

从“像素检测”到“行为理解”,从“异常记录”到“因果推理”,从“回看工具”到“家庭Agent”——小度摄像头实现的跃迁背后,不仅是产品迭代,更是对整个家庭智能入口的一次提前下注。

当摄像头能看、能听、能思考、还能联动全屋设备,它就不再只是孤立的安防设备,而是家庭智能系统的“感知中枢”。

未来的家庭智能,注定是多个感知节点组成的决策系统。

摄像头发现有人摔倒,音箱捕捉到异常声响,空调自动调低风速,灯光亮起应急模式——这一系列无缝协作中,摄像头提供的视觉信息,是最关键的串联线索。

同样重要的,还有“时间”。

当摄像头能基于一定时间周期,个性化挖掘分析,比如发现老人多天起夜频繁,结合床垫数据,提示可能的健康风险;或根据孩子专注度变化,建议调整作业时间、灯光等——这些都将赋予摄像头超越“家庭安防”的价值。

但摄像头进家门,隐私是绕不开的考量。

小度在演示中展示的摄像头“一句话定义看护任务”能力,背后也隐含了数据处理方式的变化:大量的视觉分析在端侧完成,只有脱敏后的摘要或用户主动授权内容才会上云。

值得一提的是,在这轮物理世界多模态入口的争夺战中,小度正在扮演一个“破局者”的角色。

当大多数厂商还在将多模态能力塞进手机App,试图延续移动互联网时代的入口逻辑时,小度选择了另一条路径:让AI主动走向物理世界,把入口“藏”进那些本就存在于现实空间的设备里。而摄像头,正是这场“入口迁移”的第一个落点。

AWE上的这步棋,表面看是产品升级,实则是赛道的重新定义。

当同行还在争论“入口是手机还是眼镜”时,小度已经用“能思考的摄像头”,把家庭AI入口之争拉到了一个新维度:谁的设备能让物理世界自身觉醒,谁就拿到了下一张牌桌的入场券。

回到最初的问题:家庭AI入口,到底会是什么?

真正的答案,或许不是某个特定硬件,而是谁能最先跑通“感知-理解-决策-执行”的完整闭环。

小度摄像头验证了这一可能性,但真正的战役刚刚开始。

当家里的设备都长出“眼睛”和“大脑”,当智能无处不在,我们也就不再需要“入口”这个概念。

彼时回看,我们会发现:让摄像头学会“思考”,不过是掀开了未来生活帷幕的一角。而那个主动入场的人,往往也最有可能定义接下来的整场戏。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10