想让AI进家门,不能靠手机

虎嗅APP
Mar 12

进入2026年,人工智能领域的聚光灯显然已从模型参数的狂飙,转向更为实质性的命题:如何让AI在现实扎根,真正走进生活。

然而,真实的生活往往充满了复杂性:当独居老人久坐不动、孩子调皮乱拔插头、宠物因焦虑撕咬家具……想成为物理世界中实实在在的参与者,都需要AI能够主动“看见”和“理解”。

如今,多模态的快速发展,让大模型的能力边界正从语言智能向视觉智能快速延伸。AI不再只是“读懂”文字、“听懂”声音,更开始“看懂”画面,甚至构建起对时空约束、物体关系、人物行为的完整理解。也就是说,AI能够像人一样,通过对物理环境的感知、理解和分析,建立关于“正在发生什么”的情境认知。

一个新问题随之而来:多模态时代,什么才是AI进入现实世界的第一入口?

家庭,作为人们现实世界最密切的互动单元,无疑是找寻答案的关键。

被低估的摄像头

要回答“第一入口是什么”,不妨先问:一定是手机吗?

过去十年,手机是毋庸置疑的智能中心。它随身携带、交互便捷、算力强大,几乎承载了数字生活的全部。

但让手机作为AI的物理世界入口,存在根本性的局限:它的“注意力”属于用户,而非环境。

手机捕捉的画面,是经过用户主观意图过滤后的现实片段,是“第三人称快照”,它无法捕捉用户“不感兴趣”但至关重要的环境事实。此外,手机会被放入口袋、扣在桌上、电池耗尽,它的“观察”更是随机的、被动的、断断续续的。

而想要实现“真正的物理世界智能”,需要的恰恰是连续的、无感的、全景客观的感知能力——这恰恰是手机无法提供的。

在所有家庭设备中,摄像头是最接近“物理世界连续信息流”的终端。它不需要被唤醒,不需要被操作,只要通电在线,就在持续“看”和“听”。更重要的是,它具备视觉与听觉“双感官”,能够捕捉场景中的人、物、关系、时序、行为——这些信息,正是多模态大模型理解现实世界所需的“燃料”。

所以,多模态的第一入口,不是手机,而是摄像头。

当然,前提是它不再只是“会看的眼睛”,而是“能思考的大脑”。

所谓多模态,是指能够同时处理文字、图片、视频、声音等多种信息。

而AI想要在现实生活中真正发挥作用,就亟需一个可以提供真实、连贯、富情境交互数据的硬件载体。

不同于手机依赖用户主观使用的碎片化感知,也不像以“唤醒-提问”的强交互为核心的智能音箱,摄像头是家中少数能做到7×24小时在线,天然具备视觉与听觉“双感官”的设备,这为大模型提供了从感知(发生了什么)、到认知(这意味什么)、再到行动(应该做什么)的完整闭环数据。例如,从“宝宝走向沙发”到“爬上沙发”再到“伸手够桌子上的水杯”,就形成一个可被理解、预测,甚至是主动干预的行为链。

更重要的是,它足够普及,不需要用户为了迁就技术而改造居家环境,或是改变生活习惯。

与此同时,家庭看护的核心需求,也从“看见异常”升级为“理解风险”。

传统的摄像头,尽管也有移动侦测、电子围栏、人脸识别、人形/宠物检测等功能,但异常判断往往依赖像素变动和简单规则设定,缺乏对看护对象、行为、场景、时序、因果的综合理解。

比如,同样是进厨房,成年人做饭是日常,但三岁孩子独自靠近灶台却危险异常;同样是躺在地上,宠物午睡是惬意时光,老人摔倒无法起身则是生死时速。

哪怕摄像头越来越高清、灵敏,如果无法对正在发生的事件进行整体解读,也只会造成用户被大量误报和无效预警淹没,依然无法在关键时刻获得有效信息,徒增焦虑。

这种“伪安全感”,正是多模态大模型可以填补的技术空白。

因此,面对多模态AI时代的技术拐点与家庭看护的需求迭代,在今年AWE的现场,小度就率先采取了行动,将自研的多模态大模型能力,深度集成到了智能摄像头这个硬件载体上。

那么,拥有“情境理解”能力的摄像头,如何颠覆传统看护体验?

看护范式的跃迁

传统摄像头的看护焦虑,本质是“像素检测”带来的结构性弊端。它只知道“画面上有像素变化”(比如有人出现、移动),然后触发记录提醒、支持回看录像等。

但在新的多模态AI智能看护范式下,摄像头能做到告诉你:谁在做什么、判断可能的风险、主动洞察,甚至进行干预,其本质是在执行理解行为链的推理分析。

以“孩子靠近灶台”这个场景为例,对于传统摄像头而言,会触发一条“有人进入厨房”的提醒。

而小度摄像头则支持用户通过自然语言来设置任意一种看护事件,如 “孩子靠近灶台”、“小狗翻垃圾桶”等等。只需要一句话,AI就会自动进行需求分析,并主动拆解生成一条包含具体对象、行为的事件看护任务。这并非是简单的规则设定,而是将用户意图转化为可执行的视觉行为模型。

对于传统摄像头另一个“痛”了很久的需求——回看录像。相信大家都有过为了找某个片段,不得不手动翻找好几个小时录像的经历,费时也费力。

在录像检索这个高频场景中,小度智能摄像头也重构了检索的底层逻辑,即从时间轴查询升级为语义检索。

用户可语音直接“询问”摄像头,或在小度App上直接查询:“宝宝今天上午哭了几次?”“小猫有没有频繁挠耳朵?”,依托“AI随心问”功能,完成目标识别、行为识别、时空推理、频次分析、自动摘要的全链路推理分析,用户可直接得到一段总结描述,对应的录像画面,甚至还包含宝宝可能长牙期疼痛、小猫可能有耳螨的风险提示。

值得一提的是,它还可以运用在非常实用的寻物场景。

比如,用户只需要问一句“帮我看下遥控器放哪了”,摄像头就会实时环视检测,还能回溯24小时内的视频画面,帮助用户快速定位遥控器的最后出现位置。

而对于家庭看护摄像头真正升维,是其从设备到家庭Agent的跃迁。

通过整合视觉感知、AI事件理解、语音交互、智能联动等核心能力,小度全能陪伴Agent能够基于不同生活场景下的看护需要,将视觉、声音、时空链、上下文等置于目标语境中进行识别-理解-判断-主动干预,将摄像头体验从“被动监控”升级为AI时代的“主动看护”。

比如,针对伴学场景,你只需要对它说“帮我陪孩子写作业”,它就可以:当孩子坐姿不当时主动语音提醒,或是孩子注意力不集中时,给家长发送提醒及时关注,还能生成陪学看护报告,不仅可以帮助了解孩子学习过程中可能存在的问题,也会记录孩子的学习成果和优异表现。

这样的场景还有很多:阅读时的灯光明暗,步入卧室时的窗帘开合......此时摄像头已不再只是单点硬件,它正在成为家庭智能系统的决策节点。

家庭AI入口的重构

从“像素检测”到“行为理解”,从“异常记录”到“因果推理”,从“回看工具”到“家庭Agent”——小度摄像头实现的跃迁背后,不仅是产品迭代,更是对整个家庭智能入口的一次提前下注。

当摄像头能看、能听、能思考、还能联动全屋设备,它就不再只是孤立的安防设备,而是家庭智能系统的“感知中枢”。

未来的家庭智能,注定是多个感知节点组成的决策系统。

摄像头发现有人摔倒,音箱捕捉到异常声响,空调自动调低风速,灯光亮起应急模式——这一系列无缝协作中,摄像头提供的视觉信息,是最关键的串联线索。

同样重要的,还有“时间”。

当摄像头能基于一定时间周期,个性化挖掘分析,比如发现老人多天起夜频繁,结合床垫数据,提示可能的健康风险;或根据孩子专注度变化,建议调整作业时间、灯光等——这些都将赋予摄像头超越“家庭安防”的价值。

但摄像头进家门,隐私是绕不开的考量。

小度在演示中展示的摄像头“一句话定义看护任务”能力,背后也隐含了数据处理方式的变化:大量的视觉分析在端侧完成,只有脱敏后的摘要或用户主动授权内容才会上云。

值得一提的是,在这轮物理世界多模态入口的争夺战中,小度正在扮演一个“破局者”的角色。

当大多数厂商还在将多模态能力塞进手机App,试图延续移动互联网时代的入口逻辑时,小度选择了另一条路径:让AI主动走向物理世界,把入口“藏”进那些本就存在于现实空间的设备里。而摄像头,正是这场“入口迁移”的第一个落点。

AWE上的这步棋,表面看是产品升级,实则是赛道的重新定义。

当同行还在争论“入口是手机还是眼镜”时,小度已经用“能思考的摄像头”,把家庭AI入口之争拉到了一个新维度:谁的设备能让物理世界自身觉醒,谁就拿到了下一张牌桌的入场券。

回到最初的问题:家庭AI入口,到底会是什么?

真正的答案,或许不是某个特定硬件,而是谁能最先跑通“感知-理解-决策-执行”的完整闭环。

小度摄像头验证了这一可能性,但真正的战役刚刚开始。

当家里的设备都长出“眼睛”和“大脑”,当智能无处不在,我们也就不再需要“入口”这个概念。

彼时回看,我们会发现:让摄像头学会“思考”,不过是掀开了未来生活帷幕的一角。而那个主动入场的人,往往也最有可能定义接下来的整场戏。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10