结论先行
结论分三层:
- 做“馆内辅助预警试点”是可行的。 在单一室内泳池、有限机位、明确值守流程的前提下,可以做出能持续监控、发现异常并推送预警的系统。
- 做“稳定商用版”难度明显更高。 难点不在于“有没有模型”,而在于误报、漏报、场景泛化、设备安装、责任边界和长期运维。
- 你朋友并不是“完全没有资源”。 他有真实泳馆和真实使用场景,这使得“做内部试点”比“凭空创业”更现实;但仍然不适合单独从零做完整产品。
为什么说“能做”
当前技术已经具备以下构件:
- 摄像头视频流实时接入
- 边缘端或云端的视频分析
- 目标检测、人体姿态估计、跨帧跟踪、事件规则引擎
- 实时告警、录像回放、报警位置提示、通知联动
现有产品也证明了市场上已经存在可部署方案,而不是纯论文概念:
- Poseidon 面向公共泳池,区分浅水池和深水池,浅水采用上方监控,深水采用水下摄像头,并宣称 10 秒内报警。
- SAFE SWIM 面向有救生员的泳池与开放水域,强调 AI 识别、跨视角追踪和多重预警。
- 国内也已有杨浦体育活动中心、三体云动、“安全眼”等案例,说明中国市场并非空白。
为什么说“不能太乐观”
1. 这不是通用大模型的标准强项
OpenAI Realtime API 官方文档当前明确写的是低延迟语音交互,输入输出核心是音频、图像、文本;gpt-realtime 模型页也明确标注 Video: Not supported。这意味着它不适合直接充当“高帧率泳池监控主引擎”。
Google Gemini Live API 官方文档虽然支持实时语音与视觉,但技术规格里写的是输入模态为音频、JPEG <= 1FPS 的图像和文本。这个边界更像“低频视觉流交互”,不是标准安防级视频检测引擎。
阿里云百炼的视觉理解文档支持图像与视频理解,并允许通过 fps 参数控制视频抽帧,默认值是 2.0。Moonshot Kimi K2.5 官方文档也给出了视频理解 video_url 示例,并列出支持的视频格式。智谱官方文档则明确列出了视频、图像、文本输入的视觉模型和实时音视频模型。这些都说明国内平台的多模态能力已经足够强,但它们提供的是模型能力,不是已经调好规则和流程的泳馆防溺产品。
2. 溺水场景是低频、高风险、容错极低
- 漏报可能直接导致严重事故
- 误报太多会让救生员疲劳,最终把系统静音
- 泳池反光、水花、遮挡、多人并行活动、儿童玩闹、潜水训练都会制造困难样本
- 真正危险事件很少发生,导致数据极度不平衡
3. 馆内试点同样依赖场地适配
同一个模型在不同泳池很可能表现差异很大,变量包括:
- 池深与池型
- 室内光线
- 摄像头高度、角度、畸变
- 是否存在训练区、儿童区、盲区
- 人流密度
- 是否允许水下摄像头
因此,真正能落地的系统通常都不是“一个通用模型卖全国”,而是“基础算法 + 场地标定 + 规则调优 + 值守流程”的组合。
你朋友这个场景下,最合理的目标是什么
不是一上来做“全行业通用产品”,而是:
- 在自己所在室内泳馆先做辅助预警试点
- 明确对外口径是“辅助救生员提高发现效率”
- 先验证在本馆内是否能稳定识别几类高风险事件
- 在可接受预算内,证明系统能减少漏看、分心和响应迟缓
这种系统到底怎么监测
用户最常见的误解是:系统是不是只看“静止不动的人”。
更准确的答案是:成熟方案通常是混合策略,不是单一规则。
常见的三类检测思路
- 全池跟踪型 从上方摄像头持续跟踪池内每个可见泳者,估计其位置、速度、轨迹、头部出水情况和姿态变化,再用规则判断风险。
- 重点区域型 只对深水区、转身区、跳台附近、教练盲区等高风险区域做重点监测。
- 水下静止 / 底部停留型 通过水下摄像头监测底部长时间静止、异常沉底、姿态异常等信号。
第一版试点最推荐的方式
对你朋友的馆内场景,推荐:
- 上方机位做全池跟踪
- 水下机位做深水区或盲区补强
- 规则引擎综合判断,不靠单一“静止”条件
也就是说,它既不是“只看水下静止”,也不是“必须精确理解每个动作的全部语义”,而是:
跟踪 + 姿态 / 轨迹特征 + 区域规则 + 时间阈值 + 人工确认
更适合你朋友的技术路线
推荐路线:馆内边缘部署 + 少量国内多模态模型做辅助
主链路:
- RTSP 摄像头接入
- 本地边缘计算设备
- CV 模型做检测、跟踪、姿态 / 目标理解
- 事件规则引擎触发报警
- 本地大屏 / 手机 / 手表 / 声光提醒给救生员
辅助链路:
- Kimi / GLM / Qwen 这类国内多模态模型
- 用于录像摘要、事件复盘、报警解释、管理后台检索
这样的好处是:
- 主检测不依赖外网
- 本馆试点更可控
- 国内模型可以补齐“看懂录像”和“生成人话解释”的能力
真正可落地的技术路线
路线 A:专用 CV + 规则引擎 + 人工复核
这是目前最现实的路线。
组成一般是:
- 固定机位摄像头
- 边缘计算盒或本地服务器
- 人体检测 / 姿态估计 / 跟踪模型
- 时间维度规则
- 报警界面和通知系统
- 救生员人工确认与处置
优点:
- 延迟和带宽可控
- 数据留在本地更利于隐私控制
- 适合持续跑 24/7
缺点:
- 需要算法调优和现场实施
- 初期误报治理成本高
- 对工程团队要求高
路线 B:云端视频 AI 作为原型或辅助
Google Cloud Video Intelligence Streaming API 官方文档显示,它支持 RTSP、RTMP、HLS 等协议接入,并支持实时标签、对象检测与跟踪,但页面仍标注 Beta / Pre-GA。这类能力更适合:
- 做原型验证
- 做后台辅助分析
- 做非强实时的事件检索或回放分析
不适合直接承担高风险场景的唯一告警责任。
路线 C:通用多模态模型作为辅助层
通用模型适合做:
- 事件摘要
- 录像回顾说明
- 报警解释
- 运营报表
- 管理后台自然语言问答
不适合做:
- 作为唯一的主检测引擎
- 在没有专用规则和人工复核的情况下直接决定生死级报警
最小可行产品(MVP)应该长什么样
推荐 MVP 目标
不是“全面替代救生员”,而是:
- 在单馆单池稳定运行
- 对明确定义的高风险事件给出辅助预警
- 把报警位置和回放片段推给救生员
- 保证系统留痕,便于复盘
推荐 MVP 能力边界
- 单池
- 2 到 6 个机位
- 有明确值守救生员
- 只做辅助报警,不做自动处置
- 对“长时间静止 / 头部长时间没出水 / 姿态异常 / 区域越界”等少量规则先做验证
当前最容易被误解的点
- “有视频理解模型”不等于“有商用防溺系统”。
- “能识别视频事件”不等于“能承诺安全级实时告警”。
- “边缘盒子 + 摄像头”不等于“产品就能交付”,还差标定、测试、流程和售后。
- “自己有一个泳馆能试”不等于“已经具备做产品公司的能力”。
对你朋友的现实判断
在你补充的新前提下,判断需要调整:
- 不建议他直接做创业公司
- 建议他先做馆内内部试点
- 建议定位为辅助预警,而不是替代救生员
- 建议优先找懂 CV 和边缘部署的技术合作方,而不是先找大模型厂商
关键来源
- OpenAI Realtime API: https://developers.openai.com/api/docs/guides/realtime
- OpenAI
gpt-realtimemodel: https://developers.openai.com/api/docs/models/gpt-realtime - Gemini Live API overview: https://ai.google.dev/gemini-api/docs/live-api
- Gemini video understanding: https://ai.google.dev/gemini-api/docs/video-understanding
- Google Cloud Video Intelligence Streaming: https://docs.cloud.google.com/video-intelligence/docs/streaming/live-streaming
- 阿里云百炼视觉理解: https://help.aliyun.com/zh/model-studio/vision/
- Kimi K2.5: https://platform.moonshot.cn/docs/guide/kimi-k2-5-quickstart
- 智谱模型概览: https://docs.bigmodel.cn/cn/guide/start/model-overview
- GLM-4V-Plus-0111: https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4v-plus-0111
- Poseidon: https://poseidon-tech.com/
- SAFE SWIM: https://www.safeswim.io/