我遇到了一些有趣的动向。Moondream似乎推出了一项专注于提升视觉语言模型(VLM)精度的新服务“Lens”。这发生在上周的4月21日。



到目前为止,VLM在实验室中表现优异,但在实际应用场景中,精度会大幅下降,这是一个问题。Lens是一项为解决这一问题而设计的微调服务,支持强化学习和有监督微调两种方式。它是按量付费的API,用户可以根据需要使用。

令人惊讶的是,它能用少量数据实现显著改善。据说在NBA直播视频分析中使用后,F1得分从28%跃升至79%。误检率也大幅降低。

在街景图像识别国家、医疗图像处理等任务中,也展现出超越现有模型的性能。感觉视觉语言模型的实用化又迈进了一步。

Moondream的早期合作伙伴PTZOptics计划将Lens集成到其系统中,以提升目标追踪和异常检测的精度。此前,Moondream还推出了Photon推理引擎,而Lens则作为补充,旨在兼顾VLM的速度与精度。

用技术解决实际应用中的难题。这样的稳步改进,或许会推动VLM的全面普及。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论