微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!

图片[1]-微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!-零度博客

Florence-2:微软全新开源视觉模型!

能够执行超过10种不同的视觉任务 包括图像字幕生成、对象检测、图像区域关联和分割等。

它不仅能描述图片的内容,还能识别图片中的物体,并指出这些物体的位置。

比如,如果你给它一张公园里的图片,它可以告诉你图片里有一个穿蓝衣服的女孩在玩耍,旁边还有一只狗。

Florence-2 系列包括 Florence-2-base 和 Florence-2-large,参数分别为 0.23 亿和 0.77 亿。尽管模型较小,但性能并不逊色。

可以运行在各种资源受限的移动端设备上。 Florence-2 采用统一的、基于提示的表示方式来处理各种视觉任务。 通过简单的文本提示,模型可以生成所需的文本形式结果,无论是图片描述、目标检测、视觉定位还是图像分割。这种方法简化了多任务处理的复杂性,提高了模型的通用性和适应性

图片[2]-微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!-零度博客

 

Florence-2是Microsoft 在MIT 许可下开源的轻量级视觉语言模式。该模型在字幕、物件侦测、接地和分割等任务中展示了强大的零样本和微调功能。

尽管尺寸很小,但它所取得的结果与大许多倍的模型(如Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的FLD-5B 资料集,其中包含1.26 亿张影像和54 亿个综合视觉注释。

微软推出最新视觉基础模型Florence-2 ,可在支援WebGPU的浏览器独立运行

该模型支持多种功能,可用于生成图像、识别字元、分割图像、检测物体等等。

Florence-2 比其前身更小、更精确。 Florence-2系列由两个模型组成:Florence-2-base和Florence-2-large,分别有2.3亿和7.7亿参数。此尺寸甚至允许部署在行动装置上。

尽管规模较小,但Florence-2 在所有基准测试中都取得了比Kosmos-2 更好的零样本结果,尽管Kosmos-2 拥有16 亿个参数。

Florence-2的本地化运行得益于Transformers.js和ONNX Runtime Web技术的支持。这一突破不仅提高了使用者隐私保护水平,还大大降低了使用成本,为AI视觉技术的普及应用铺平了道路。

THE END
喜欢就支持一下吧
点赞2176 分享
相关推荐
AI 照片修复神器来袭!一键让模糊照片秒变清晰,完全免费在线使用-零度博客

AI 照片修复神器来袭!一键让模糊照片秒变清晰,完全免费在线使用

 InstantIR 是一种新颖的单幅图像修复模型,旨在修复受损图像,提供极致品质且逼真的细节。您可以通过附加文本提示进一步提升InstantIR性能,甚至实现自定义编辑!这个模型已经没法部署并托管...
admin的头像-零度博客admin
3.1W+1207
Z-Library 被美国FBI再次黑掉登录域,但每个用户的秘密 URL 仍然有效-零度博客

Z-Library 被美国FBI再次黑掉登录域,但每个用户的秘密 URL 仍然有效

Z-Library 避免因俄罗斯人面临刑事指控而关闭个人 URL。 美国当局已经没收了另一个主要的 Z-Library 域,但仍无法从互联网上清除盗版图书网站。Z-Library 声称提供超过 1300 万册图书,高于去年...
admin的头像-零度博客admin
1.3W+6539
Windows 10 上有什么值得推荐的软件?这6款绝对可以堪称神器!-零度博客
你的密码可能正遭到泄露,赶紧来查一查! | 零度解说-零度博客
9个超实用的电脑使用技巧!高效办公、解决程序卡顿、蓝屏死机等! Power Toys | 零度解说-零度博客

9个超实用的电脑使用技巧!高效办公、解决程序卡顿、蓝屏死机等! Power Toys | 零度解说

本期视频内容: 1.任务管理器置顶 2.Windows 小组件自定义 3.Hosts文件超简单修改 4.Locksmith 文件占用解锁 5.窗口置顶 6.Power toys 快速启动 7.文件批量重命名 8.文本提取器 Power Toys:【...
admin的头像-零度博客admin
1.6W+2251
这款K歌神器 + 8首经典歌曲!让你彻底摆脱唱歌跑调的烦扰,成为K歌达人 | 零度解说-零度博客
7个非常不可思议的网站,很少人知道但真的超级有趣实用!| 零度解说-零度博客
DeepSeek 重磅推出 NSA 功能!处理长文本、编写长篇故事更强-零度博客

DeepSeek 重磅推出 NSA 功能!处理长文本、编写长篇故事更强

就在马斯克发布Grok 3大模型后当天,DeepSeek 就重磅推出 NSA 功能!这是长文本建模的突破性进展,在处理长序列文本起到非常关键的作用,处理长文本、编写长篇故事更强!消息发布后就迎来大量的...
admin的头像-零度博客admin
1.3W+2631
手动清理电脑垃圾文件!给系统盘做一个深度清洁-零度博客

手动清理电脑垃圾文件!给系统盘做一个深度清洁

  1.MasterSeeker 大文件搜索 【官网下载】   2.Geek Uninstaller 卸载软件必备 【官网下载】  
admin的头像-零度博客admin
1.8W+1092