微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!

图片[1]-微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!-零度博客

Florence-2:微软全新开源视觉模型!

能够执行超过10种不同的视觉任务 包括图像字幕生成、对象检测、图像区域关联和分割等。

它不仅能描述图片的内容,还能识别图片中的物体,并指出这些物体的位置。

比如,如果你给它一张公园里的图片,它可以告诉你图片里有一个穿蓝衣服的女孩在玩耍,旁边还有一只狗。

Florence-2 系列包括 Florence-2-base 和 Florence-2-large,参数分别为 0.23 亿和 0.77 亿。尽管模型较小,但性能并不逊色。

可以运行在各种资源受限的移动端设备上。 Florence-2 采用统一的、基于提示的表示方式来处理各种视觉任务。 通过简单的文本提示,模型可以生成所需的文本形式结果,无论是图片描述、目标检测、视觉定位还是图像分割。这种方法简化了多任务处理的复杂性,提高了模型的通用性和适应性

图片[2]-微软推出最新视觉基础模型Florence-2 ,可在WebGPU的浏览器独立运行!-零度博客

 

Florence-2是Microsoft 在MIT 许可下开源的轻量级视觉语言模式。该模型在字幕、物件侦测、接地和分割等任务中展示了强大的零样本和微调功能。

尽管尺寸很小,但它所取得的结果与大许多倍的模型(如Kosmos-2)相当。该模型的优势不在于复杂的架构,而在于大规模的FLD-5B 资料集,其中包含1.26 亿张影像和54 亿个综合视觉注释。

微软推出最新视觉基础模型Florence-2 ,可在支援WebGPU的浏览器独立运行

该模型支持多种功能,可用于生成图像、识别字元、分割图像、检测物体等等。

Florence-2 比其前身更小、更精确。 Florence-2系列由两个模型组成:Florence-2-base和Florence-2-large,分别有2.3亿和7.7亿参数。此尺寸甚至允许部署在行动装置上。

尽管规模较小,但Florence-2 在所有基准测试中都取得了比Kosmos-2 更好的零样本结果,尽管Kosmos-2 拥有16 亿个参数。

Florence-2的本地化运行得益于Transformers.js和ONNX Runtime Web技术的支持。这一突破不仅提高了使用者隐私保护水平,还大大降低了使用成本,为AI视觉技术的普及应用铺平了道路。

THE END
喜欢就支持一下吧
点赞2176 分享
相关推荐
ChatGPT 目前不可用,宕机!已查明原因,正积极修复-零度博客

ChatGPT 目前不可用,宕机!已查明原因,正积极修复

 2024 12.12 ChatGPT出现全球宕机,打开官网或者PC客户端、手机端全部显示: ChatGPT 目前不可用。 状态:已识别 — 我们已经识别出该问题并正在努力推出修复程序。不知道的人还以为是自己的...
admin的头像-零度博客admin
92772130
9个吸引注意力的免费项目提案模板-零度博客

9个吸引注意力的免费项目提案模板

正确的项目提案模板可以确保您的提案在众多其他模板中脱颖而出。使用易于使用的模板做更多事情。 每个成功的项目都始于一个引人注目的项目提案,该提案吸引了您需要的投资者、赞助商和合作伙伴...
admin的头像-零度博客admin
1.6W+2251
bt种子下载神器,不限速,这几款都是真正好用的BT下载工具 | 零度解说-零度博客

bt种子下载神器,不限速,这几款都是真正好用的BT下载工具 | 零度解说

更多资源▶https://www.youtube.com/channel/UCvijahEyGtvMpmMHBu4FS2w?sub_confirmation=1 其它频道▶https://www.youtube.com/channel/UClwagXSElvewq1IPXXSFSug 今天给大家介绍的这5款BT下载...
真正的自动剪辑神器!完全免费开源,无任何功能限制!Youtuber快速制作视频必备工具!-零度博客

真正的自动剪辑神器!完全免费开源,无任何功能限制!Youtuber快速制作视频必备工具!

第一种剪辑方法:   auto-editor C:/Users/PC-2020/Desktop/123456.mp4 auto-editor C:/Users/PC-2020/Desktop/123456.mp4 auto-editor C:/Users/PC-2020/Desktop/123456.mp4   第二...
以4K/8K分辨率:录制电脑屏幕+语音自动转字幕功能!OBS 最强录屏软件使用教程 | 零度解说-零度博客
Meta Llama 3 正式发布!如何在线体验和本地安装部署?-零度博客

Meta Llama 3 正式发布!如何在线体验和本地安装部署?

Meta 宣布推出下一代开源大语言模型Llama 3,标志着AI发展新里程碑。该模型分为80亿和700亿参数两个版本,被誉为'Llama 2的重大飞跃',为大规模语言模型树立新标杆。 值得一提的是,Llama 3已与Meta...
admin的头像-零度博客admin
2.1W+2176
只需一招!让电视 Wifi 速度快3倍!!看TV再也不卡了 | 零度解说-零度博客

只需一招!让电视 Wifi 速度快3倍!!看TV再也不卡了 | 零度解说

https://youtu.be/rusVvcWMyW0   智能 TV 电视测速工具下载:https://www.freedidi.com/12847.html
男人必备的10款下载工具推荐:开源、免费、无广告, 支持FTP HTTP 磁力链接等!| 零度解说-零度博客

男人必备的10款下载工具推荐:开源、免费、无广告, 支持FTP HTTP 磁力链接等!| 零度解说

https://youtu.be/d9dA2inNbJU   2021 最好用的10款下载工具推荐!:https://www.freedidi.com/2024.html
admin的头像-零度博客admin
1.1W+652
Chrome、Edge 等浏览器开启多线程下载的方法-零度博客

Chrome、Edge 等浏览器开启多线程下载的方法

Chrome 浏览器,地址栏输入并回车:chrome://flags/#enable-parallel-downloading Edge 新版浏览器,地址栏输入并回车:edge://flags/#enable-parallel-downloading