标签:OCR识别
字节发布Seed1.5-VL多模态推理模型,OCR识别与视觉编码器结合强化学习,在38项评测中夺得第一
字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL,该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数,却能与更大规模的顶尖模型相媲美,尤其在复杂谜题推理、OCR(光学字符识别)、图表理解及3D空间理解等方面表现出色。 Seed1.5-VL支持多种分辨率的图像输入,并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面,团队提出了一种动态帧分辨率采样策略,能够根据需求动态调整帧率和分辨率。此外,模型还引入了时间戳标记来增强对时间信息的感知...
OpenBMB的MiniCPM-V2.6:一款国内领先的多模态大模型,超越GPT-4V,集OCR识别与视频理解于一体,已获超9000颗星认可
国内知名的开源社区OpenBMB近期推出了其最新研发的开源多模态大模型——MiniCPM-V2.6。这款模型拥有80亿参数,在单图像、多图像以及视频理解等方面的表现超越了GPT-4V;尤其在单图像理解上,其效果优于GPT-4o mini、Gemini1.5Pro 与 Claude3.5Sonnet 等同类模型。MiniCPM-V2.6不仅显著降低了模型的内存占用,还提高了推理效率,并且首次实现了在iPad等移动端设备上进行实时视频理解。 MiniCPM-V2.6基于SigLip-400M和阿里云的Qwen2-7B模型进行开发,相较于之前的版本V2.5,性能有了显著提升,并新增了多图像和视频理解的功能。...
防范信息泄露与安全风险:国家安全部警示文件传输助手及AI写作小程序的潜在云端存储隐患与OCR识别技术滥用问题
在日常的工作和生活中,许多人为了提高效率,常常借助各种便捷的小工具,例如微信中的“文件传输助手”功能。它可以帮助用户轻松地在不同设备间传输文件资料,极大地方便了我们的生活。然而,值得注意的是,这类工具在带来便利的同时也可能带来安全隐患,特别是对于涉及敏感信息的文件来说。 根据国家安全部公众号披露的信息,近年来由于使用在线办公工具而引发的失密事件频发,这暴露出了许多潜在的安全风险。以“文件传输助手”为例,该功能允许用户将文件存储在云端,从而可以在多种设备上访问这些文件。尽管这一特性极大地...