推广 热搜： 行业教师机械设备系统杯金参数经纪蒸汽

AI读论文新神器：多栏密集文字、中英图文混排文档都能读｜旷视

日期：2024-06-10 caijiyuan 评论：0 移动：http://www.glev.cn/mobile/news/6290.html

核心提示：Fox团队投稿量子位 | 公众号 QbitAI虽然多模态大模型都能挑西瓜了，但理解复杂文档方面还是差点意思。面对文字密集、多栏混排等

Fox团队投稿

量子位 | 公众号 QbitAI

虽然多模态大模型都能挑西瓜了，但理解复杂文档方面还是差点意思。

面对文字密集、多栏混排等文档时往往力不从心，区域级别的细粒度理解，就更是无从谈起了。

最近，旷视团队打造了一支多模态大模型的“点读笔”——Fox，轻松实现对8页文档（中英混合，单栏多栏格式混合的极端场景）的交互式感知理解。

对于信息密集的PDF文档，Fox支持高可控性的细粒度理解，比如在用户感兴趣区域内进行文字识别、段落翻译以及页面内部的图片内容描述等。

论文中，团队进一步突破了对于文档的视觉感知理解的上限，高密度的信息被真正压缩，LVLM真正地“看”懂图，才能真正做好、做出能用的文档多模大模型。

正所谓“一图胜千言”—— one image token >> one text token。

接下来，看看Fox在实战中表现如何？

对于中英混合、单栏多栏混合的8页PDF文档，可实现任意区域的OCR：

下图左侧展示了8页文档内跨页的VQA，右侧展示了双栏中文页面的前景OCR。

双栏密集英文页面的前景OCR：

在页面内图片描述方面，Fox能给出文档内内容关联的回答（young Dual Language Learners）。

当然Fox还支持line-level OCR，以及对RoI区域的翻译、总结等。

Fox可以结合页面内文字，认识到这是一张关于global seismic hazards的图。此外，Fox还支持RoI内的latex格式转换，例如下面的table转latex。Fox还支持更加灵活的颜色引导的RoI区域OCR。

对于卡通绘本，也可以哪里不会点哪里：

电影海报和自然场景的对话问答，Fox给出了非常有趣的答案（根据电影海报下面的文字给出了角色来源）：

那么Fox是如何做到这些的呢？

在细粒度文档理解上，Fox有着三大创新：

精准定位

Fox引入了一系列基于位置的文本提示，如点击位置、拖动框、涂色框等。这使得模型可以直接定位到感兴趣的任意区域，而不受文档格式的限制。同时，Fox还把全页OCR重新定义为”前景聚焦”任务，进一步增强了对密集文字的感知。

多视觉词表协同

为了更好地理解图文混排页面，Fox采用了两个不同特长的视觉词表——CLIP主攻自然图像，Vary专攻人工文档。但单纯叠加两种数据，往往会造成视觉偏置。为此，Fox合成了大量含混合视觉元素的数据，迫使两个视觉分支充分协作。

页面打包

得益于高压缩率(每页1024×1024图像对应256个图像token)，Fox将多页面文档统一打包输入。这不仅让跨页面的上下文理解成为可能，也大幅降低了计算开销。值得一提的是，这种打包微调模式并不需要重新训练视觉词汇。

在这些创新基础上，Fox模型结构如图所示。

Fox支持单页/多页文档图像输入，所有图像的image token被统一到一个sequence中进行多页文档理解。团队设计了基于point、color、box的prompt，来实现在文档页面上聚焦任意位置。团队合成了图文交织的文档数据，来充分催化两个视觉词表，以更好地适用于实际文档应用场景。

此外，为了促进对文档细粒度理解的研究，作者还打造了一个中英双语的benchmark，已经开源了数据和评测代码，共包含以下9种任务：

Page-level OCR
Region-level OCR
Line-level OCR
Color-guided OCR
Region-level translation
Region-level summary
In-document figure caption
Multi-page multi-region OCR
Cross-page VQA

最后，团队呼吁更多的研究人员能关注到细粒度的单页/多页文档理解，单页的稀疏的问答任务远远不够。

真正做好多模态大模型，视觉编码器的信息压缩率（token转化率）是非常重要的，Fox仅探究了文档这一类应用方向，希望对大家的研究有所帮助。

想了解更多细节，请查看原论文。

论文地址：https://arxiv.org/abs/2405.14295

代码地址：https://github.com/ucaslcl/Fox

项目主页：https://ucaslcl.github.io/foxhome/

— 完 —

量子位 QbitAI · 头条号签约

本文地址：http://www.glev.cn/news/6290.html 歌乐夫 http://www.glev.cn/ , 查看更多

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• “集”合了！美业科技盛宴！	• AI是什么意思数据库
• 茶叶泡脚能养生具有五种作用	• 世界地球日主题活动策划书
• 济南市园林和林业绿化局工作进展济南市园林和	• 旅游户外休闲用品
• 2024义乌国际美容美发展览会	• 汽车早参｜领克于上海成立公司，零跑交付破40
• 2024-2029年中国玻璃钢船艇行业发展前景预测与	• 西安纹绣培训-ap韩魅课程
• 天津市胸科医院	• AI是在帮助开发者还是取代他们？
• 【健康科普】科普文章：大暑养生，谨防“情绪中	• 包含休闲观光、亲子拓展等多元活动延庆大榆树
• 打造“皖美休闲旅游乡村” 安徽印发行动方案	• 湖北招标网
• 易享瘦美容美体加盟	• 西安精英化妆师弟子班课程
• 上海首尔亚美美容培训中心怎么样？办学优势如何	• 初学者怎样学习使用AI？
• 生态环保｜金凤区：增绿、护绿、兴绿并举谱	• 原创吃饭养生这个好习惯，4个好处自然而来，让
• 让更多的年轻人爱上戏曲！	• 娱乐：开局一剪梅，文化输出海外最新章节
• 环卫工作计划【精彩15篇】	• 如何健康过伏天？这份养生指南请收好
• 健康管理师职业资格	• 首页概览资金流向公司资料新闻公告财务分析经营
• 保护环境建议书实用(15篇).docx	• 餐饮装修步骤,餐饮装修步骤详细流程
• 【健康养生】减肥误区你知道多少	• 新大正与飞书达成合作打造物业行业未来组织
• 新能源是什么意思？	• 北京市文旅局发布暑期旅游消费提示
• 园林景观造雾设备	• 工信部赵志国：拓展互联网发展新空间打造竞争
• 旅游行业周刊：暑期旅游市场火热，旅游公共服务	• 南充文兴米粉加盟
• 美业商城APP软件开发	• hp公交车灌溉系统：充分利用了现有资源，达到了
• 环保志愿者的心得体会	• 太原晋源区稻田公园荣获最美乡村休闲旅游景点奖
• 旅游热潮进行时，电动游船了解一下	• 鹏华文化传媒娱乐股票(001223)基金净值
• 世界环境日的演讲稿800字6篇	• 深读｜提档升级，江苏工业旅游还需做增量
• 餐饮装修要多少钱,餐饮装修预算明细表	• 简直是福州版普罗旺斯！这片花海，太美了！
• “大秀春光”不害臊，娱乐圈的“流氓艺术”，该	• 娱乐：从现在就出发开始
• 首届山东户外运动休闲旅游嘉年华活动（城市5）	• 成都九鹊美业企业管理咨询有限公司
• “新质互联网”概念诞生：AI时代，IPv6创新走向	• 【安徽阿里巴巴文化娱乐有限公司五河分公司招聘
• 山东省内适合带孩子旅游的地方	• 全方位养生资源，构建健康生活网络
• 日程发布：2024中国旅游休闲娱乐产业发展大会邀	• 获评市级乡村旅游重点村！让“苏州河第一村”一
• [健康之路]秋季餐桌上的养生智慧（六）银耳	• 多款旅游线路来袭，靠谱出游，就选走着瞧旅行！
• 月流水过亿后再出续作，网易想做的“自有IP	• 老师推荐：6、轻松搞定牛顿定律（从入门到提高
• 创始人冯小燕女士除任集团董事长职务外另现任开	• 【多伦多海鲜自助餐厅加盟】
• 青海环保除尘设备	• 瑞发德食品股份有限公司招聘信息
• 京郊十大休闲农业打卡地｜你都去过几个地方？	• 山东临沂市食品经营许可证办理及查询介绍
• 高速路边坡绿化加筋植生毯生态环保可降解	• 2024中国餐饮展｜餐饮特许加盟展｜第十四届
• 恩施咸丰【坪坝营四洞峡】一日游（休闲避暑度	• 苏州学皮肤管理哪里好
• 海马汽车：6月SUV销量同比增长12.27%	• 您需要在预订过程中和确认预订时授权相关的Agod
• 在城市更新中寻求生态园林率先发展——解读苏州	• 第一季度影视语料概念上市公司每股收益前十排行
• 广州尚艺美发风格与设计培训	• 2024中国餐饮连锁加盟展会
• 娱乐：拿命拍戏！全网求我用替身	• 绿色环保pp纺粘无纺布
• 【美业咨询是做什么的	• 郑州微整注射针剂培训
• 美业多门店管理软件系统开发	• 高速路护坡复绿环保生态植草毯生态环保可降解
• 石家庄到威海休闲三日游—石家庄到威海慢时光纯	• 载着我们的科技梦扬帆起航
• 大力实施生态绿化提升城市宜居环境	• 青州哪里应聘剪辑师多（青州哪里应聘剪辑师多啊
• HP公交车灌溉系统十分流畅：城市绿色先锋，环保	• 【丹阳市丽璟会文化娱乐管理有限公司招聘信息】
• 遂川县人民政府	• 新媒体运营
• 名赫美业赣州总校纹绣培训班火热招生，	• 主客共享焕发新生机——全国旅游休闲街区创新发
• 高性价比、清凉舒适云南大理、景洪入围今夏十	• 每天1条！新版健康素养第21条
• 【喜报】恩阳检察新媒体作品获第六届互联网辟谣	• 海伦堡太阳湖人才小镇的绿化率如何？
• 只有在故意或蓄意造成不当操作或提供相关服务时	• 房地产可行性研究报告由哪个部门审批？