MiniMonkey 是基于 InternVL2 的专用于OCR文档理解的多模态大模型。
注意:Python版本最好为3.10及以上版本。
python paddlemix/examples/minimonkey/chat_demo_minimonkey.py \
--model_name_or_path "HUST-VLRLab/Mini-Monkey" \
--image_path 'path/to/image.jpg' \
--text "Read the all text in the image."
可配置参数说明:
model_name_or_path
: 指定 minimonkey 的模型名字或权重路径以及tokenizer组件,默认 HUST-VLRLab/Mini-Monkeyimage_path
: 指定图片路径text
: 用户指令, 例如 "Read the all text in the image."
SFT数据集采用 InternVL2 官方公布的1.3M的SFT数据集中的dvqa
、chartqa
、ai2d
、docvqa
、geoqa+
、synthdog_en
共6个。
PaddleMIX团队整理后的下载链接为:
wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground.tar # 50G
下载后可解压或软链接在 PaddleMIX/ 目录下。
PaddleMIX团队也提供了其中单独的chartqa
数据集的下载链接,作为训练示例:
wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground/data/chartqa.tar
wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground/opensource.tar
chartqa.tar需下载解压在playground/data/目录下,opensource.tar需下载解压在playground/目录下,opensource里是数据标注的jsonl文件。
注意:此微调训练为全参数微调,冻结视觉编码器而放开LLM训练,2B模型微调训练的显存大小约为40G。
sh paddlemix/examples/minimonkey/shell/internvl2.0/2nd_finetune/minimonkey_2b_internlm2_1_8b_dynamic_res_2nd_finetune_full.sh
@article{huang2024mini,
title={Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models},
author={Huang, Mingxin and Liu, Yuliang and Liang, Dingkang and Jin, Lianwen and Bai, Xiang},
journal={arXiv preprint arXiv:2408.02034},
year={2024}
}