医疗多模态数据集搜集
Last updated
Last updated
:图片-caption对,无标签
:X光图像、医生报告,无标签
绘制解剖领域。CS17 标本中中枢神经系统的 14 个区域已被定义和绘制。前脑、红色(次级脑)、深橙色(前体 3 包括腹侧丘脑)、浅橙色(前体 2 包括背丘脑)和黄色(前体 1 包括前盖);中脑,浅绿色;后脑;峡部,深绿色;各种深浅不一的蓝色和紫色表示菱形 1-6 和尾髓 oblongata;脊髓,深红色。(一;附加文件 2) 在 Mpeg 影片中,显示了绘制模型的矢状面和横向视图,以及 3D 域的表示。首先在横向平面中对模型进行剖切。该切片平面与图 2 中所示的组织学切片相匹配。当截面在模型中移动时,相应的位置将显示在 3D 框中,并在矢状截面上显示一条线。然后,模型通过矢状面移动,位置由......
放射图像-文本报告-标签
优点:
适合任务:从图片和文本综合判断的分类任务
风险
标签是由CheXpert、NegBio贴标机生成的(基于医生报告找规律的偏规则的贴标机),并且只基于文本
大模型需要有一定的零样本、少样本准确率,pipeline才跑得起来
整理数据集需要一些时间
一个包含377,110张胸部X光片的大型数据集,与227,827项影像学研究相关联,图像附带了14个标签,是通过两种开源标注工具得出的;NegBio和CheXpert
MIMIC-CXR-JPG完全源自MIMIC-CXR数据库,旨在提供MIMIC-CXR的便捷处理版本,并为数据分割和图像标签提供标准参考。
数据集格式
一组 10 个文件夹,每个文件夹有 ~6,500 个子文件夹,对应于单个患者的所有 JPG 格式图像
mimic-cxr-2.0.0-metadata.csv.gz - 一个压缩的 CSV 文件,为图像提供有用的元数据,包括视图位置、患者方向和图像采集时间的匿名日期,允许按时间顺序排列图像
mimic-cxr-2.0.0-split.csv.gz - 一个压缩的 CSV 文件,提供建议的训练/验证/测试数据拆分
mimic-cxr-2.0.0-chexpert.csv.gz - 一个压缩的 CSV 文件,其中列出了所有带有 CheXpert 贴标机生成的标签的研究
mimic-cxr-2.0.0-negbio.csv.gz - 一个压缩的 CSV 文件,其中列出了所有带有 NegBio 贴标机生成的标签的研究
mimic-cxr-2.1.0-test-set-labeled.csv - 用于评估 CheXpert 和 NegBio 的手动整理标签
IMAGE_FILENAMES - 一个纯文本文件,具有所有图像的相对路径
图像在各个文件夹中提供。单个患者图像的文件夹结构示例如下:
我们有一个患者 p10000032
,文件夹位于 p10/
文件夹中
该患者有四项影像学研究:s50414267
、s53189527
、s53911762
和 s56699142
。(它们的顺序对实际研究的时间顺序没有影响)
每项研究都有1或2项与之相关的胸部 X 光检查
CheXpert:胸部X光片,任务是预测多视图胸部X光片的14种不同观察结果的概率(标签由不公开的原始报告提取)
MedMNIST:轻量级 2D 和 3D 图像分类任务,包括 12 个 2D 数据集和 6 个 3D 数据集。所有图像都经过预处理成 28x28 (2D) 或 28x28x28 (3D) 并带有相应的分类标签
可能是研究人员根据每个标签对应的问题和选项池生成了问答对。每个问题必须包含图像模态、任务提示和对应的标注粒度信息
GMAI-MMBench 由来自全球的 284 个下游任务数据集构建而成,涵盖 38 种医学影像模态、18 项临床相关任务、18 个科室以及视觉问题解答 (VQA) 格式的 4 种感知粒度(图像、框、掩模和轮廓),具有完善的数据结构分类和多感知粒度。即使是性能最优的模型 GPT-4o,虽达到了临床实际应用的要求,但准确率也仅为 53.96%,大多数医学专用模型难以达到通用 LVLMs 的一般性能水平(约 30% 的准确率),但 MedDr 除外,其准确率达到 43.69%
PubMedVision:采用视觉大模型 (GPT-4V) 对图片进行重新描述,并构建了 10 个场景的对话,将图文数据改写为问答形式,增强了医疗视觉知识的学习
OmniMedVQA:包含 118,010 张不同的图片,涵盖 12 种不同的模态,涉及超过 20 个人体不同的器官和部位
Medical-Diff-VQA[105]、PathVQA[96]、Cholec80-VQA[222]和Cholec80。。。。比较多
MMedC 是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。
研究团队还开源了多语言医疗基座模型 MMed-Llama 3,该模型在多项基准测试中表现卓越,显著超越了现有的开源模型,特别适用于医学垂直领域的定制微调。
视觉问答微调使用的数据集包括VQA-RAD、SLAKE以及PathVQA;
图像描述微调使用的数据集包括IU X-ray、MIMIC-CXR以及Peir Gross;
医学图像分类微调使用MedMNIST-Raw、MC-CXR、SZ-CXR以及CBIS-DDSM,其中MedMNIST-Raw收集自多个来源,涵盖九种组织类型、七种模态;
文本摘要微调使用MedQSum、HealthCareMagic、MIMIC-CXR、MIMIC-III;
文本理解微调使用MedNLI、MIMIC-III、SEER、TREC2022。
在指令调优阶段BioBiomedGPT结合LLaVA-Med使用的方法,基于VQA-RAD、SLAKE和PubMed articles进行模型优化
Copy
Muse-CaR:文本、汽车评论节目视频、多种标签(情感、主题、出现的物体)
《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model》:图片、描述(文本模态),另一个是图像的属性,即图像包含那些东西,用文字描述(也可以归类为属性模态),用于讽刺识别
《Towards Multimodal Sarcasm Detection(An Obviously Perfect Paper)》--【多模态讽刺识别】
《CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality》--【中文多模态情绪】2020年。论文中给出常规的文本、图片和语音的数据进行多模态情绪分类,其中标签更加细致,不仅有最终的标签,还有各个模态的标签
Question Answering
多模态 ner
其他多模态任务:Machine Translation、Information Retrieval、Summarization、Image Captions、以及用于多模态大模型预训练的纯文本/图片交错的无标签语料库、多模态生成、多模态检索、Flickr30K Entities图像-边界框-描述
与每项研究相对应的自由文本放射学报告和原始 DICOM 格式图像可在 数据库中获得
:X 光数据集、边界框、标签
:儿科胸部 X 光数据集、边界框、标签
:脊柱病变图像、边界框、标签
:乳腺影像、边界框、标签
():图像、肺炎预测标签,边界框
:X光图像、形状标签、异物边界框
更大的尺寸
:肺炎X光图像、阴性阳性分类
:结核病 X 光图像、标签
:X光图像、标签(标签由不公开的原始报告提取)
: X 射线图像,这些图像带有文本挖掘的 14 种常见疾病标签
:(需要申请,大约一周)阿尔茨海默病神经影像计划 ( ) 是一个大型的开放数据库,其中包含数百张来自健康对照者和阿尔茨海默病患者的脑部扫描图。除了影像数据外,还为每个受试者收集了几个协变量:除了年龄和上学年限等基本测量值外,还有认知能力、焦虑、抑郁和基因型(例如 APOE4 等位基因的存在与否)的测量值。临床认知评估文本。
:提出了一个新的评估基准RadBench,其中包括五个任务, 包括模态识别、疾病诊断、视觉问答、报告生成和推理诊断,旨在全面评估基础模型处理实际临床问题的能力
:在模型微调阶段,BioBiomedGPT依据临床应用的前景选择下游生物医学任务,包括视觉问答、图像描述、医学图像分类、文本摘要以及文本理解五类。其中:
、https://zhuanlan.zhihu.com/p/189876288
:文本、美剧视频(音频)、情绪识别标签
:11,788张200种鸟类的图片,每张图片都用边界框、部位位置、属性标签。,