文字或文字图片中的图片?无需担心!人脑自然能够同时理解和创建视觉和言语信息。通用的多模式大语言模型(MLLM)应复制人类和产生理解能力,即同时处理和生成不同的模态内容并实现多模式关系。它也是通用人工智能(AGI)的主要挑战之一。 GPT4O和Gemini-1.0最近流行的新版本也在图形和文本触点方向上带来了令人兴奋的效果。但是,大多数当前的多模式大语言模型仍然仅限于单个图像或文本的处理,尤其难以实现平稳且相似的多模式交织。在真正的buhis中,由设计,教育,内容创建等代表的任务通常需要图形参考和文本 - 与与之相关的续ENT,这给模型的多模式的能力带来了挑战。最近,上海人工智能实验室提出了开放文本交织发电活动的首个全面审查基准,相关论文结果被接受为CVPR2025的口头。该基准包括:1)各种真实的图形和文本生成活动以及高质量的标签数据; 2)Intjudge,是通过改进培训获得的可靠裁判模型; 3)当前图形和文本交织模型/一代单一代模型的全面分析,排名和审查。 SA研究的主要发现和结论可以为多模式的大型语言的研究和开发提供重要的灵感和指导,并由下一代组成并形成。纸张标题:开放:开放式交织图像文本生成技术报告的综合基准:HTTPS://arxiv.org/abs/2411.18499 Project Homepage: https://opening-penchmark.github.io/ Code address: https://github.com Comprehensive existing examination benchmarks (such as Openleaf and InterleavedBench have problems such as small size, inadequate subject matter, and limited data sources. It is difficult Chance, chance,and collected a total example of graphic and text在真实的情况下,Intlabel由50多人组成的专业团队,可确保通过精致的标签过程的一致性和真实性。 gpt-as-a-a-a-a gudge容易受到模型本身的偏见,并且由于潜在的数据违规影响而倾向于提供更高的家庭内容评分。评估的稳定性和稳定性令人怀疑。为了获得更公平,准确和稳定的检查结果,ANG开放团队已经能够团结一个称为Intjudge的审查模型。 Intjudge的实践集采用了一种与交错竞技场合作的新方法,并使用一种方法来增强参考文献,以在培训过程中生成一代仪表(RAG)参考。通过合并人类分析数据并自动发展数据,这种方法可大大提高审查模型的稳定性和能力。具体而言,IntJudge培训数据包括两个部分:一个是相关的竞技场数据的高质量比较数据,该数据是通过对开发集合开放的不同模型产生的汇总内容的手动判断来获得的;其余的是使用参考增强技术开发的大型数据数据。通过引用每对生成的con金标准标准所引用的是manu -mano比直接由模型生成的内容更好。增强这本小说数据的方法极大地丰富了Intjudge模型中的数据培训量,同时确保了这一代人的各种风格和情况的综述模型的稳定性能。开放问题的准确性通常很难直接判断,因此开放采用了一种相对方法来标记机制样机制。该方法使用采样来开发模型之间的AB比较比较,以获取模型性能评论的朗格图清单。这些客观指示器包括在两种情况下绘制带有绑带而不是w/tie的情况下的FDT TIE指示器和指示器之间的强制性差异。此外,开场还提供了各种审查的其他衡量标准,包括基于GPT-AS-A-a-gudge的主观审查。在创新数据构建技术中他之间的一致性和人类判断力达到了82.42%,这比Intjudge高于Intjudge,这是基于GPT系列的审查方法。 IntJudge不仅适用于大规模自动化评估情况,而且还可以用作范围模型直接应用于加固研究(RL)(例如GRPO),例如GRPO,从而有效地提高了多模态生成模型的产生性能和质量。在Intjudge培训期间建立的连贯的竞技场数据还将为在多模式生成领域的偏好(DPO)进行直接优化的重要资源,进一步刺激并促进对该方向的深入探索。表达了这一代一代的表现,人民之间的差距仍然很明显!独特的开放分析显示了当前主要的多模式模型的性能:集成管道模型(例如GPT-4O+DALL ・E-3和GEMINI 1.5+FLUX)GE由于与基本绩效模型的合作,逐渐表现的比其他模型更好。生成的内容在图形和视觉质量的一致性方面是领先的。此外,这种连贯生成管道的性能取决于图像生成模型的能力。与主流的其他IMA生成模型相比,当在许多文本模型中使用时,通量-DEV显示出显着的性能改善。端到端模型(例如Anole和Minigpt-5)具有图形生成模型的统一体系结构,其一代的简单技术显示出巨大的潜在发展。然而,目前,此类模型在文本的图像和产生的全面功能方面仍然具有重大改进。 GPT系列模型的质量达到甚至超过了人类水平,但是就图像产生和真实性的质量而言,所有模型的产生仍然难以完成人为地标记的自然图像。通过详细的错误分析,发现当前的模型存在常见的问题,例如图像的视觉质量差,而不是不断生成的Pantay内容,以及无法有效产生图像或文本。这些发现指出了模型优化的下一步的研究方向。此外,研究团队还审查了从不同类型的模型(例如GPT-4O+DALL-E3,SEED-X,ANOLE等)得出的特定问题(例如,现实的错误,不均匀的文本或图片,图片样式,图片样式,不足的发电效率等)将来优化了该方法。此外,审查最近发布了新的型号GPT-4O-INGEN和GEMINI 2.0-FLASH-I-IMPAT和GEMINI 2.0-FLASH-IMPLENNFENNFLENNFLENNFLENNFLENNFLENFLEN,以及世代相传的许多活动。同时,我们还注意到了一些尚未解决的问题,例如按照及时命令的顺序,GPT-4O-IMGGEN的高希望(SUCH作为教授创建文本改变图像的模型和不良的图像产生,而Gemini 2.0-Flash-I-Syngen无法在图像中产生高精度和可识别的文本。开场研究团队的开放资源和数据是由整个社区构建的,目的是促进该领域的交织照片和文本的进一步开发,已经完全打开了完整的基准数据,Intjudge审查模型和相关代码。将来,开场团队将继续扩大规模和差异-DATA不同的,进一步的OPP OPP在真实的应用程序情况下。该团队鼓励更多的研究人员加入并共处研究这一切割领域。研究小组认为,开放将继续帮助人工智能在实际情况下实施,从而使机器能够真正能够与图形和与人类相媲美的图形和文本进行互动。