0 写在前面

由中国图象图形学学会青年工作委员会发起的第十九届中国图象图形学学会青年科学家会议于2023年12月28-31日在中国广州召开。会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,邀请了学术界和企业界专家与青年学者进行深度交流,促进图象图形领域“产学研”合作。

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。文档图像智能分析与处理就是一个重要且极具挑战性的研究问题。虽然文档图像分析已经有了将近一百年的历史,但是到目前为止仍有大量的问题没有得到很好地解决,例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,图像质量不一、文档获取繁琐等问题,依旧是行业顽疾。

合合信息作为文档图像处理领域的代表性科技企业,在本次会议中分享了大模型时代下,智能文档图像处理研究范式的相关启发性思考。大语言模型的快速发展,能否和传统方法相结合,发挥出更强大的优势,注入更鲜活的生命力呢?合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对此进行了进一步的探讨和分析,相信对这个领域感兴趣的同学一定有所收获,接下来就让我们一起看看吧!

1 GPT4-V:拓宽文档认知边界

大型语言模型(LLMs)在各种领域和任务中表现出了显著的多功能性和能力。下一步的发展是大型多模态模型(LMMs),它们通过整合多感官技能来扩展LLMs的能力,以实现更强的通用智能。考虑到视觉在人类感官中的主导地位,许多LMM研究从扩展视觉能力开始。GPT-4V(ision)是OpenAI在2023年9月25日为ChatGPT增加的新特性,其中的V意味着GPT-4将更加注重视觉理解,GPT-4将具备更多的输入形式,使得用户可以通过包括文本、图像、声音等多种数据类型与GPT4进行交互,并且GPT-4能够进行更加复杂的推理和逻辑推导。同时,这也标志着GPT4正式成为一个多模态模型。

在这里插入图片描述

图源网络,侵删

丁凯博士首先介绍了GPT4-V强大的认知能力,相对于传统方法,大语言模型具备强大的上下文理解性能,可以根据文档中的文字内容和图像信息进行全面的语义分析。相比之下,传统方法通常只能依赖预定义规则或特定模式进行处理,难以捕捉到复杂的上下文关系。通过大量的训练数据进行学习和迭代,大语言模型可以从数据中学习到更丰富的特征表示和模式,从而更好地理解和处理文档图像。传统方法往往需要手动设计特征和规则,限制了其在复杂场景下的表现。

在这里插入图片描述

在多模态融合方面,大语言模型能够同时处理文本和图像信息,将文档图像中的文字和视觉元素进行联合分析和处理,提供更全面、准确的结果。传统方法通常是分别处理文本和图像,难以充分利用两者之间的相关性。此外,大语言模型的架构和训练方式具有较大的灵活性和可扩展性,可以根据任务需求进行调整和优化。相比之下,传统方法往往需要针对不同任务设计和实现特定的算法和流程,难以适应不同场景的需求。

在这里插入图片描述

丁凯博士举了一个复杂数据折线图的理解问题,这个问题涉及到多跳推理,因而属于复杂任务,例如,要回答

在图中,哪一年的6月份的平均汽油价格最高?

需要至少经过四个步骤

  1. x x x轴上找到6月份
  2. 比较6月份每条线的数据点
  3. 确定最高值的线条颜色
  4. 在顶部的图例中将颜色与对应的年份匹配。

任何一个步骤出错都会导致预测不准确。GPT-4V最终得出了正确的答案并提供了解释其推理过程的中间步骤,取得了超出传统方法的巨大优势。

在这里插入图片描述

由于大语言模型通过迁移学习和远程监督等技术,将在其他领域或任务上获得的知识和经验应用于智能文档图像处理,大语言模型能够更快速地适应新的任务和场景,减少数据和资源的需求。

2 大语言模型的文档感知缺陷

虽然GPT4-V在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。

首先是幻觉现象,即模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。丁凯博士以手写中文诗歌识别为例解释了这个问题。

在这里插入图片描述

丁凯博士接着介绍了一项全面评估GPT-4V在OCR领域能力的工作——对GPT-4V在广泛任务范围内进行了定量性能分析,这些任务包括场景文本识别、手写文本识别、手写数学表达式识别、表格结构识别以及从视觉丰富的文档中提取信息。研究显示,虽然该模型表现出了精准识别拉丁内容并支持具有可变分辨率的输入图像的强大能力,但在多语言和复杂场景方面仍然存在明显的困难。此外,高推理成本和与持续更新相关的挑战对于GPT-4V在实际部署中构成了重要障碍。因此,OCR领域的专门模型仍然具有重要的研究价值。尽管存在这些限制,GPT-4V和其他现有的通用LMM模型仍然可以在OCR领域的发展中发挥重要作用。这些作用包括提升语义理解能力、针对下游任务进行微调,并促进自动/半自动数据构建。

在这里插入图片描述

目前多模态大模型在密集文本处理方面几乎不能使用,一个很重要的原因是:多模态大模型主要基于文本进行语义理解,对于视觉感知和图像特征的提取能力有限。在处理密集文本时,相邻的文本可能会重叠、相互遮挡或无明显的边界,这需要对视觉特征进行准确地提取和分析,大语言模型的主要优势是在自然语言文本处理方面,而不是直接处理视觉信息。因此,在图像文档处理方面,由于视觉感知限制和文字识别困难,大语言模型并不适合直接应用于该领域。在处理密集文本时,需要借助于文本检测、分割和OCR等专门的技术和算法来实现准确的文本识别和提取

在这里插入图片描述

细粒度文本通常指的是文字较小、笔画细致、字形复杂的文本,如签名、古汉字、特殊符号等。这类文本在OCR领域中往往是非常具有挑战性的,因为它们往往涉及到字形和结构上的细微差异,很难直接从图像中提取出精确的文字信息。此外,在真实场景下,这些细粒度文本可能会受到光照、噪声、变形等各种干扰,这也增加了文字识别的难度。多模态大模型中的视觉编码器通常基于卷积神经网络或Transformer等模型,在处理图像时会受到分辨率的限制;另一方面,由于训练数据集中缺少针对细粒度文本的标注数据,模型很难从数据中学到有效的细粒度文本特征表示。因此,现有多模态大模型对显著文本的处理较好,但是对于细粒度文本的处理很差,要克服这些局限性,需要开展更深入的研究和探索

3 大一统文档图像处理范式

总得来说,在智能文档处理领域,大语言模型支持识别和理解的文档元素类型远超传统IDP算法,大幅度提升了AI技术在文档分析与识别领域的能力边界,端到端实现了文档的识别到理解的全过程,不足在于OCR精度距离SOTA有较大差距,长文档依赖外部的OCR/文档解析引擎。因此将传统OCR感知与大语言模型认知能力相结合的研究范式具有积极意义。

3.1 像素级OCR任务

在印刷体的文字识别领域,开展最早,且技术上最成熟的是国外的西方文字识别技术。早在 1929 年,德国的科学家Taushek已经取得了一项光学字符识别(optical character recognition, OCR)专利。自上个世纪五十年代以来,欧美国家就开始研究关于西方各个国家的文字识别技术,以便对日常生活中产生的大量文字材料进行数字化处理。经过长时间的不断研究和完善,西文的OCR技术已经有一套完备的识别方案,并广泛地用在西文的各个领域中。而像素级OCR任务是指OCR领域中的一种任务,其目标是对图像中的每个像素进行文本识别和分割。传统的OCR任务通常是将整个文本区域或文本行作为一个整体进行识别,而像素级OCR任务则更加注重对文本边界和细节的精细识别。

在这里插入图片描述

丁凯博士介绍了目前合合信息-华南理工大学联合实验室在像素级OCR任务中的研究进展。首先是通用OCR模型UPOCR。近年来,OCR领域出现了大量前沿的方法,用于各种任务。然而这些方法是针对特定任务设计的,具有不同的范式、架构和训练策略,这显著增加了研究和维护的复杂性,并阻碍了在应用中的快速部署。与之相对,UPOCR统一了不同像素级OCR任务的策略,同时引入可学习的任务提示来指导基于ViT的编码器-解码器架构。UPOCR的主干网络ViTEraser联合文本擦除、文本分割和篡改文本检测等3个不同的任务提示词进行统一训练模型训练好后即可用于下游任务,无需针对下游任务进行专门的精调。UPOCR的通用能力在多种智能文档处理任务上得到了广泛验证,显著优于现有的专门模型

在这里插入图片描述

3.2 OCR大一统模型

在OCR大一统模型方面,已经有相关工作进行了积极的探索。例如无需OCR的用于文档理解的Transformer模型Donut;通过SwinTransformer和Transformer Decoder实现文档图像到文档序列输出模型NOUGAT,及微软提出的更大的模型KOSMOS2.5

基于已有工作,丁凯博士分享了文档图像大模型的设计思路,主要是将文档图像识别分析的多种任务,通过序列预测的方式进行处理。具体来说,将每个任务所涉及的元素定义为一个序列,并设计相应的prompt来引导模型完成不同的OCR任务。例如,对于文本识别任务,可以使用prompt "识别文本: " 并将待处理的文本序列作为输入;对于段落分析任务,则可使用prompt "分析段落:"并将段落序列作为输入等等。这种方式可以保持一致的输入格式,方便模型进行多任务的处理。

此外,这个设计思路还支持篇章级的文档图像识别分析,可以输出Markdown/HTML/Text等标准格式,这样可以更好地适应用户的需求。同时,将文档理解相关的工作交给大语言模型,这意味着模型可以自动进行篇章级的文档理解和分析,从而提高了文档图像处理的效率和准确性。

在这里插入图片描述

总的来说,这种设计思路充分利用了序列预测的优势,在保持输入格式的统一性的同时,能够更好地解决文档图像处理中的多样化任务需求,并且通过与LLM的结合,实现了更高层次的文档理解和分析,为文档图像处理领域带来了更多可能性。

3.3 长文档理解与应用

丁凯博士给出了大语言模型赋能文档识别分析的技术路线:首先,文档识别分析技术需要输入文档的图像。这些图像可以是扫描得到的纸质文档、拍摄得到的照片或者从电子文档中提取的页面图像。接下来,文档图像会经过文档识别与版面分析处理。在这个阶段,技术会识别文档中的文字、图片、表格等元素,并分析文档的版面结构,包括标题、段落、页眉和页脚等。这可以帮助理解文档的整体结构和内容组织形式。在文档切分和召回阶段,技术会将文档进行切分,将不同部分的内容分离出来,以便后续的处理和分析。同时,也会实施召回策略,用于检索和提取特定的文档元素,比如标题、关键字、段落内容等。最后,在文档识别分析技术的流程中,大语言模型问答可以被应用于文档中提取信息的问答任务。通过训练大语言模型来理解文档内容,并能够回答用户提出的问题,从而实现对文档内容的智能理解和交互式查询。

在这里插入图片描述

一个实例是财报/研报文档分析,这类文档内容长、图表多、版式杂、专业性强、数据和相似概念多,具有很高的处理难度。传统方法在处理时可能面临信息过载和处理效率低下的问题。而大语言模型具有更强大的处理能力,可以处理较长的文本内容,并从中提取关键信息。同时,大语言模型通过大规模的预训练和迁移学习,具备较强的领域适应能力,能够理解相关专业术语和结构,从而更好地进行识别和分析。

在这里插入图片描述

4 总结

GPT4-V为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的图像文档处理技术带来了挑战。大模型并没有完全解决图像文档处理领域面临的问题,很多问题值得我们研究。如何结合大模型的能力,更好地解决图像文档处理的问题,值得我们做更多的思考和探索。我相信感知与认知的相互碰撞将为用户带来更智能化、高效率和个性化的文档处理体验。未来随着技术的不断进步,这种结合将在商业、教育、科研等领域发挥越来越重要的作用。让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人!

相关文章

一张图读懂人工智能

三、人工智能和多式联运 AI产品的发展趋势,以及语言模型的应急能力和广泛应用。视频探讨了人工智能和人类的优劣势,以及未来的发展方向。视频提出了一种积极的心态,认为人工智能可以成为我们的同事,帮助我们提高效率和能力。二、大型语言模型的训练过程和应用场景,包括文本到文本、图像到文本、语音转录等多个方面。同时也提到了不同模型的能力和成本。一、生成人工智能的概念和应用,以及如何使用大型语言模型进行聊天和创造原创内容。五、如何使用生成人工智能作为招聘公司的工具,以及如何有效地使用生成人工智能来制作有用结果的提示。

基于YOLOv8深度学习+Pyqt5的电动车头盔佩戴检测系统

该系统利用深度学习技术,通过训练YOLOv8模型来识别电动车骑行者是否佩戴头盔,并在检测到未佩戴头盔的情况下发出警报。因此,开发一种能够实时监测头盔佩戴情况的系统,对于提高骑行者的安全意识和减少交通事故具有重要作用。本文提出的基于YOLOv8的电动车头盔佩戴检测系统,能够有效地提高电动车骑行者的安全意识。YOLOv8是YOLO系列目标检测模型的最新版本,它在前代模型的基础上进行了优化,提高了检测速度和准确性。在不同的场景和光照条件下,模型均能稳定地识别出佩戴和未佩戴头盔的骑行者。wx供重浩:创享日记。

chatgpt的大致技术原理

在RLHF中,人类用户对模型生成的文本提供反馈(如打分或选择更喜欢的文本),然后模型根据这些反馈进行进一步的训练。预处理步骤包括分词(使用BPE算法将文本分解为更小的子单元,如单词或符号)、去除停用词(即那些对文本意义不大的词,如“的”、“了”等)以及其他可能的文本清洗工作。生成过程中,模型会考虑前文的上下文信息,以确保生成的文本是连贯和有意义的。通过收集大量的文本数据、建立深度学习模型、进行预训练和微调以及使用搜索算法和人类反馈强化学习等技术,ChatGPT能够生成高质量、连贯且有用的文本回复。

云计算与边缘计算:有什么区别?

云计算和边缘计算作为不同的计算范式,各自在特定场景中发挥着独特的作用。它们的区别体现在数据处理位置、延迟、可用性以及应用场景等方面。然而,随着数字化时代的发展,它们也逐渐形成了协同应用的趋势,充分发挥各自的优势,提供更灵活、高效的计算体系结构。未来,随着智能化、自动化和边缘计算的边界拓展,云计算和边缘计算将进一步推动数字化转型。同时,安全性、跨边缘计算标准和环境可持续性等问题也需要在未来的发展中得到更好的解决。

ChatGPT高效提问—prompt基础

​ 设计一个好的prompt对于获取理想的生成结果至关重要。通过选择合适的关键词、提供明确的上下文、设置特定的约束条件,可以引导模型生成符合预期的回复。例如,在对话中,可以使用明确的问题或陈述引导模型生成相关、具体的回答;在摘要生成中,可以提供需要摘要的文章段落作为prompt,以确保生成的摘要准确而精炼。

二维平面阵列波束赋形原理和Matlab仿真

阵面左下角天线位于坐标原点,将坐标原点阵元设为参考阵元,计算每个阵元相对于该参考阵元的入射波程差,从而来计算每个阵元接收的回波信号。实现波束赋形的最基本的方法是对各个天线阵元的信号进行适当延迟后相加,使目标方向的信号同相叠加得到增强,而其他方向均有不同程度的削弱,该方法通常用于模拟信号.根据上述理论推导可以仿真任意平面阵列的方向图,这里对两种典型的阵列(矩形平面阵列和圆形阵列)进行Matlab仿真,其余类型的阵列在此基础上修改即可。根据上述圆形阵列公式做仿真,得到下述的三维空间方向图。

人工智能与机器学习——开启智能时代的里程碑

人工智能是指使计算机系统表现出类似于人类智能的能力。其目标是实现机器具备感知、理解、学习、推理和决策等智能行为。人工智能的发展可以追溯到上世纪50年代,随着计算机技术和算法的不断进步,人工智能得以实现。机器学习是人工智能的一个重要分支,它通过让计算机从数据中学习和改进性能,而不需要明确的编程指令。机器学习可以分为监督学习、无监督学习和强化学习三种主要类型。

【GPU】深入理解GPU硬件架构及运行机制

GPU的基本底层构成,主要是以GPU计算核心 Cores,以及Memory以及控制单元,三大组成要素组成。Core是计算的基本单元,既可以用作简单的浮点运算,又可以做一些复杂的运算例如,tensor 或者ray tracing。多个core之间通讯的方式:在特定的应用场合多个core之间是不需要的通讯的,也就是各干各的(例如 图像缩放)。但是也有一些例子,多个core之间要相互通讯配合(例如上文谈到的数组求和问题),每个core之间都可以实现交互数据是非常昂贵的,

RAG中的3个高级检索技巧

我们介绍的这些检索技术有助于提高文档的相关性。但是这方面的研究还正在进行,还有很多其他方法例如,利用真实反馈数据对嵌入模型进行微调;直接微调LLM以使其检索能力最大化(RA-DIT);探索更复杂的嵌入适配器使用深度神经网络而不是矩阵;深度和智能分块技术作者:Ahmed Besbes。

大数据深度学习卷积神经网络CNN:CNN结构、训练与优化一文全解

卷积神经网络是一种前馈神经网络,它的人工神经元可以响应周围单元的局部区域,从而能够识别视觉空间的部分结构特征。卷积层: 通过卷积操作检测图像的局部特征。激活函数: 引入非线性,增加模型的表达能力。池化层: 减少特征维度,增加模型的鲁棒性。全连接层: 在处理空间特征后,全连接层用于进行分类或回归。卷积神经网络的这些组件协同工作,使得CNN能够从原始像素中自动学习有意义的特征层次结构。随着深度增加,这些特征从基本形状和纹理逐渐抽象为复杂的对象和场景表现。

详解动态网页数据获取以及浏览器数据和网络数据交互流程-Python

动态网页是一种在用户浏览时实时生成或变化的网页。。相比之下,动态网页可以根据用户的互动、请求或其他条件在浏览器端或服务器端生成新的内容。而且现在的网页一般都是采用前后端分离的架构,前端负责展示和用户交互,后端负责数据处理。这种架构使得前端可以更加灵活地实现动态内容的加载和展示。所以说以后想要获取到数据,动态网页数据获取会成为我们主流获取网页数据的技术。所以在动态网页数据获取这方面我们需要下足功夫了解动态网页数据交互形式、数据存储访问模式等方方面面的知识,我们才好更加灵活的获取到数据。

从虚拟到现实:数字孪生驱动智慧城市可持续发展

同时,我们也需要不断探索和创新数字孪生技术的应用场景和发展方向,为智慧城市的可持续发展提供更加全面和深入的支持。“方案365”2023年全新整理智慧城市、数字孪生、乡村振兴、智慧乡村、元宇宙、数据中台、智慧园区、智慧社区、智慧矿山、城市生命线、智慧水利、智慧应急、智慧校园、智慧工地、智慧农业、智慧文旅、智慧交通等300+行业全套解决方案。通过智能电表和能源管理系统,数字孪生技术可以实现对家庭、企业等各个层面的能源使用情况进行监测和优化,提高能源利用效率,推动城市的绿色发展。

如何使用人工智能优化 DevOps?

DevOps 和人工智能密不可分,影响着各种业务。DevOps 可以加快产品开发速度并简化现有部署的维护,而 AI 则可以改变整个系统的功能。DevOps团队可以依靠人工智能和机器学习来进行数据集成、测试、评估和发布系统。更重要的是,人工智能和机器学习可以以高效、快速、安全的方式改进 DevOps 驱动的流程。从开发人员实用性和业务支持的角度来看, 评估AI和ML在 DevOps 中的重要性对于企业来说是有益的。

人工智能有哪些领域?

像京东自主研发的无人仓采用大量智能物流机器人进行协同与配合,通过人工智能、深度学习、图像智能识别、大数据应用等技术,让工业机器人可以进行自主的判断和行为,完成各种复杂的任务,在商品分拣、运输、出库等环节实现自动化。人工智能在金融领域的应用主要有:智能获客、身份识别、大数据风控、智能投顾、智能客服、金融云等,该行业也是人工智能渗透最早、最全面的行业。目前,我国在ITS方面的应用主要是通过对交通中的车辆流量、行车速度进行采集和分析,可以对交通进行实施监控和调度,有效提高通行能力、简化交通管理、降低环境污染等。

使用LOTR合并检索提高RAG性能

为了解决LIM问题并提高检索性能,对RAG系统进行增强是非常重要的。通过设置不同的VectorStores并将它们与Merge retriver结合,以及使用LongContextReorder重新排列结果,可以减少LIM问题并使检索过程更高效。此外,在合并检索器中合并特定领域的嵌入也有着关键作用。这些步骤对于确保我们不会在检索文件的过程中遗漏重要细节至关重要。Lost in the Middle: How Language Models Use Long Contexts 论文。

【AI】人工智能复兴的推进器之神经网络

神经网络是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量节点(或神经元)相互关联构成,每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这可以看作人工神经元的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。此外,根据网络的结构和运行方式,神经网络可以分为前馈神经网络和反馈神经网络。

目标检测与测距算法在极端天气下的应用

在现代社会中,极端天气条件对人们的生活和工作带来了很大的挑战。对于一些特定领域,如交通运输、安全监控等,准确的目标检测与测距算法在极端天气下尤为重要。本文将分点概述极端天气下目标检测与测距算法的关键问题及解决办法。

AI时代架构设计新模式

本书是一本旨在帮助架构师在人工智能时代展翅高飞的实用指南。全书以ChatGPT为核心工具,揭示了人工智能技术对架构师的角色和职责进行颠覆和重塑的关键点。本书通过共计 13 章的系统内容,深入探讨AI技术在架构设计中的应用,以及AI对传统架构师工作方式的影响。通过学习,读者将了解如何利用ChatGPT这一强大的智能辅助工具,提升架构师的工作效率和创造力。本书的读者主要是架构师及相关从业人员。

Python将列表中的数据写入csv并正确解析出来

用Python做数据处理常常会将数据写到文件中进行保存,又或将保存在文件中的数据读出来进行使用。通过Python将列表中的数据写入到csv文件中很多人都会,可以通过Python直接写文件或借助pandas很方便的实现将列表中的数据写入到csv文件中,但是写进去以后取出有些字段会有变化有些坑还是要避免。本文通过实例来介绍如何将列表中的数据写入文件如csv并正确解析出来使用。

深度解析 PyTorch Autograd:从原理到实践

本文深入探讨了 PyTorch 中 Autograd 的核心原理和功能。从基本概念、Tensor 与 Autograd 的交互,到计算图的构建和管理,再到反向传播和梯度计算的细节,最后涵盖了 Autograd 的高级特性。

AIGC实战——WGAN(Wasserstein GAN)

在本节中,我们学习了如何使用 Wasserstein 损失函数以解决经典 GAN 训练过程中的模式坍塌和梯度消失等问题,使得 GAN 的训练更加可预测和可靠。WGAN-GP 通过在损失函数中添加一个令梯度范数指向 1 的项,为训练过程施加 1-Lipschitz 约束。

ChatGPT的常识

ChatGPT不仅可以提供高效的服务,还可以通过模拟人类对话和表情,提高人机交互的趣味性和友好性。其次,ChatGPT可以实现个性化服务,根据用户的个性化需求和反馈不断优化和改进。用户在与ChatGPT进行交互的过程中,ChatGPT可以对用户的个性化需求进行识别和记录,从而实现个性化的服务。ChatGPT的设计理念是建立一个可以持续学习和更新的聊天机器人,可以不断地根据用户的反馈和互动进行优化和改进。同时,ChatGPT还具有很强的适应性和灵活性,可以应对不同场景和话题的要求。

ubuntu18.04安装opencv-4.5.5+opencv_contrib-4.5.5

解压opencv-4.5.5和opencv_contrib-4.5.5,并将解压后的放到opencv-4.5.5文件夹下。二、在opencv-4.5.5文件夹下新建build。三、在/etc/ld.so.conf中添加配置。四、修改bash.bashrc文件。一、安装opencv依赖。
返回
顶部