聚色wang 合合信息TextIn“大模子加快器2.0”上线,破解复杂版面及图表判辨穷困
发布日期:2025-03-23 07:17 点击次数:164【大师网科技空洞报说念】跟着大模子在社会应用中迟缓普及,东说念主们在享受便利的同期,也靠近着“AI 幻觉”产生的风险。训导数据是影响大模子“知道才略”的关键身分,近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模子加快器 2.0”版块肃穆上线聚色wang,基于跨越的智能文档处理时期,对复短文档的版式、布局和元素进行精确判辨及结构化处理,从数据泉源缩小大模子“幻觉”风险,让大模子在与东说念主类的相易中“更靠谱”。
据悉,升级后的“大模子加快器”在复杂版面领路、表格及图表处理、践诺溯源等才略上杀青新冲破,可精确识别上千种文档中的跨页表格、兼并单位格、密集表格、手写字符及公式,判辨安闲率达99.99%,单页处理耗时较行业可比家具缩小超30%;可“逆收复”十余种专科图表数据,并将其转动为大模子可领路的结构化数据。此外,“大模子加快器 2.0”版块新增常识库系列开源组件,助力医疗、制造、老师等行业开发者构建个性化的常识库。
以老师行业为例,在“大模子加快器”的相沿下,合合信息与赛尔老师共同配合,人妻熟女升迁大模子对复杂版面、元素的“领路力”,使其按照东说念主类平素的阅读限定识别文档结构,智能离别标题、段落、表格和图表等践诺块,匡助大模子领路版面、践诺间的对应干系,减少AI“幻觉”表象。
赛尔老师CTO、老师数字化行状部总司理杨林提到,老师行业中所触及的文档情势各类,在践诺上也包含了表格、公式、手写字符、多言语翰墨等信息。怎样高效准确地索取各类文档中的文本信息,并非易事。
“老师行业的大模子开辟使命中,数据的数目和质地起着决定性作用。咱们作念了许多尝试,模子的速率和准确性皆够不上条款,严重影响科研使命的说明。”杨林浮现,行业常识库的构建基于大皆文档的文本信息索取,需要高着力、高准确率的器具。合合信息文档判辨时期提供了专科的时期相沿和管事,有用管束了文档处理过程中的问题。
除了复杂的版面布局,种类茂密、空间结构复杂的图表元素亦然判辨难点场地。“大模子加快器2.0”图表判辨模块可智能索取多种图表中的关键数据点、坐标轴信息、图例评释等,在精确判辨不同类型图表数据的基础上,将其收复为一组好意思满的Excel表格数据,作用于老师行业大模子微调,学科常识库开辟、智能审阅等智商。
近期,多家券商机构纷纷秘书接入大模子,匡助分析师、行业洽商员等专科东说念主士提高使命着力。为匡助用户简化专科文档数据筛选和数据抽取过程,升迁文档践诺解读着力与准确率,“大模子加快器 2.0” 上线了常识库家具组件,相沿复短文档的智能问答、转头与检索。
为了让行业“宽心”使用大模子,常识库家具推出溯源功能,通过在“投喂”给常识库的Markdown及JSON文献中标志页码、坐标等空间位置信息,杀青对句子、段落的精确溯源,为用户提供了一个快速考试的旅途。以财务分析为例,大模子在多份高达上千页的财报文献中找到收入、利润等关键数据后,券商分析师可愚弄溯源功能定位原表格,对信息进行复核,驻扎失误、遗漏。
据先容,当今常识库组件已面向开发者开源聚色wang,匡助其凭证自己需要快速构建个性化行业常识库。此前,合合信息已开源智能文档处理“百宝箱”系列家具,管束文档判辨精度低、判辨成果评估难等问题,开发者可凭证研发需求活泼搭配使用。(郑湘琪)