当前位置: 首页 > 新闻中心 > 学院动态

科技文化节系列讲座||探索数字文档解析与图像识别技术发展的奥秘

作者:唐国超 来源:【数据科学与人工智能学院】 添加时间:2025-05-20 浏览:

         2025年5月20日晚,温州理工学院教授、硕士生导师郭海在实3-1-101教室带来了一场题为“文档图像分析与识别”的学术讲座。本次讲座聚焦人工智能领域的前沿技术,深入探讨了文档图像分析的核心挑战、多语种古籍数字化保护的最新进展,以及大语言模型(LLMs)在垂直领域的应用前景。  图片1.png

         讲座伊始,郭海教授首先回顾了大语言模型(LLMs)的发展历程。自2017年Transformer架构诞生以来,LLMs经历了从通用模型向垂直领域深度优化的转变。2018年GPT-2的问世开启了生成式预训练模型的新纪元,随后GPT-3、ChatGPT的推出进一步提升了模型的交互能力与通用性。2023年发布的GPT-4及OpenAI-o1系列模型,则在多模态处理与逻辑推理上取得突破。

图片2.png

         特别值得注意的是,近年来垂直领域大模型的崛起。例如,视觉大模型在图像分析、文档识别等场景中展现出显著优势。郭教授指出,未来将涌现更多专门化模型,如“文档图像分析大模型”,其能够针对古籍、多语种文本等复杂场景实现高精度解析,为文化遗产保护提供技术支撑。

         讲座的核心部分围绕多语种古籍文档识别的技术挑战与解决方案展开。郭海教授团队在该领域深耕多年,提出了多项创新性研究成果:

1. 自然场景下的多语种文本检测模型

针对自然场景中多语种文本检测精度低、干扰因素多的问题,团队提出SH Cascade Mask R-CNN模型。该模型通过级联编码区域卷积神经网络架构,显著提升了复杂背景下的文本定位能力,尤其在藏文、满文、古壮字等民族文字检测中表现优异。相关成果已发表于计算机学会推荐的国际期刊《Applied Intelligence》(中科院二区)。

2. 多语种手写字符识别技术

古籍手写字符因字形复杂、噪声干扰大,识别难度极高。团队创新性地提出多尺度注意力去噪概率模型,通过融合多尺度特征与动态去噪机制,将脱机手写字符的识别准确率提升至93.03%。该技术已应用于水书、东巴文等濒危文字的数字化保护,相关论文发表于《Visual Computer》(SCI三区)。

3. 古籍版面分析与材质适配

郭教授特别强调了古籍数字化中的版面分析难题。少数民族文字古籍常采用横排、竖排或特殊型版面(如瑶文木书、贝叶经),传统算法难以通用。团队通过自适应布局分割技术,成功解析了西双版纳傣文、古布依文等复杂版式。此外,针对古籍载体多样性(如绵纸、丝帛、贝叶)引发的图像二值化问题,团队开发了材质自适应的预处理算法,有效提升了识别鲁棒性。

图片3.png

         讲座尾声,郭海教授以“技术为舟,驶向文化传承的彼岸”为寄语,呼吁更多青年学者投身人工智能与人文科学的交叉领域。他强调,文档图像分析不仅是算法的优化,更是对人类文明记忆的守护。

         数智学院人工智能素养系列讲座计划陆续推出多元主题活动,持续为师生构建连接学术前沿的桥梁。在技术迭代加速的背景下,本次学术活动不仅实现了科技知识的有效传播,更激发青年学子对“AI驱动未来”的深入探讨。