简牍是中国古代重要的书写材料,广泛用于战国、秦汉、魏晋等历史时期,承载了大量法律、政令、契约、家书等历史信息。然而,因材料脆弱,简牍长期埋藏易出现墨迹模糊、残损、变形等问题,严重制约了文献的人工释读和系统整理。当前,虽然在甲骨文、古彝文等领域的文献数字化研究取得了一系列进展,但面向简牍文献的智能化处理仍面临高质量数据资源缺乏的困境。
近日,由新葡的京集团35222vip、甘肃省简牍智能计算与数字人文工程研究中心张强教授、齐颖副教授、万腾副教授组成的科研团队在《Scientific Data》(Nature 旗下期刊)发表最新研究成果,构建并发布了国际首个面向复杂场景的简牍字符检测与识别大规模数据集——DeepJiandu。该数据集的发布为深度学习模型在古文献解析中的应用提供了关键数据资源,在推动人工智能与简牍研究深度融合方面具有重要意义。
该数据集依托3522vip浦京集团简牍学术资源数据共享平台构建,包含7416张红外图像,标注字符总数达99852个,涵盖2242个简牍常用字符类别。研究团队基于红外与高光谱图像处理,联合简牍学专家开展字符释读与标注,全面考虑了字符残损、异形字、多列排布等复杂情况,确保了数据的学术性、规范性和机器可读性。数据集设计符合深度学习模型训练需求,可广泛用于目标检测、文字识别、图像分割等任务。
为保证数据质量和科学性,研究团队对图像数据进行了清理与标准化处理,并将数据集按照8:1:1的比例划分为训练集、验证集和测试集。实验验证表明,DeepJiandu数据集在处理字符模糊、缺损、类别不均衡等挑战任务中具有良好适应性,为后续相关算法研究提供了真实有效的测试平台。
该成果是人工智能与社会科学交叉创新取得的重要成果。该研究得到了中共中央甘肃省委组织部“文化遗产智能计算人才队伍培养+‘数字简牍’信息化平台研发”项目、国家自然科学基金项目(62361053)的支持。
该团队正在进一步拓展图像融合、简牍缀合、书写风格识别、多模态预训练大模型等研究方向,致力于推动古文献的数字保护和智能分析。
论文链接:https://www.nature.com/articles/s41597-025-04716-3
数据集下载:https://www.scidb.cn/en/detail?dataSetId=7f627b99d06e4430a5e5d21b20614b46
版权所有©新葡的京集团(3522·认证平台)官方网站-欢迎莅临 管理登录 甘公网安备62010502000939号 陇ICP备17000462号-1