
(文/何心颖)自古以来,人们创造了许多的知识财富,古籍文献是这些财富的重要载体。为了更好地利用和保护这些古籍文献,将它们进行数字化是一个既高效又重要的方式。所谓古籍文献数字化,是指以古籍的保护和利用为目的,以现代信息技术为手段,通过将古籍中的语言文字或图形符号转化成计算机可识别的数字符号,从而完成古籍的影印、点校、注释、辑佚、索引、编纂等一系列加工处理工作,进而制成文献书目数据库和全文数据库,最终实现古籍整理、存储、检索、阅读和传输的电子化系统工作。简言之,就是运用信息处理技术将古籍文献转化为计算机可识别和处理的数字信息的过程。
但是,在古籍数字化领域内一直存在一个突出问题,那就是专业人才匮乏的问题。一个合格的古籍数字化工作者既需要掌握传统的历史文献学的专业知识,又需要对计算机等先进技术有深入研究。不仅需要较强的科研能力,又需要丰富的实践经验。这种既要横跨文理学科又需要理论、科研与实践相融合的专业人才十分稀缺,而长期致力于自然语言理解技术研发工作的著名专家张虎先生正是这一领域的高精尖人才。张虎毕业于北京工业大学的计算机及应用专业,拥有二十余年的历史文献分析技术和语言软件开发技术研发实践经验,他的技术成果开创了历史文献分析技术的先河,让自然语言理解技术提升到了新的高度,为人工智能发展做出了巨大贡献。
张虎对于古籍文献数字化有着其独特的见解。他认为,古籍文献数字化离不开对文献中的文字进行识别和定位,古籍文献中的文字识别可以认为是光学字符识别(OCR)的一个分支。虽然OCR已经是一个相对比较成熟的技术,但是古籍文献中的OCR仍然面临着各种挑战,包括类别数较多、字迹模糊、书写方式多样和背景复杂等等,而大数据、云计算和人工智能等先进技术,恰好能解决这些痛点问题,为古籍文献的数字化提供新的研究方向。
近年来,张虎先生对古籍文献数字化的热点问题和技术壁垒进行了深入研究,他认为:一方面古籍文字存在字类多、字体多样的特点和流传过程中易出现各类损坏的现象。另一方面,在古文献的研究及使用过程中,存在繁体字检索与文献定位的需求,从而导致识别难度高成为古籍文献数字化领域中存在的突出问题。由于缺乏充足的数据,常规OCR识别方法高度依赖人工,几乎需要专业人员逐字标注,耗时长,成本大,且效率低下,导致古籍数字化无法形成规模效应,总体进程缓慢。针对这些问题,张虎先生依靠深厚的专业知识和丰富的从业经验,自主研发了一款名为“基于人工智能的古籍文字OCR识别系统V1.0”的全新技术成果,开创了古籍文献研究领域智能化技术研发的先河,创造性地将人工智能融入到古籍文献的研究中,将古籍文献分析技术带入了一个全新的发展阶段。
常规的古籍数字化完整流程分为三大环节即采集侧、数字化生产侧和应用侧。采集侧可以将纸质书变为电子扫描版,数字化生产侧将电子扫描版变为文字版,应用侧则是将文字版变为涵盖检索、字典、知识图谱等功能的古籍研学系统。张虎所研发的“基于人工智能的古籍文字OCR识别系统V1.0”将重点落于数字化生产侧、应用侧两个环节。在数字化生产侧,他运用最先进的OCR识别技术,创造性地研发了一套全新的AI古籍文献识别系统,具备自动检索与定位功能,可以规模化、系统化对电子扫描版古籍文献进行定位识别、并发处理和快速输出结果文件。在应用侧,他基于人工智能技术,研发了具有数据处理、自动学习功能的古籍文献研究系统,可以针对多种古籍文献类型,实现快速识别并转化文字功能。该技术具有用时短、准确率高、一键导出等特色,可以极大地减少成本支出,提升古籍文献的数据化效率。
目前,这一技术成果已被广泛应用于自然语言理解、古籍文献分析等诸多领域,涵盖了国内外著名图书馆、知名高校、权威出版社和头部企业等。经反馈,该系统不仅能为他们日常的文字扫描提供高效的服务,大大降低了各种成本,还能为其复杂典籍数据处理以及古籍文献数字化研究提供科学的数据、核心指导意见以及强有力的技术支撑。
古籍文献见证了人类历史的变迁和社会文明的进步,是人类数千年在政治、经济、文化、科技等领域的智慧结晶和宝贵财富,聚集着人类未来的发展哲学和底蕴。古籍数字化工作不仅是对历史的梳理和总结,也是对文化的传承和发扬,对于人类文明进步都具有举足轻重的作用。张虎谦虚地表示,他仅仅只在这条道路上迈出了一小步,对于未来的行业发展,他仍将继续探索智能化技术在古籍文献研究中的无限可能,为古籍文献的数字化发展研发出更多的技术成果,进而推动行业的创新和变革。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”