浙江大学“智慧古籍平台”。 童笑雨 摄
浙江大学上线了“智慧古籍平台”。据悉,该平台的建设为读者扫除古代文献阅读障碍,打造了古籍阅读、整理和研究的新范式。
中华上下五千年的典籍,记录着中华民族宝贵的文化密码。浙江大学教授徐永明及其团队多年来致力于文史大数据结构化和智慧化建设。
从2018年的“学术地图发布平台”到2020年的“智慧古籍平台”,该团队通过一项项学术进展,让收藏在禁宫里的文物、书写在古籍里的文字“活起来”。
据介绍,“智慧古籍平台”综合运用大数据的计量统计、定位查询、聚类查询、空间分析、数据关联等技术,将中国古典文献和研究成果图谱化、智能化。
记者看到,只要点击“智慧古籍平台”首页的“著述导览”页面,便可查阅著述的章节目录、著述提要等基本信息及相关作者的世系图、社会关系图;点击“篇目导览”即可进入文本阅读界面。
为提高文本的准确性,减少阅读时频繁查阅相关资料的工作量,该平台还提供了古籍图片与古籍数字化文本一一对应的功能和关键字词释义功能。
如文本中的重要信息及疑难词已按人名、地名、时间、典故等不同类型以不同颜色显示,点击即可查看不同类型的释义。同时,“智慧古籍平台”与学术地图发布平台相连接,点击“著者详情”,即可查看所连接的人物行迹图。
看似便利的阅读体验,离不开前期的重重把关。据介绍,上传到“智慧古籍平台”的文献资料将经过OCR识别、机器标点、人工校对、专家审核、机器标引、标引审核等程序,审核无误后,才能在前台发布。
OCR识别即“光学字符识别”技术。该技术能较为精确地识别版刻古籍,将图像中的文字转换成文本格式。同时,凭借机器古籍标点技术,可在古籍文本上自动标注现代中文标点符号,两者的准确率都达90%以上。
在古籍整理上,该平台利用众包技术,在中国乃至世界范围内遴选和组建专业团队,突破团队人员数量和地域的限制,完成线上古籍整理。
该团队相关负责人表示,该平台的建设,将进一步推进古籍数据资源的整合和开放共享,改变“数据在中国,数据库在国外”的局面,在为读者扫除古代文献阅读障碍,推动古籍阅读普及化的同时,激活学者的研究成果,突破学术圈的壁垒,将前沿的学术研究成果转化为社会大众共享的文化资源。
作者:童笑雨
资料来源:中国新闻网