欢迎您访问无忧自考网!

如何将浩如烟海的古籍装进方寸之间的屏幕?北京大学和字节跳动联合推出古籍数字化平台。

更新时间:2023-01-05 08:26:59作者:51data

烟海般的古书如何走进方寸大小的银幕,“触手可及”古文明? 以大数据、人工智能为代表的信息技术,推动古籍整理利用传播迎来了新的机遇和方向。 近日上线的字节跳动与北京大学数字人文研究中心合作开发的古籍数字化平台“识典古籍”(测试版)就是一个生动的案例。

该平台目前覆盖460余部经典古籍,主要来自《四部丛刊》,共计8000万字左右。 与传统的商业化古籍数字平台不同,《古典古籍》不仅免费向公众开放,还具有简单变换、原始影像比对、全文检索、辅助注释等一系列便利功能,是推动古籍整理研究成果突破学术界壁垒、滋养现代人思想和心灵的源泉和源泉

经典古籍官网首页截图。

如何将浩如烟海的古籍装进方寸之间的屏幕?北京大学和字节跳动联合推出古籍数字化平台。

数字迁移的关口

“惟殷先人,书有典据”。 中国诞生于世界。书籍最早的国家之一,从早期的铭文和竹简到后来的手稿、印本,古籍保证了中华文化源远流长,不断传承。 自孔子删《六经》之时起,汉代刘向父子学校管理群书,魏晋隋唐间对诸经的注疏,宋明时期大型类书如《太平御览》 《永乐大典》等的编撰,清人编撰《全唐诗》 《全唐文》 0755 在时时刻刻多媒体电子阅读的时代,当古书残破不堪,成为图书馆里无人问津的文物时,如何唤起人们对古典的记忆就显得尤为迫切。

作为非再生性的文化遗产,以纸张形式存在的古籍非常脆弱。 北京大学数字人文研究中心副主任杨浩表示,水火灾害、战争兵燹灾害等天灾人祸,使许多古籍消失在历史长河中,保存下来的古籍一般都有很多抄本和刻本。 这些幸存的古籍目前多保存在图书馆、博物馆,少数为私人收藏,每翻一页难免受损,“多为一键破碎”。 但是,只有躺在书架上,被整理、阅读,才能最大限度地发挥古籍文献史料的价值。 尤其是那些残破的古籍,终将随着纸张形态的消亡而消失在大众的记忆中。

珍藏图书馆内的古籍。 (新华社记者毛思倩/摄) ) ) )。

古籍数字化在一定程度上解决了古籍保护与利用之间的矛盾。 指利用计算机技术将语言文字或图形符号转化为计算机可识别的数字符号,建立古籍文献书目数据库或古籍全文数据库,属于古籍整理范畴。

与西方国家20世纪70年代发起的“古腾堡计划”相比,国内书籍的电子化始于20世纪80、90年代,各地图书馆纷纷开展古籍数字化工作,将古籍翻拍成电子图像。 随着技术的进步,古籍的数字化也从简单的图像扫描升级为具有全文检索和超链接功能的古籍数据库,避免了古籍原件的直接使用,能够满足古籍保护的要求,同时可以随时随地取出古籍文本,使用密钥提高古籍使用效率。 综观古籍,中华文明的来路、去向更加清晰、无影无踪。

有学者认为,回顾历史,古籍经历了三次重要变化。 一是汉晋时期纸书籍自二、五代北宋取代竹帛地位以来,册印书籍逐渐取代手抄本; 三.清末民初,机印书籍代替手工雕版印刷。 目前,古籍再次面临数字化的关口,它们的物质形态书籍可以无限复制,在数字空间获得永生。 北京大学数字人文研究中心主任王军认为,将几千年留存下来的中华典籍迁移到数字环境下是现代人的历史责任。

AI技术引进古籍整理

然而,建立古籍数字化数据库是一项大工程。 资金缺口大、技术难度大、专业人才短缺是古籍数字化项目的痛点。

中国是世界上保存古籍文献最多的国家,据不完全统计,中国现存古籍总量约5000万册,共计26万多种,但其中只有8万种实现了数字图像扫描,这8万种中只有3~4万种实现了文本数字化按照这个速度,实现现有古籍文本的数字化大约需要300年。

如果利用人工智能技术辅助修复整理,这个年限可以缩短到大约二三十年。 据介绍,2012年是人工智能技术大爆发的一年,由美国斯坦福大学计算机科学家开发的ImageNet计算机视觉系统识别项目标志着人工智能在图像识别方面取得了重大突破。 2018年谷歌发布的BERT模型,在机器阅读理解的顶级测试中取得了惊人的成绩,飞跃了自然语言处理技术……这些成果很快成为学术界关注的焦点,借助人工智能的东风,“停留在金石、竹简、纸张上的先哲智慧”

成立不到两年的北京大学数字人文研究中心,是国内为数不多的利用人工智能进行古籍数字化的学术机构。 近日上线的“经典古书”是该研究中心与字节跳动科技公司合作开发的古书数字化公益平台,整合北京大学古书数字化学术资源、字节跳动技术实力和平台优势,探讨以大数据、人工智能等为代表的信息技术如何成为

点击“了解经典古籍”官网,读者可以看到《四库全书》 《论语》 《孟子》等各类经典陈列在“货架”上。一本、左侧为图书章节目录,右侧为正文。 为了打造通俗易懂的古籍阅读平台,从页面布局到功能设置,设计者致力于降低阅读门槛,在顺应现代人阅读习惯的同时重塑古籍书籍的阅读美感。

通过将原本的影像与古文左右对照,读者可以按照现代人的习惯顺利阅读古籍,感受古籍的原貌。

点击右上角的“原件图片”,读者可以看到古籍原件的影印图片,通过图文对比,读者可以在浏览古籍原件的同时,轻松阅读古籍内容。 单击繁体字转换功能,可以轻松切换繁体字。 正文中用虚线表示人名、地名、官职、书籍等固有名词,可以让专业研究者和古籍爱好者以更高效、方便的方式阅读古籍内容。 同时,读者可以通过关键词搜索,快速找到来自不同古籍的相关内容,方便大家灵活运用文献内容。

“古典古书”平台还具有复杂的转换功能。

“目前,平台已整理上线经典古书460余部,共计8000万字左右,主要来自《礼记》; 预计三年内,我们将完成10000种古籍的数字化整理,准备上线的,有道教典籍和佛教典籍等,将向全社会免费开放。 ”。 据知典古籍相关负责人介绍,平台古籍数字化整理主要运用文字识别、自动标点、命名实体识别三项人工智能技术。

左侧为古典原图,右侧为文字识别过程的演示。

字符识别(即OCR技术)首先从古籍影印图像中逐个截取每个字符,将截取的图像发送到模型中,识别出具体的字符,最后结合字符内容和字符位置获得阅读顺序,完成字符识别; 自动标点技术通过算法自动给原本缺少断句的古籍加标点。 通过文字识别步骤识别出的文字,利用模型计算汉字之间的标点符号概率和具体的标点符号种类,并对文字进行标点符号输出; 为了提高阅读体验,命名实体识别技术通过预测字符的实体标签来识别人名、地名书籍、时间、官职5种专有名词。

经典标点符号的自动演示。

命名实体识别技术可以识别人名、地名、书籍、时间、官职5种专有名词。

据介绍,北京大学数字人文中心对该数字平台的期待是通过人工智能技术,实现全自动整理校对,更高效地实现库存古籍的所有数字化。 除了文本数字化,他们还希望对文本进行“结构化数据提取”,将古籍中的历史文化知识进行关联,构建系统的知识图谱,进而实现智能化的人与人的知识问答。 例如,被视为理学重要奠基人的程颢师从理学创始人周敦颐。 此外,二程的学说还影响了理学集大成者朱熹,他各自的生平、著述、学派等碎片信息被系统整合,建立了脉络清晰的知识网络,理学的发展历程一目了然。 实现智能化人机知识问答。 正如王军总结的那样,智能时代古籍整理的目标应该是整理加工自动化、内容可视化和知识全面化,这些目标是逐步衔接、相互联系的。

这依然任重而道远。 虽然这些技术在近10年取得了很大的进步,例如,OCR技术的识别精度从5、6年前的70%左右提高到了现在的90%以上,但对于排版复杂、“行间非常密集”以及手稿的古籍,OCR技术的识别精度仍然很高这意味着为了完成古籍整理中繁琐细致的审查工作,仍然需要大量的人力。 这很费神,眼力、头脑是必不可少的。 不管技术如何变迁,古籍的保护和传承最可靠的,是那些不动心的人。

北京大学数字人文研究中心现有核心成员十几人,除几位导师外,团队成员多为研博生。 他们分工明确,有的负责文本分析大数据,有的负责NLP技术培训,有的负责写系统代码等。 中心在这次合作中联合了各大学的学者和文献专家,负责人工(审核 )和校正,弥补人工智能存在识别错误率的短板。 除此之外,数百名志愿者努力建设《知识典古籍》。

“这些志愿者大多是还在读的大学生。 ”杨浩说,他们来自不同的学校、专业,都是一群“旧书爱好者”,“工作兴趣很高”。 在团队内的古籍整理平台上,志愿者们负责对技术处理后的文本进行基本的文字、标点校对,经过类似“三审三校”的流程,将整理后的古籍导入“识典古籍”平台,让大家一起见证。

“希望我们做这个平台也能起到示范引领作用,把爱旧书的人聚集起来,提升旧书公益事业的人气。 《古典古书》的相关负责人说。

提供现代人的精神营养

在阅读习惯被新媒体极大改造、层出不穷、文体新颖、文本支离破碎、引人注目的当下,除了初高中教科书中出现的几首耳熟能详的古诗外,许多人都感到陌生、疏远或恐惧的古书,阻碍了学术界的隔阂

但实际上,古籍并不像古化石一样与现代生活格格不入。 恰恰相反,古文名篇中所描绘的风景和心情,千百年后的我们读了依然历历在目,深有同感。 古文塑造我们对生活的感受、想法,已经渗透到我们脱口而出的成语、习语、典故中。 杨浩说,认真阅读古人的著作,就会明白我们现在困惑的几个问题。 古人已经想好了。 他们对生命的感受和思考比现在的人更深刻。

如何在媒体环境下推进图书大众阅读? 王军提出,除了保护古籍的原生性和再现数字化外,还需要典籍内容的解放、面向大众的再创作和再诠释。 “这种重新解释不是一字一句地翻译,而是要结合现代人的生活,为我们现代人的精神提供养料,才能真正激活。 ”

古籍修复照片。 (新华社记者周牧/摄)。

现代媒体环境为典籍的大侠诠释提供了更为多样生动的可能性。 前段时间大热的《四部丛刊》及字节跳动联合中国文物保护基金会、国家图书馆发起了“寻找古籍保护”活动,研究古籍保护的学者、古籍修复专家及不同行业的古籍爱好者在镜头前解读经典古籍

王军说,儒家文化有口头传承的历史,例如《典籍里的中国》是孔子和弟子之间的问答记录,魏晋时期读经学兴盛一时; 北宋时期的《论语》和南宋时期的《二程语录》是对口述的记录。 他认为,要引进学术资源,结合现代生活,对经典的现代进行阐释。 通过头条、百科、嘀嗒短视频、数码产品、互动媒体等多种形式立体传播,构建数字环境下典籍传承的全方位生态体系,为现代人提供心灵滋养和精神寄托。

民国时期,胡适等人提出“整理国故、重建文明”,王军认为,在当今全球互联网的语境下,“重建文明”意味着把整理古籍放在全球文明体系中来看待。 “我们保护的不仅是中华文明,更是全人类宝贵的文化遗产,我们要把它放在这个巨大的文明体系中重新审视自己的文明。 胡适这一批正如知识分子所说,典籍的重新整理不仅要联系过去和现代,更要沟通东方和西方。 否则,就是孤芳自赏。 ”。

在研发团队的构想中,“经典”不仅仅是一个数字阅读平台,而是基于互联网产品的研发和设计能力优化经典阅读和使用方式,未来平台鼓励有文献的学者自行上传文献,用户进行再创作在古今的碰撞中,尘封已久的文字,如河水般再次流动,或许会给现代人留下无限的余音。

作者:本报驻北京记者彭丹

图:除马克外,其他受访者均提供照片

编辑:江胜信

为您推荐

内江市五大城区主干道汉安大道长12公里。你认识几个?

此篇文章的数据是用软件测量而来,由于有的道路在扩建或其它原因,数据可能会存在误差,可做参考,不可作为官方发布的真实情况,同时也是小编自己的见解,如对此篇文章有看法或建议,可私信也可评论区留言,谢谢大家!此篇文章,是小编亲自撰写。内江市是四川

2023-01-05 08:06

“敲”四川内江“东大门”产城旅融合新区正在悄然崛起。

视频加载中...封面新闻记者 黄晓庆3月15日,沿着汉安大道从西向东,一路行驶,高楼林立,商圈叠加,一片繁荣。行至汉安大道高架桥,左侧几栋商业楼盘已经封顶,右侧内江软件与信息技术服务外包产业园400多名工人在现场作业,汉安湖已经基本呈现,湖

2023-01-05 08:05

移动或扩展!内江这三所大学两所中学会有——的大招。

教育是民生基础学校项目建设更是发展教育的基础记者近日从市教育局获悉,在推进内江师范学院新校区建设项目的同时,内江市今年还将加快内江一中扩建工程、内江二中城南校区建设项目、内江职业技术学院新校区后续工程、川南幼儿师范高等专科学校扩建工程、内江

2023-01-05 08:04

如果想学视光学,可以选择温州医科大学。

我国有不少历史悠久的医科类大学,温州医科大学应该算一个,虽然学校正式创办时间为1958年,其实最早溯源可至创办于1912年的浙江医学专门学校。1958年8月由浙江医学院从杭州分迁至温州建立,初名“浙江第二医学院”,后以校址所在地定名为“温州

2023-01-05 08:02

揭秘| 2年后才完成。为什么内江高新科技园一亮相就吸引了18个项目?

四川在线记者 郑志浩 内江观察 刘煜瑞 唐广 摄影报道4月15日,内江高新科创园招商启动暨签约仪式举行,会上为内江高新科创园“产融互联网协同创新中心”举行揭牌仪式。同时,内江高新科创园也获得来自中国邮储银行内江市分行、上海浦东发展银行内江分

2023-01-05 08:02

温州医科大学2022年分省分专业录取分数线及2023年报考建议

温州医科大学,简称“温医大”,位于浙江省温州市,是国家卫健委、教育部和浙江省政府共建高校,是浙江省重点建设高校 ,入选教育部卓越医生培养计划。 学校可溯源至创办于1912年的浙江医学专门学校,1958年8月由浙江医学院从杭州分迁至温州建立

2023-01-05 08:01

加载中...