一、现代文阅读(34分)
(一)现代文阅读Ⅰ(本题共5小题,18分)
阅读下面的文字,完成1~5题。
材料一:
①近年来,人工智能技术与人文历史研究碰撞出不少火花,那么,AI对于古代汉语的理解能力怎么样?
②日前,北京师范大学中文信息处理与古典文献学专业的研究者们尝试训练一个“饱读诗书”的语言模型,并让AI来参与古籍整理的工作。模型学习的对象包括《四库全书》与“殆知阁”语料库,而学习的方法则来自语言智能领域最新的深层语言模型。
③2018年,谷歌公司曾推出了深层语言模型BERT,它在阅读理解等11项语言理解任务中刷新纪录。和之前的方法相比,深层语言模型一是可以吞吐超大量的数据,二是有很强的记忆和理解能力。现有的深层语言模型覆盖了英文和中文,但却不具备理解古汉语的能力。于是,研究者们希望通过上述海量的古汉语数据来让机器“感受”一下博大精深的诗书礼乐文化。在多块计算卡上并行训练了约一周时间后,古汉语BERT初出江湖,AI可以像人一样联系上下文理解字词含义,并将其以数学向量表示。
④为了检测其理解效果,研究者们引入了句读任务。在古典文史学习过程中,句读通常是必备的基本功。古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对古汉语知识有较高要求。宋代大儒朱熹读韩愈文章,便有“然不知此句当如何读”之惑。在句读的过程中,有三项重要的技能点:利用古汉语特有的节奏和韵律感,联系上下文语境信息推敲求解,调用文本之外的历史文化知识。
⑤虽然现在很多古代经典都出版了标点本,但其中常常包含错误,并且,在现有的古籍数据中,大部分文献仍未实现句读。据统计,“殆知阁”古代文献藏书2.0版语料库规模约33亿字,其中仅25%左右的数据包含标点。如果依靠人工继续整理这些古籍,则不知何年何月才能整理到头。如果依靠计算机,现有的技术方法却普遍只能达到60%~70%的准确率,还很难为人所用。