大语言模型在民间文献数据分析中的应用—理论热点—深圳市社会科学网-k8凯发平台
日期:2024-09-09 来源:中国社会科学网
习近平总书记在文化传承发展座谈会上强调:“只有全面深入了解中华文明的历史,才能更有效地推动中华优秀传统文化创造性转化、创新性发展,更有力地推进中国特色社会主义文化建设,建设中华民族现代文明。”优秀传统文化的文献载体主要有传世官方文献和历代民间文献两种,其中民间文献是目前人文社会科学研究的热点领域。在数字人文高度发展的时代背景下,将人工智能技术应用于民间文献的整理与研究,是人文社科与计算机科学交叉融合的必然趋势,必将促进两个领域的协同发展,也为破解民间文献研究中的“同质化”难题提供新的技术手段。
民间文献数据分析的瓶颈
民间文献的特点在于分布范围广、类型多样、数量庞大,主要集中在敦煌吐鲁番、徽州、福建、清水江、山西等地。其中,敦煌吐鲁番文书群中能够看到大量唐宋时期的契约文书;徽州文书最大的特点在于数量多、跨越年代久远、延续性好、归户性强,徽州文书的数量据安徽大学刘伯山教授估计当在55万—80万件左右;福建文书的整理与研究开始于傅衣凌先生的专著与论述,并成为我国学者研究民间契约文书的学术前导,近些年也有井喷式的新发现;清水江文书以锦屏林业契约为主要内容和主要特色,是反映当地林业与苗族、侗族人民生存、发展等社会关系的原始记载,总数也在30万件以上。
面对动辄几十万件的民间文献,传统的研究方法已显不足,难以高效处理这些十万、百万计的数据,使研究陷入了瓶颈期。随着数字人文的兴起,学术界普遍认为引入人工智能、大数据技术是解决此类问题的有效途径。近年来,迅速崛起的大语言模型应用技术为海量民间文本数据的分析提供了新的可能性。这些技术的应用能够极大增强民间文献如契约文书、账簿、书信及侨批等材料的自动化处理能力。通过对文献类型进行精确分析和命名,能够更有效地分类和索引文献材料。同时,通过文献要素的提取和数据的量化分析,不仅能够提升研究效率,还能深化对文献材料复杂性的理解。在优化文献保存和整理流程的同时,大语言模型还能够高效地进行数据处理和内容分析,为民间文献研究提供强有力的k8凯发平台的技术支持。
大语言模型的应用技术与场景
2022年openai公司发布chatgpt产品,为生成式人工智能技术的跨越式发展揭开序幕。2023年发布的gpt-4进一步提升了gpt系列模型在语言理解和语言生成方面的能力,该系列产品目前已广泛应用于文本理解和生成、编程辅助、教育和研究辅助等领域。在开源大模型方面,meta公司发布的llama系列模型具有良好的开源生态,支持本地化部署,应用可扩展性强,适用场景灵活多样,因此被广泛应用于涉及文本等数据处理的研究领域,开源社区中产生了大量以llama系列模型为基座、以特定任务数据微调的衍生模型、垂直领域模型。同期国内大语言模型研发也取得了显著进展,在中文处理方面具有较大优势,目前较为常用的中文开源模型包括qwen系列模型、baichuan系列模型、glm系列模型等。
大语言模型常见的应用技术包括提示词工程、检索增强生成(rag)和模型微调等。提示词工程是与大语言模型有效沟通的技巧和策略,通过合理设计提示词引导模型生成符合期望的输出,常用提示词策略包括明确任务目标、设定角色身份、列出任务步骤、提供参考示例等,可根据不同场景组合使用。检索增强生成技术将检索技术加入生成过程中,使用向量数据库引入外部知识信息,提升生成结果的准确性和丰富性,减少大语言模型“幻觉”的产生,适用于知识库相关文本生成等场景。模型微调技术是指使用特定任务相关的数据集基于预训练模型进行再训练,以增强模型处理特定任务的能力。模型微调技术广泛应用于各类文本处理任务,可将任务相关的显性知识和隐性知识灌注到模型当中,打造符合特定场景需求的垂直领域模型。这些技术各具优势,可适用于不同场景,通过组合使用能够为文献数据分析工作提供新工具和新方法。
大语言模型在文献处理方面的应用,目前主要包括词法分析、自动句读、信息抽取、摘要生成等。词法分析指自动分词、词性标注等任务,是文本分析的基础工作。大语言模型通过其内化的语言理解能力和丰富的语言知识,为词法分析提供强大支持。自动句读是指将连续的文本根据古汉语语法特点和文本语义进行自动切割,经过大量古代语料训练的大语言模型能够有效提升古文自动句读的准确性。信息抽取是指自动提取文本中的关键信息,如时间、地点、人物等实体信息抽取,实体间关系抽取,以及基于实体和关系的事件信息抽取等。经过特定数据集训练的大语言模型可理解任务规则和文本语义,实现信息自动抽取。对文献进行自动摘要就是进行主题概括、篇幅压缩及可读性提升,有助于读者快速了解古籍的主题内容框架并生成简洁准确的摘要。
大语言模型助力民间文献处理
在民间文献研究中,可通过查阅方言文献、实地走访相关当事人等方式,把握所获得的民间文献的真实含义及语素特性,深入了解文本背后的文化和社会背景,有助于揭示单个文本的核心内涵和文化特征。在此基础上,可以运用大语言模型应用技术,实现民间文献如契约文书、账簿、书信及侨批等材料的自动化批量处理、深层次数据挖掘及关系网络建构等。具体而言,大语言模型可辅助民间文献处理完成以下四类任务。
一是文献类型分析。利用民间文献文本数据建立针对分类任务的训练数据集,对选定的基座模型进行微调,并根据微调结果评估进行参数优化和迭代,训练出能够自动识别和分类文献的语言模型,依据各类民间文献的特定属性和内涵,提高分类的系统性和科学性。针对民间文献的数据集建立规则可进行多级分类,一级分类将民间文献分为契约文书、账簿、书信及侨批等;在此基础上,二级分类则进一步细化,将契约文书按照交易性质、交易时间、交易内容等进行分类。这种分级分类方法不仅有助于系统整理和分析文献材料,还为后续的深入研究提供了明确的框架和依据。
二是文献要素提取。针对已经分析好的类型文书,可进一步建立有针对性的要素提取任务数据集,并进一步微调模型使之具有要素识别能力。通过要素识别模型从文献中提取核心要素,是提高文献研究效率和准确性的关键步骤。以契约文书为例,可以提取出立契人、标的物、地点、租数、相对人、价款、中礼钱、立契时间、中见人、利率等核心信息。要素提取为后续的量化分析和深入研究奠定了基础,使得研究者能够准确、高效地处理大量材料,并获取所需关键信息。
三是文献自动命名。为确保民间文献研究的标准化和一致性,有必要根据文献的结构和内容特点制定统一的命名规则。在文献类型分析和要素提取工作的基础上,可利用大语言模型,依据规则示例批量为每一件民间文献生成便于检索、具有高区分度和涵盖度的名称和摘要。民间文献的统一命名不仅提高了文献管理和检索的效率,也为相关研究者之间的交流与合作提供了便利。
四是数据量化分析。除利用大语言模型的基础文本处理能力外,可进一步利用其数据分析能力和编程辅助能力等其他扩展能力,对提取出的文献信息进行量化处理和统计分析,揭示文献材料的分布规律、发展趋势及其可能的社会影响。例如,建立归户民间文献中核心人物的关系网络,分析身份关系对交易主体选择、交易频率、标的物价值、借贷利率等的影响。应用大语言模型对数以十万、百万计的民间文献进行量化分析,不仅能够揭示文献背后的社会经济规律,还可以全面地展现历史事件、社会现象的复杂性和多样性,并为史学研究提供新的视角和方法。
(作者系中共天津市委党校网信办工程师)