荀子大语言模型
荀子Logo

传承文脉,智启未来

下载模型 在线体验

关于荀子系列模型

我们荣幸地推出“荀子”系列开源大语言模型,旨在为学术界与开发者提供前所未有的古籍文本处理能力。项目核心包含专为深度研究打造的基座模型 XunziALLM,以及为便捷交互而生的对话模型 XunziChat。通过与 Qwen、ChatGLM3、Baichuan2 等主流模型兼容的调用方式,我们极大地降低了古籍智能处理技术的应用门槛。

核心能力

古籍智能标引

精准识别文献主题,为研究者提供高效的内容导航。

关键信息抽取

自动萃取关键实体,将研究者从繁琐的信息整理中解放。

古典诗歌生成

依主题或意境,创作合乎格律与韵味的诗词。

高质量古文翻译

提供精准流畅的翻译,助力读者跨越语言障碍。

篇章阅读理解

深度分析和解释篇章,实现对复杂文本的智能阅读。

精细词法分析

完成自动分词与词性标注,极大提升古汉语研究效率。

挑战与蓝图

直面现有瓶颈,我们为荀子大语言模型规划了更宏大的技术路径,旨在构建一个全面、智能的古籍研究生态。

当前挑战

  • 预训练语料质量低下,上下文粘连严重。
  • 监督微调任务类型有限,模型泛化能力不足。
  • 模型缺乏体系化的文史领域知识。
  • 现有模型布局的深度和广度不足。

未来计划

  • 扩展技术栈,融合前沿AI技术。
  • 布局多类型模型矩阵,满足多样化需求。
  • 构建高质量、大规模的古籍训练数据集。
  • 建立更科学、更全面的古籍大模型评测标准。

荀子架构

我们从模型、数据和框架三个层面出发,构建一个全面支持古籍数字化、智能化开发与深入研究的生态系统。

模型层

构建包含基座、对话、推理、奖励和语料库模型在内的完整模型矩阵。

数据层

利用大模型技术清洗与整理现有语料,实现公开数据资源的价值提升。

框架层

封装RAG、文献考证等标准化代码框架,赋能研究者快速实现设想。

核心技术

对话与推理,
一体化实现。

我们创新性地采用四阶段训练流程,将长思维链推理能力与快速响应的对话能力无缝结合。通过在模板中动态控制``标记,模型可以自如切换思考模式,确保了在不同场景下的最优表现。

01长思维链冷启动 (Long-CoT Cold Start)
02推理强化学习 (Reasoning RL)
03思维模式融合 (Thinking Mode Fusion)
04通用强化学习 (General RL)

开源模型矩阵

模型名称 模型类型 兼容模型 下载链接
Xunzi-Qwen2-7B 基座模型 Qwen2-7B ModelScope
Xunzi-Qwen1.5-7B_chat 对话模型 Qwen1.5-7B_chat ModelScope
Xunzi-Qwen1.5-14B 基座模型 Qwen1.5-14B ModelScope
Xunzi-GLM-6B 基座模型 ChatGLM3-6B ModelScope
Xunzi-Qwen3-8B 推理模型 (推荐) Qwen3-8B ModelScope
Xunzi-Qwen3-8B-base 基座模型 Qwen3-8B ModelScope
Xunzi-Yayun-R1-32B 推理模型 Qwen2.5-32B Hugging Face
SIKU-BERT BERT模型 BERT Hugging Face
SIKU-RoBERTa BERT模型 RoBERTa Hugging Face
GujiBERT BERT模型 BERT Hugging Face
GujiRoBERTa BERT模型 RoBERTa Hugging Face
GujiGPT BERT模型 GPT Hugging Face

注:用户可根据自己的需求,使用本地的训练语料微调荀子基座模型,以取得更佳性能。

荀子系列 · 子模型

诗喻 (Shiyu)

探索古典诗词中的隐喻,理解文学的深层含义。

进入诗喻

雅韵 (Yayun)

体验古代雅韵之美,探索更多文化内容。

进入雅韵

语料数据资源

我们整理并开放了大规模、高质量的古籍语料知识库,为学术研究提供坚实的数据基础。

二十四史系列

包含“二十四史”与《四库全书》的平行语料、词性标注等多种数据资源。

查看详情与申请

古籍跨语言数据平台

提供古-英、古-现-英两种翻译模式,支持句子级和段落级对齐检索功能。

进入平台

学习资料

我们整理了丰富的教程与视频,助您快速上手数字人文与荀子模型的应用。

GitHub 教程

面向数字人文的编程入门教程,提供详细的代码示例与说明。

前往 GitHub

微信公众号

关注我们的公众号,获取项目最新动态、技术解析与应用案例。

微信公众号二维码
查看文章

Bilibili 视频

观看系列教学视频,直观地学习模型使用与数字人文研究方法。

观看视频

轻松集成与调用

通过标准的 OpenAI 兼容接口,您可以将荀子的能力无缝集成到您的应用中。


from openai import OpenAI

# 配置 API 客户端
openai_api_key = "anything"  # API Key 可任意填写
openai_api_base = "http://xunziallm.njau.edu.cn/modelapi/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

# 发起对话请求
chat_response = client.chat.completions.create(
    model="Qwen3-8B",
    messages=[
        {"role": "system", "content": "你是一个精通中国古籍的智能助手。"},
        {"role": "user", "content": "请解释“天行有常,不为尧存,不为桀亡。”这句话的含义。"},
    ],
    extra_body={
    "chat_template_kwargs": {
        "enable_thinking": False  # 禁用思考过程,直接输出结果,如果需要思考过程可设置为True
    }
}
)

print(chat_response.choices[0].message.content)