Xunzi-Yayun-R1 - AI赋能唐诗新生

突破，不止于此。

以小博大，精准控制。

91.23

押韵准确率

结合RAG技术，精准遵循《平水韵》规则，远超同类模型。

>671B

超越大参数量模型

仅以32B参数规模，在格律综合评分上超越671B的DeepSeek-R1模型。

5.81分

专家盲评认可

在文学质量专家盲评中，总分超越人类作者基线(5.74)，达到专业水平。

1K

超高数据效率

仅用1000条高质量数据进行知识蒸馏和微调，实现高效学习。

我们如何教AI写出押韵之作。

问题的核心在于“形神割裂”。我们的答案是一个创新的四维框架，让技术真正服务于艺术。

规则编码：将格律数字化

我们将唐诗中抽象的平仄、对仗、押韵规则，转化为模型可以理解和优化的连续数值奖励。这是AI从“模仿”走向“理解”的关键一步。

知识蒸馏：赋予模型诗心

我们从671B的模型中“蒸馏”出诗歌的意象、风格和创作逻辑，并将其注入32B的轻量模型中。这使得小模型也能拥有大师级的艺术嗅觉。

动态强化 (GRPO)：创作过程中的精雕细琢

在生成过程中，GRPO算法会根据规则编码的反馈，实时调整创作策略。每一次迭代，都像一位大师在对作品进行精心的推敲和打磨，直至完美。

检索增强 (RAG)：一座随身携带的“韵书”

模型在创作时，能实时查询《平水韵》等知识库，确保每一个韵脚都精准无误。这从根本上解决了押韵难题，让创作再无后顾之忧。

算法核心：可量化的评估体系。

强化学习并非空中楼阁。我们的评估体系在开源评测工具 couyun 的基础上，进一步设计了四大核心算法，将“好诗”的标准量化为模型可以学习的信号。

综合评分算法

通过对四大核心指标进行加权计算（平仄40%、押韵30%、对仗20%、字数10%），得出最终的量化总分。

平仄模式算法

检测诗歌每一句的平仄是否符合格律要求，并根据错误率进行扣分，同时对符合标准律诗格式的作品给予高分。

押韵检测算法

计算应押韵句（如绝句的二、四句）中，正确押韵的比例，确保诗歌音韵和谐。

对仗与字数算法

对律诗的中间两联进行严格的对仗检测，并确保所有诗歌的句数和每句字数符合规范（如五言/七言、绝句/律诗）。

GRPO训练核心：双重奖励机制。

我们为GRPO强化学习设计了双重奖励机制，引导模型在遵守规则的同时，追求更高的艺术成就。

+0.5

格式奖励

只要模型能生成符合我们预设格式（如包含推理和答案标签）的文本，就能获得此奖励。这确保了模型首先学会了“说人话”。

+1.0

格律奖励

当模型生成的诗歌在任一单项指标（平仄、押韵等）上得分超过50，或综合得分超过80时，会获得高额奖励。这激励模型不断挑战更高难度，追求完美。

妙笔，信手拈来。

我们已将模型在Hugging Face开源。只需几行代码，即可开启你的唐诗创作之旅。

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"

# 加载模型与分词器
model = AutoModelForCausalLM.from_pretrained(
    "ricardozhy/Xunzi-Yayun-R1", 
    device_map=device, 
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("ricardozhy/Xunzi-Yayun-R1")

# 构建请求并推理
query = "请以'秋思'为题创作一首七言律诗，押平水韵庚韵"
messages = [{"role": "user", "content": query}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=128)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

评估矩阵。

数据胜于雄辩。通过量化指标、图灵测试、专家盲评和消融研究，我们全方位验证了模型的卓越性能。

量化指标总览

模型 / 数据集	平仄	押韵	对仗	句式	总分
模型 + 推理 + RAG
Xunzi-Yayun-R1 (32B)	75.63	91.23	94.20	98.76	86.34
Qwen2.5-32B-Instruct	76.81	87.86	94.69	99.77	86.00
DeepSeek-R1 (671B)	79.94	80.92	94.67	99.59	85.15
Qwen2.5-14B-Instruct	72.28	87.54	90.63	91.47	82.44
Qwen2.5-7B-Instruct-GRPO	75.92	75.60	90.08	91.03	80.17
模型 + 推理 (无RAG)
Xunzi-Yayun-R1 (32B)	77.74	77.36	94.85	99.80	83.25
Qwen2.5-32B-Instruct-GRPO	79.74	72.38	94.38	99.22	82.41
Qwen2.5-7B-Instruct	63.54	50.71	80.83	75.35	64.33
模型 + SFT微调
Qwen2.5-32B-Instruct	79.62	65.84	93.29	98.37	80.10
Qwen2.5-14B-Instruct	78.64	65.17	92.91	97.52	79.34
Qwen2.5-7B-Instruct	75.93	61.48	89.88	94.33	76.22
人类作品基准
《全唐诗》	71.57	85.96	93.18	97.62	82.81

图灵测试：AI作品以假乱真

在图灵测试中，我们的模型生成的诗歌让超过66.4%的测试者认为“可能是人类所作”或“无法判断”，表现优于人类作者的基准（41.8%）。

Xunzi-Yayun-R1

人类作者

机器无法判断人类

专家盲评：超越人类基准

在古典文学专家的盲评中，我们的模型在流畅度、连贯性和诗意三大维度的综合得分（5.81）超越了人类作者的基准（5.74）。