以小博大,精准控制。
91.23
结合RAG技术,精准遵循《平水韵》规则,远超同类模型。
>671B
仅以32B参数规模,在格律综合评分上超越671B的DeepSeek-R1模型。
5.81分
在文学质量专家盲评中,总分超越人类作者基线(5.74),达到专业水平。
1K
仅用1000条高质量数据进行知识蒸馏和微调,实现高效学习。
问题的核心在于“形神割裂”。我们的答案是一个创新的四维框架,让技术真正服务于艺术。
我们将唐诗中抽象的平仄、对仗、押韵规则,转化为模型可以理解和优化的连续数值奖励。这是AI从“模仿”走向“理解”的关键一步。
我们从671B的模型中“蒸馏”出诗歌的意象、风格和创作逻辑,并将其注入32B的轻量模型中。这使得小模型也能拥有大师级的艺术嗅觉。
在生成过程中,GRPO算法会根据规则编码的反馈,实时调整创作策略。每一次迭代,都像一位大师在对作品进行精心的推敲和打磨,直至完美。
模型在创作时,能实时查询《平水韵》等知识库,确保每一个韵脚都精准无误。这从根本上解决了押韵难题,让创作再无后顾之忧。
强化学习并非空中楼阁。我们的评估体系在开源评测工具 couyun 的基础上,进一步设计了四大核心算法,将“好诗”的标准量化为模型可以学习的信号。
通过对四大核心指标进行加权计算(平仄40%、押韵30%、对仗20%、字数10%),得出最终的量化总分。
检测诗歌每一句的平仄是否符合格律要求,并根据错误率进行扣分,同时对符合标准律诗格式的作品给予高分。
计算应押韵句(如绝句的二、四句)中,正确押韵的比例,确保诗歌音韵和谐。
对律诗的中间两联进行严格的对仗检测,并确保所有诗歌的句数和每句字数符合规范(如五言/七言、绝句/律诗)。
我们为GRPO强化学习设计了双重奖励机制,引导模型在遵守规则的同时,追求更高的艺术成就。
只要模型能生成符合我们预设格式(如包含推理和答案标签)的文本,就能获得此奖励。这确保了模型首先学会了“说人话”。
当模型生成的诗歌在任一单项指标(平仄、押韵等)上得分超过50,或综合得分超过80时,会获得高额奖励。这激励模型不断挑战更高难度,追求完美。
我们已将模型在Hugging Face开源。只需几行代码,即可开启你的唐诗创作之旅。
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"
# 加载模型与分词器
model = AutoModelForCausalLM.from_pretrained(
"ricardozhy/Xunzi-Yayun-R1",
device_map=device,
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("ricardozhy/Xunzi-Yayun-R1")
# 构建请求并推理
query = "请以'秋思'为题创作一首七言律诗,押平水韵庚韵"
messages = [{"role": "user", "content": query}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=128)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
数据胜于雄辩。通过量化指标、图灵测试、专家盲评和消融研究,我们全方位验证了模型的卓越性能。
| 模型 / 数据集 | 平仄 | 押韵 | 对仗 | 句式 | 总分 |
|---|---|---|---|---|---|
| 模型 + 推理 + RAG | |||||
| Xunzi-Yayun-R1 (32B) | 75.63 | 91.23 | 94.20 | 98.76 | 86.34 |
| Qwen2.5-32B-Instruct | 76.81 | 87.86 | 94.69 | 99.77 | 86.00 |
| DeepSeek-R1 (671B) | 79.94 | 80.92 | 94.67 | 99.59 | 85.15 |
| Qwen2.5-14B-Instruct | 72.28 | 87.54 | 90.63 | 91.47 | 82.44 |
| Qwen2.5-7B-Instruct-GRPO | 75.92 | 75.60 | 90.08 | 91.03 | 80.17 |
| 模型 + 推理 (无RAG) | |||||
| Xunzi-Yayun-R1 (32B) | 77.74 | 77.36 | 94.85 | 99.80 | 83.25 |
| Qwen2.5-32B-Instruct-GRPO | 79.74 | 72.38 | 94.38 | 99.22 | 82.41 |
| Qwen2.5-7B-Instruct | 63.54 | 50.71 | 80.83 | 75.35 | 64.33 |
| 模型 + SFT微调 | |||||
| Qwen2.5-32B-Instruct | 79.62 | 65.84 | 93.29 | 98.37 | 80.10 |
| Qwen2.5-14B-Instruct | 78.64 | 65.17 | 92.91 | 97.52 | 79.34 |
| Qwen2.5-7B-Instruct | 75.93 | 61.48 | 89.88 | 94.33 | 76.22 |
| 人类作品基准 | |||||
| 《全唐诗》 | 71.57 | 85.96 | 93.18 | 97.62 | 82.81 |
在图灵测试中,我们的模型生成的诗歌让超过66.4%的测试者认为“可能是人类所作”或“无法判断”,表现优于人类作者的基准(41.8%)。
在古典文学专家的盲评中,我们的模型在流畅度、连贯性和诗意三大维度的综合得分(5.81)超越了人类作者的基准(5.74)。
我们通过消融实验验证了各技术模块的有效性。数据显示,RAG对押韵提升巨大,而GRPO则能有效优化整体格律。
| 配置 (基于Qwen2.5-32B) | 平仄 | 押韵 | 对仗 | 句式 | 总分 |
|---|---|---|---|---|---|
| SFT only (基准) | 79.62 | 65.84 | 93.29 | 98.37 | 80.10 |
| + GRPO | 79.74 | 72.38 | 94.38 | 99.22 | 82.41 |
| + RAG | 76.81 | 87.86 | 94.69 | 99.77 | 86.00 |
| + GRPO + RAG (Xunzi-Yayun-R1) | 75.63 | 91.23 | 94.20 | 98.76 | 86.34 |