唐诗新生。

由 AI 赋能创作。

Xunzi-Yayun-R1,它不仅能“写”诗,更能“创作”诗。凭借创新的四维框架,我们让模型真正理解了唐诗的格律与灵魂,在关键指标上超越671B模型,将技术与艺术提升至全新高度。

突破,不止于此。

以小博大,精准控制。

91.23

押韵准确率

结合RAG技术,精准遵循《平水韵》规则,远超同类模型。

>671B

超越大参数量模型

仅以32B参数规模,在格律综合评分上超越671B的DeepSeek-R1模型。

5.81分

专家盲评认可

在文学质量专家盲评中,总分超越人类作者基线(5.74),达到专业水平。

1K

超高数据效率

仅用1000条高质量数据进行知识蒸馏和微调,实现高效学习。

我们如何教AI写出押韵之作。

问题的核心在于“形神割裂”。我们的答案是一个创新的四维框架,让技术真正服务于艺术。

规则编码:将格律数字化

我们将唐诗中抽象的平仄、对仗、押韵规则,转化为模型可以理解和优化的连续数值奖励。这是AI从“模仿”走向“理解”的关键一步。

知识蒸馏:赋予模型诗心

我们从671B的模型中“蒸馏”出诗歌的意象、风格和创作逻辑,并将其注入32B的轻量模型中。这使得小模型也能拥有大师级的艺术嗅觉。

动态强化 (GRPO):创作过程中的精雕细琢

在生成过程中,GRPO算法会根据规则编码的反馈,实时调整创作策略。每一次迭代,都像一位大师在对作品进行精心的推敲和打磨,直至完美。

检索增强 (RAG):一座随身携带的“韵书”

模型在创作时,能实时查询《平水韵》等知识库,确保每一个韵脚都精准无误。这从根本上解决了押韵难题,让创作再无后顾之忧。

算法核心:可量化的评估体系。

强化学习并非空中楼阁。我们的评估体系在开源评测工具 couyun 的基础上,进一步设计了四大核心算法,将“好诗”的标准量化为模型可以学习的信号。

综合评分算法

通过对四大核心指标进行加权计算(平仄40%、押韵30%、对仗20%、字数10%),得出最终的量化总分。

平仄模式算法

检测诗歌每一句的平仄是否符合格律要求,并根据错误率进行扣分,同时对符合标准律诗格式的作品给予高分。

押韵检测算法

计算应押韵句(如绝句的二、四句)中,正确押韵的比例,确保诗歌音韵和谐。

对仗与字数算法

对律诗的中间两联进行严格的对仗检测,并确保所有诗歌的句数和每句字数符合规范(如五言/七言、绝句/律诗)。

GRPO训练核心:双重奖励机制。

我们为GRPO强化学习设计了双重奖励机制,引导模型在遵守规则的同时,追求更高的艺术成就。

+0.5

格式奖励

只要模型能生成符合我们预设格式(如包含推理和答案标签)的文本,就能获得此奖励。这确保了模型首先学会了“说人话”。

+1.0

格律奖励

当模型生成的诗歌在任一单项指标(平仄、押韵等)上得分超过50,或综合得分超过80时,会获得高额奖励。这激励模型不断挑战更高难度,追求完美。

妙笔,信手拈来。

我们已将模型在Hugging Face开源。只需几行代码,即可开启你的唐诗创作之旅。

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"

# 加载模型与分词器
model = AutoModelForCausalLM.from_pretrained(
    "ricardozhy/Xunzi-Yayun-R1", 
    device_map=device, 
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("ricardozhy/Xunzi-Yayun-R1")

# 构建请求并推理
query = "请以'秋思'为题创作一首七言律诗,押平水韵庚韵"
messages = [{"role": "user", "content": query}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=128)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

评估矩阵。

数据胜于雄辩。通过量化指标、图灵测试、专家盲评和消融研究,我们全方位验证了模型的卓越性能。

量化指标总览

模型 / 数据集 平仄 押韵 对仗 句式 总分
模型 + 推理 + RAG
Xunzi-Yayun-R1 (32B) 75.63 91.23 94.20 98.76 86.34
Qwen2.5-32B-Instruct 76.81 87.86 94.69 99.77 86.00
DeepSeek-R1 (671B) 79.94 80.92 94.67 99.59 85.15
Qwen2.5-14B-Instruct 72.28 87.54 90.63 91.47 82.44
Qwen2.5-7B-Instruct-GRPO 75.92 75.60 90.08 91.03 80.17
模型 + 推理 (无RAG)
Xunzi-Yayun-R1 (32B) 77.74 77.36 94.85 99.80 83.25
Qwen2.5-32B-Instruct-GRPO 79.74 72.38 94.38 99.22 82.41
Qwen2.5-7B-Instruct 63.54 50.71 80.83 75.35 64.33
模型 + SFT微调
Qwen2.5-32B-Instruct 79.62 65.84 93.29 98.37 80.10
Qwen2.5-14B-Instruct 78.64 65.17 92.91 97.52 79.34
Qwen2.5-7B-Instruct 75.93 61.48 89.88 94.33 76.22
人类作品基准
《全唐诗》 71.57 85.96 93.18 97.62 82.81

图灵测试:AI作品以假乱真

在图灵测试中,我们的模型生成的诗歌让超过66.4%的测试者认为“可能是人类所作”或“无法判断”,表现优于人类作者的基准(41.8%)。

Xunzi-Yayun-R1
人类作者
机器 无法判断 人类

专家盲评:超越人类基准

在古典文学专家的盲评中,我们的模型在流畅度、连贯性和诗意三大维度的综合得分(5.81)超越了人类作者的基准(5.74)。

Xunzi-Yayun-R1
5.81
人类作者
5.74

消融研究:验证各模块贡献

我们通过消融实验验证了各技术模块的有效性。数据显示,RAG对押韵提升巨大,而GRPO则能有效优化整体格律。

配置 (基于Qwen2.5-32B) 平仄 押韵 对仗 句式 总分
SFT only (基准) 79.62 65.84 93.29 98.37 80.10
+ GRPO 79.74 72.38 94.38 99.22 82.41
+ RAG 76.81 87.86 94.69 99.77 86.00
+ GRPO + RAG (Xunzi-Yayun-R1) 75.63 91.23 94.20 98.76 86.34