写文章、短剧剧本、视频口播等应用任务缺少稳定公开 benchmark。模力榜 使用自建样例 rubric 作为补充证据,并在页面中明确标注为平台评测。
该评分不替代公开 benchmark,只用于解释应用场景推荐。
判断输出是否自然、清晰、符合中文内容平台语气。
判断长文、方案、剧情和口播是否有清晰层次。
判断人物设定、风格、格式和约束是否能持续遵守。