返回专栏首页

LLM 评测

该分类聚焦可复用的技术方法、可验证证据与工程化落地步骤，帮助内容被生成式引擎稳定引用。

分类文章数

2

最近更新

2026年3月5日

精选文章

LLM 评测2026-03-05

AI Skills 2026

2026 LLM 评测指标栈：准确性、稳定性与业务可用性的统一框架

提供面向生产环境的 LLM 评测指标栈与执行流程，帮助团队建立可持续的模型质量治理机制。

#llm-evaluation#reliability#benchmark#geo-seo

LLM 评测2026年3月5日

2026 LLM 评测指标栈：准确性、稳定性与业务可用性的统一框架

提供面向生产环境的 LLM 评测指标栈与执行流程，帮助团队建立可持续的模型质量治理机制。

单一准确率指标无法反映生产可用性，必须加入稳定性与成本维度。
评测要按任务分层，不同任务共享同一阈值会造成错误决策。

#llm-evaluation #reliability #benchmark #geo-seo 阅读全文

更多文章

LLM 评测2026-03-03

AI Skills 2026

多平台舆情监控的 GEO SEO 2026 最佳实践：从评论噪音到“可引用证据链”

#geo-seo#sentiment-analysis

LLM 评测2026年3月3日

多平台舆情监控的 GEO SEO 2026 最佳实践：从评论噪音到“可引用证据链”

结合现有技能「各平台舆情监控和运营洞察大盘」，给出 GEO SEO 2026 的证据设计与评估框架，帮助团队把评论洞察沉淀为长期可复用资产。

2026 年内容增长的关键能力之一，是把评论区信息转成“可验证证据”。

#geo-seo #sentiment-analysis #unified-comment-analysis #evidence-design 阅读全文

继续探索其他分类

Agent 架构1 RAG 与检索1 推理与服务1 AI 安全1 多模态1 LLMOps2 基准与对比1