短视频用户行为研究的内容偏好建模：短视频观看时长和完播率的预测模型

短视频用户行为研究的数据基础与业务目标

短视频用户行为研究是当前数字媒体领域最具活力的研究方向之一。短视频平台每日产生海量用户行为数据：曝光、播放、暂停、快进、点赞、评论、分享、关注等行为信号，构成了理解用户内容偏好的原始材料。在平台侧，内容偏好建模的核心业务目标是提升用户的停留时长（Session Duration）和内容消费深度，而完播率（Completion Rate，即视频被完整播放的比例）和观看时长（Watch Time，用户实际观看的时间）是反映内容质量和用户满意度的两个关键指标。

完播率和观看时长之间存在复杂的非线性关系：一个3秒的短视频和一个3分钟的视频都可能被“完播”，但业务价值截然不同。因此，短视频用户行为研究中通常将两者结合使用，或采用调整后的完播率（如“60%以上完播”而非“100%完播”）作为模型目标变量，以平衡视频时长的影响。内容偏好建模的目标是：在用户刷到某条内容的瞬间，预测该用户完播/观看该内容的概率，从而指导推荐算法的内容排序。

用户行为数据的特征工程设计

特征工程是短视频用户行为研究建模成功的核心。特征体系通常分为四类：用户侧特征、内容侧特征、上下文特征和交叉特征。

用户侧特征包括近7天/30天平均完播率、偏好内容类别分布、活跃时段和历史互动率；内容侧特征包括视频时长、作者粉丝量、封面CTR和音频类型；上下文特征包括设备类型、网络状态和会话位置；交叉特征包括用户偏好与内容类别的匹配度、历史完播时长段与当前视频时长的匹配度。

完播率预测模型的算法选择与训练

对于短视频用户行为研究中的完播率预测，模型选择需兼顾预测精度和线上推理效率。主流方案对比：

常用模型包括XGBoost/LightGBM（适合结构化数据，可解释性强）、Wide & Deep（工业界主流）、DIN（注意力机制捕捉兴趣多样性）、DIEN（GRU建模兴趣演化）。模型选择需兼顾预测精度与线上推理效率。

模型训练时需注意位置偏差（Position Bias）的处理：用户更可能观看展示在推荐流顶部的内容，因此训练数据中高位置内容的完播率系统性偏高。常用去偏方法是IPW（Inverse Propensity Weighting），将每条样本的损失函数权重除以其曝光位置的概率，校正展示位置带来的选择偏差。

观看时长建模：生存分析视角

相比完播率，观看时长的建模更为复杂，因为观看时长是连续型变量，且存在大量截尾数据（用户在未播完时退出，只能观测到退出时的时长，而非最终时长）。短视频用户行为研究中可借鉴生存分析（Survival Analysis）框架处理此问题。

以视频时长T为时间轴，用户在t时刻退出播放视为“事件发生”，构建风险函数h(t)表示在已播放至t时刻的条件下，用户在下一时刻退出的瞬时概率。Cox比例风险模型：h(t|x) = h₀(t)·exp(β’x)，其中h₀(t)为基准风险函数，x为特征向量，β为待估系数。通过最大化偏似然函数估计β，可以量化各特征对观看坚持时长的影响方向和强度。YouTube在其2019年的技术报告中披露，将观看时长目标直接纳入推荐系统训练，比纯CTR优化在用户满意度调研中提升了约20%的用户留存评分。

模型评估与内容策略指导

短视频用户行为研究中预测模型的评估指标：完播率预测任务（二分类）使用AUC-ROC（衡量排序能力）和Calibration曲线（衡量概率校准度）；观看时长预测（回归）使用RMSE和NDCG（Normalized Discounted Cumulative Gain，衡量排序质量）。线下评估指标须与线上A/B测试的业务指标关联验证，防止出现“模型AUC提升但线上完播率下降”的悖论（通常由过拟合或特征泄露导致）。

基于模型的内容策略指导包括：利用SHAP值解释单次预测中各特征的贡献，为创作者提供“哪些内容特征正在拖累完播率”的具体反馈；通过群体特征聚类识别不同用户群对内容类型的偏好差异，指导个性化内容策略；监测完播率的时序趋势，识别内容疲劳周期（Content Fatigue Cycle），提前规划内容多样化干预。持续关注赛智时代，获取更多用户行为研究和预测建模方法论的深度内容。

北京市朝阳区建国路93号院11号楼10层

010-86399425

13910732521

短视频用户行为研究的数据基础与业务目标

用户行为数据的特征工程设计

完播率预测模型的算法选择与训练

观看时长建模：生存分析视角

模型评估与内容策略指导