金融论坛中的舆情信息蕴含了丰富的股民情绪,可能影响其交易行为进而影响股价,通过对金融论坛中股民的发帖信息进行情感分析,有望能够挖掘到有效的选股因子。我们已经在《Alpha掘金系列之八:FinGPT对论坛评论情感的精准识别——沪深300另类舆情增强因子》报告中构建了沪深300指数增强策略,本次我们将基于中证1000指数成分股股票池,构建中证1000指数增强策略。本报告采用子长科技提供的中证1000指数成分股相关的金融论坛股民发帖数据,使用了2018年至2023年的超5000万条的主帖文本内容。经预处理后,我们在主帖文本数据中抽取部分样本进行训练和验证,我们利用大语言模型进行这部分样本的标注,然后采用BERT-TextCNN模型进行针对金融论坛舆情信息的特定任务训练,最终构建出文本情感识别模型,将股评信息标注为积极、消极、悲观三类。BERT模型通常用于提取文本的深层次语义信息和上下文信息,而TextCNN模型则用于捕捉文本的局部特征,两者结合可以同时利用全局和局部特征进行文本分类。我们训练后的BERT-TextCNN模型样本外准确率超过85%,我们用该模型对超过5000万条股评信息进行情感分类。我们利用金融论坛舆情信息文本情感评分结果,从多维度构建了周频舆情选股因子,包括情绪一致性、关注度、周内关注度波动、整体情绪、周内情绪波动等因子。我们用积极/消极帖子占比来刻画情绪一致性,两个因子均显著,积极帖子占比因子IC值为负值,即积极情绪一致的股票未来股价可能较差。我们用主帖数、积极帖子数、消极帖子数来刻画关注度,积极帖子数量因子IC值为-6.22%,多空年化收益率为59.41%,即中证1000股票池中,关注度越高的股票...
发表评论取消回复