计算机行业:浅析AI大模型训练数据来源与版权挑战-240719-广发证券-38页

计算机行业:浅析AI大模型训练数据来源与版权挑战-240719-广发证券-38页_第1页
计算机行业:浅析AI大模型训练数据来源与版权挑战-240719-广发证券-38页_第2页
计算机行业:浅析AI大模型训练数据来源与版权挑战-240719-广发证券-38页_第3页
识别风险,发现价值请务必阅读末页的免责声明1/38[Table_Page]深度分析|计算机证券研究报告[Table_Title]计算机行业浅析AI大模型训练数据来源与版权挑战[Table_Summary]核心观点:AI大模型训练数据来源广泛。在算力可获得性提升以及算法同质化趋势下,训练数据成为影响大模型性能的重要因素。区别于传统AI模型,大语言模型通常使用公共文本数据集的混合体作为预训练语料库,而多模态大模型则需要大规模的图片和音视频等多模态数据。这些训练数据的来源广泛,包含公开渠道、企业自研、直接购买与合作交换等。内容持有者对AI厂商态度各异。部分内容持有者针对AI平台提出了各种维权诉求,已有数十起版权诉讼正在进行中。同时,另一部分内容持有者则选择了授权合作道路。版权纠纷实质上是商业利益之争,内容持有者具体选择诉讼还是合作取决于其商业模式、内容独特性和行业结构等因素。作家和艺术家们普遍倾向于抵制AI公司并控诉其侵权行为,而新闻媒体在版权斗争中则难以形成统一阵线。确保训练数据的合法来源对于AIGC发展非常关键。我们在去年的《从Adobe看AIGC如何重塑创意工具行业》报告中提到,训练数据的版权问题是AIGC商业化落地的重要阻碍。因此,只有解决了这一问题,才能在确保合法的前提下,推动生成式AI的商业落地。从2023年下半年开始,AI数据版权诉讼开始进入白热化阶段,而内容合作则于2024年上半年加速,表明过去一年中版权问题已经成为AI领域的焦点,并且相关法律问题正在被逐步揭示与尝试解决。2024年有望成为AI训练数据版权之争的关键年。关于AI训练数据版权诉讼,国内外尚未达成判例,重点案例的判决将对未...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

发表评论取消回复

参与评论可获取积分奖励  
悟空文库+ 关注
实名认证
内容提供者

悟空文库-海量文档资源下载,专业/极致/认真

确认删除?
回到顶部