quanttide / quanttide-research-of-data-economics

QuantTide Research of Data Economics
https://quanttide.github.io/quanttide-research-of-data-economics/
0 stars 0 forks source link

[Proposals] Data as Factor of Production #1

Open Guo-Zhang opened 3 months ago

Guo-Zhang commented 3 months ago

Discussed by @Guo-Zhang and Prof Fan

数据的经济学价值是什么?

  1. 数据本身不产生价值,产生价值的是使用数据分析出(经济学意义的)“信息”。比如商家通过浏览数据了解消费者的偏好分布,企业通过生产过程中的数据了解机器和劳动力的效率……
  2. 数据商品的交付形式通常是数据集、数据产品/数据应用、数据服务等。参考上海数据交易所的定义。
  3. 数据商品和数据的关系,相当于机器和钢铁的关系。因为商品有价值,才会产生原料市场。数据需要找到其中蕴含信息的应用场景,才能产生价值。
  4. 不同的数据是不可以横向比较的,因为蕴涵的信息是不一样的。不可以把所有数据统一归类为一个市场。一个可能的方式是,针对某些特定细化目的,看数据收集的数量,比如道路信息、消费者偏好信息等。
  5. 数据蕴涵的信息会过时,所以数据也会“折旧”。
  6. 数据理论上可以无限次使用,但是因为信息产生价值是有上限的,再使用产生的价值将边际递减,或使用的成本将不断提高,最终数据产生的总价值将收敛。例如经济学论文使用的数据集,最开始能发表在好期刊,但是随着可做的话题越来越少,产生的价值也将下降。

如何研究数据要素?

  1. 基本模型中需要蕴涵“信息”对经济体的影响,而很多宏观模型假设的是完全信息,这样很可能算出来的要素生产率是0。用各类信息的功能定义数据在生产函数中的位置。
  2. 像定义“劳动力”、“资本”一样单独定义“数据”,很大程度上是旧瓶装新酒,不需要把数据想像地那么玄乎。
  3. 数据定价 -> 数据资产定价 -> 数据要素市场
fanzc10 commented 3 months ago

数据定价市场的参与者及其决策约束是什么?

数据供应方

  1. 成本:投入人力(程序员)、有形(设备)和无形(比如chatgpt使用费)资本,这些投入要素一般有市场价,加总的生产成本就是企业定价的底线。这样的底线因为程序员的能力不是common knowledge,所以属于供应方的私人信息。如果可以打信息差,就有溢价的机会。这样的思考和传统生产理论相通,加上了数据产品的新特征。
  2. 定价策略:价格歧视,利用传统价格歧视的机制尽可能抬高价格。
  3. 竞争者:数据的产品差异化足够强,所以垄断或垄断竞争是常态,应该不存在一个类似完全竞争的市场。

数据需求方

  1. 效用:数据实现的价值,见对数据的经济学价值的探讨。
  2. 约束:预算及其来源,比如是科研经费、创业资金等。
fanzc10 commented 3 months ago

数据要素的边际递减机制: 数据用来提供信息,并根据模拟出的分布对经济活动做预测。给定一切不变:

  1. 如果预测准确率已经达到较高的门槛,例如99%,那么额外的数据至多增加1%的准确度。
  2. 准确度对用户(企业、消费者)的价值并非线性,可能类似俄罗斯轮盘的道理,不同经济活动的准确度—价值曲线差异很大。如果准确度对收益开始边际递减,数据的价值也随之边际递减。
  3. 真实世界一切都在变化,当经济环境出现变化,曾经使用的数据将失效,也就是产生折旧,需要新数据继续去预测新分布,规模报酬就不递减了。这类似于给定技术不变,资本边际报仇递减,但技术一直提升,资本的边际报酬就可能随之提升。

AI的一个作用: 数据到信息需要处理技术,比如机器学习等等,要想得到精确的信息就需要更多的数据,还需要整合。AI可以大大提升从数据到信息的效率,大模型的小样本学习能力可以减少同等信息准确度所需的数据量,就可归类于数据处理的技术进步。

xiezipeng05 commented 2 months ago

梳理数据定价Proposal

数据的特性

公共物品

数据是 capital(资本),但是是club goods(公共物品),即可以私有化,但是可以无限使用。

折旧

数据有价值的是信息,根据信息论,信息是有时效的,所以数据的边际效用会递减,但比一般的 private goods 来说,“折旧率” 要低很多。

规模效应

同类数据具有规模效应

数据的归属

一个 app 收集了很多用户数据,这个 app 可以自己用来生产利润,也可以卖给别的公司,但是如果法律上我们规定这些数据属于用户本人呢?i.e. 你在抖音上看过的每个视频的记录,属于你自己,你可以卖给抖音,但是抖音无权使用呢?

目前思路

把原本没有精确衡量的关于数据的那一部分从现有的模型里拆出来,这些可能是已经被cover过,但是不排除有没有被计量到的,在新的模型中会发现。 由于数据具有折旧性,则考虑用折旧性来定价,由此即进入了经济学模型。