FirstBatch研报:数据采集——质量、版权与所有权

欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

来源:PermaDAO

FirstBatch 是 Dria 的母公司。Dria 是一个存储在 Arweave 上的开源知识聚合平台,旨在建立人类与机器之间的知识交流,被 FirstBatch 称为 “AI 版的维基百科”。最近 FirstBatch 开启了一个研究去中心化 AI 的研报系列,聚焦数据聚合问题与去中心化的结合点。这篇报道中我们将导读第一篇研报《数据采集:质量、版权与所有权》的内容,我们会关注去中心化是如何为数据采集问题提供解决方案的,以及去中心化方案存在的风险和挑战。

去中心化如何解决数据采集中遇到的问题

目前的 AI 团队和开发者在数据采集中会遇到的问题:

1. 无法收集足量的数据

2. 无法收集到优质的数据

3. 存储问题

4. 隐私控制

5. 版权问题

我们将逐一来看去中心化是如何为这些问题提供解决方案的。

收集数据量方面,Meta 的首席 AI 科学家指出,尽管现在 LLM 有非常大的进展,用于训练 AI 模型的数据仍然比不上一个 4 岁小孩获取到的信息量。目前,数据的类型和来源局限于文字和某些垂直领域。FirstBatch 畅想的是可以通过社交或者经济激励来鼓励团队或者个人来做数据的审编和筛选的工作,这样可以将大大提高引入新的数据种类的速度,也可以增加多种数据源。

现在,AI 开发者们面临的挑战是无法收集到优质数据以及很难检测收集到的数据的质量,因为数据源中有很多重复和过时的数据,并且当下自动检测的方式降低了数据的准确性和质量。FirstBatch 从开放数据平台如 Hugging Face、Kaggle 和维基百科提高数据质量的经验中得到灵感,FirstBatch 提出了可以建立去中心化开放数据中心,让所有的人都可以参与数据的筛选、审核和评价过程。这样做既可以减轻专门保证数据集质量的小团队的处理压力,也可以防止数据被单一组织操纵或干预。如果实行合适的激励机制,这些去中心化的数据开放中心和社区化数据审核流程可以在高速和大量数据流入时,确保数据的质量。目前 FirstBatch 旗下的产品 Dria 正在构建这样的去中心化全球知识中心。

存储上 AI 项目遇到的问题是成本和维护问题。面临不断增长的数据量,和随之而来的订阅费用的上涨,这些使用者也想过提前购买更大的空间来获取折扣,但这样在经济和技术角度上同样是种浪费。FirstBatch 选择将数据存储在可以永久存储数据的 Arweave 上,这样可以免受数据丢失的风险。不仅如此,还可以在上面创建共享数据池来让大家存储不同的数据,这样不同的数据就可以存储在同一个地方,解决了在不同的地方存储相同数据,造成空间浪费和存储费用浪费的问题。

数据中会存在一些识别个人身份的数据,这些数据具有隐私性,将这些数据的筛查公开给协作平台让成千上万人审查会违背一些隐私条例。FirstBatch 提出可以在这些隐私数据进入公开的数据筛选平台之前,利用零知识证明或者 DID 的技术,让未来的线上活动数据都可以在隐私保护的模式下进行。

许多在线平台和媒体机构对 AI 公司使用受版权保护的材料提出质疑,称 AI 模型的训练和使用对原始内容造成侵权。NFT 由于链上行为的透明性和不可更改性,使创意/知识产权材料的所有权非常清晰和透明。这些代币可以用于验证和识别哪些材料受到何种类型的程序的约束,从而使数据清理过程和应对诉讼更加容易。

去中心化方案的风险和挑战

去中心化方案虽好,但仍然存在的问题是用户的匿名性带来的风险。例如,当涉及到版权或有害内容的相关法规问题时,匿名的违法行为可能会引发更大的问题,将平台置于风险之中。将数据永久存储在去中心化网络上的情况下,上传的数据中可能依旧包含有害内容,即使有大众的数据审查,仍然避免不了漏网之鱼。

目前存在的一大挑战是如何分配数据量和质量激励的权重。因为无论平台如何架构,总会有人上传更多质量较低的数据或质量较高但数量较少的数据。

总结

随着去中心化 AI 数据采集平台的进一步发展,将会有更多机会促进更好的协调范式,以实现更顺畅的数据收集流程。我们也期待 FirstBatch 的 Dria 能带来更多有关于提高数据的数量和质量方面的好消息。

风险提示:根据央行等部门发布“关于进一步防范和处置虚拟货币交易炒作风险的通知”,本网站内容仅用于信息分享,不对任何经营与投资行为进行推广与背书,请读者严格遵守所在地区法律法规,不参与任何非法金融行为。本文收集整理自网络,不代表经典网立场,如若转载,请注明出处:https://www.jingdian230.com/jinse/169567.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布,本平台仅提供信息存储服务。

Special statement: The above contents (including pictures or videos, if any) are uploaded and released by users of the we-media platform. This platform only provides information storage services.

(0)
欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

相关推荐

  • 穗部分银行首套房贷利率上浮10%

    进入年末,各家银行全年的贷款任务也基本进入“收官”阶段,随着额度慢慢耗尽,近期不少银行开始收紧首套房贷利率,北京、上海、广州等一线城市纷纷传出首套房贷“紧俏”消息,不少银行不但没有…

    金色财经 2023年 9月 19日
    155
  • Arbitrum的时机:把握历史机遇 有可能成为L2的王者

    原文标题:《Arbitrum 的时机》 原文作者:蓝狐笔记 有不少小伙伴们都说 Arbitrum 一直利用空投预期来吸引更多用户是很聪明的做法。从战术层面或许这样解读是可以的,看上…

    2023年 2月 24日
    210
  • 金融脱媒图景:十年后债券融资比肩贷款

    在政府将小型煤矿运营商收归国有时,王平彦面临着失去自己公司的危险,于是他开始通过大举收购扩大规模。   据前员工和其他了解王平彦公司的人士说,这位农民出身的企业家发现,为…

    金色财经 2023年 10月 19日
    126
  • 欧易OKX

    欧易OKX

                   

    欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

               官网注册
  • 2024年10个最值得关注的 DePIN 项目

    作者:Spheron Staff 来源:medium 翻译:善欧巴,金色财经 DePIN 是去中心化物理基础设施网络的缩写,是不断发展的 Web3 世界中的游戏规则改变者。它也称为…

    2024年 2月 22日
    56
  • 汽车消费贷款利率大幅上浮 贷款买车受影响

    在央行再度加息、持续调高存款准备金率的情况下,为应对紧张的信贷额度,国内部分银行提高了车贷利率。今年以来,在国家取消小排量车购税优惠、汽车下乡补贴等优惠政策、部分地区实行限购等情况…

    金色财经 2023年 6月 13日
    119
  • 一万块一年利息多少?利率高的存款就好吗?

    存款是许多投资者理财的常用方式,既可以保值增值,又可以应对突发情况。那么一万块一年利息多少?利率高的存款就好吗?希财君也为大家准备了相关内容,以供参考。 一万块一年利息多少? 一万…

    2023年 6月 9日
    110
  • 南京6银行首套房贷利率仍8.5折

    据调查南京市场发现,包括两家大行在内,南京仍有6家银行对首套房给予8.5折利率优惠,不过,只有合作楼盘的优质客户才能享受这一优惠。目前南京还未见首套房贷利率上浮。    …

    金色财经 2023年 8月 24日
    110
  • 沈阳:首套房贷多执行基准利率

    导读:沈阳:首套房贷多执行基准利率,沈阳房贷利率最新消息,首套房贷利率,房贷提前还款利息怎么算,银行房贷利率,房贷利率重新定价,房贷利率变化,二套房贷款利率,房贷基准利率,房贷,沈…

    金色财经 2023年 9月 7日
    153
  • 网贷井喷监管空白 委员建言加快互联网金融立法

    自由撰稿人李海(化名)最近迷上了一款新的“投资利器”——网络借贷平台。屏幕上,借款列表不断更新,借款标的一放出来,各位放款者就很快“瓜分”掉。“手里有十几万元闲钱,就是找不到好的地…

    金色财经 2024年 1月 1日
    121
  • 以太坊的不可能四角:MEV规模化增长的新十年

    作者:Jiawei, IOSG Ventures 本文为IOSG原创内容,仅做行业学习交流之用,不构成任何投资参考。如需引用,请注明来源,转载请联系IOSG团队获取授权及转载须知。…

    2023年 2月 7日
    278