细思极恐：AI快把人类数据榨干了!--

2023-01-03 13:19 来源：快科技阅读量：9224

AI胃口太大，人类的语料库数据都不够吃。 Epoch团队的一篇新论文显示，AI将在5年内用完所有优质语料库。要知道，这是考虑到人类语言数据的增长速度而预测出来的结果换句话说，即使把人类最近几年来...

AI胃口太大，人类的语料库数据都不够吃。

Epoch团队的一篇新论文显示，AI将在5年内用完所有优质语料库。

要知道，这是考虑到人类语言数据的增长速度而预测出来的结果换句话说，即使把人类最近几年来新写的论文，新编的代码全部喂给AI，也不够

这样发展下去，依靠高质量数据提升水平的大语言模式很快就会遇到瓶颈。

有网友坐不住了:

这太荒谬了人类不需要阅读互联网的所有内容，就可以高效地训练自己

我们需要一个更好的模型，而不是更多的数据。

也有网友调侃。还不如让AI吃它吐的东西:

AI本身生成的文本可以作为低质量的数据喂给AI。

我们来看看，留给人类的数据还有多少。

和文本图像数据库存怎么样。

本文主要预测两种数据:文本和图像。

第一，文字资料。

优质语料是指Pile，PaLM，MassiveText等大型语言模型使用的训练数据集，包括维基百科，新闻，GitHub上的代码，出版的书籍等。

据统计，高质量语言数据的存量仅为4.6×10 ^ 12 ~ 1.7倍左右，10 ^ 13个单词，比当前最大的文本数据集大不到一个数量级。

结合增长率，论文预测2023—2027年优质文本数据将被AI耗尽，节点估计在2026年左右。

看起来有点快，helliphellip

当然也可以加入低质量的文本数据救急据统计，目前文本数据整体存量还剩7倍，10^13~7times，10 ^ 16个字，比最大数据集大1.5~4.5个数量级

如果对数据质量要求不高，那么AI将在2030年到2050年之间耗尽所有的文本数据。

再看看图像数据这里，纸张不区分图像质量

显然，大语言模型比图像模型面临着更大的压力缺失数据情况

那么这个结论是怎么得出的呢。

计算网民日均发帖量。

本文从两个方面分析了文本图像数据生成的效率和训练数据集的增长。

值得注意的是，论文中所有的统计数据都没有标注数据考虑到无监督学习是热点，未标记数据也包括在内

以文本数据为例大部分数据将来自社交平台，博客和论坛

为了估计文本数据产生的速度，需要考虑三个因素，即总人口，互联网普及率和互联网用户产生的平均数据量。

例如，这是根据历史人口数据和互联网用户数量估计的未来人口和互联网用户增长趋势:

结合用户平均产生的数据量，可以计算出数据产生的速率。

按照这种方法计算，语言数据的增长率约为7%，但这个增长率会伴随着时间的推移而逐渐降低。

预计到2100年，我们的语言数据增长率会降低到1%。

用同样的方法分析图像数据，目前的增长率约为8%，但到2100年图像数据的增长率也将放缓至1%左右。

有网友对此调侃，以后可能会有类似科幻故事情节的东西:

为了训练AI，为了启动大规模的文本生成项目，人们都在拼命为AI写作。

他称之为一种人工智能教育，:

我们每年向AI发送14万到260万字的文本数据，听起来比人类在《黑客帝国》中充当电池的时候还酷。

你怎么想呢。

相关信息当大厂的程序员已经开始用AI写代码的时候，人类会被AIGC淘汰吗谁能想到呢人类历史上第一次反抗AI:居然发生在艺术圈ChatGPT遇到智障的时候:爆笑密码神器LastPass官方承认:部分用户隐私数据被黑客窃取进入美颜直播工作室后:NV AI为响应支持悬赏演唱《铃儿响叮当》

支持0个人

反对

报酬

商品价值评分

ICP编号18024899 —2王编号41010502003949

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

精选导读

以产业振兴促乡村振兴砀山迈瑞科技产业园开工仪式举行

4月28日，砀山迈瑞医疗科技产业园开工仪式在安徽省砀山县顺利举行。宿州市委书记杨军，宿州市委常委、常务副市长任东，宿州市政府驻广东办事处主任...

发布时间： 2022-05-09 10:40

产业

江西南昌：服装产业复工忙

5月3日，南昌创隆制衣有限公司的工作人员在车间进行拉布工序。随着江西本轮新冠疫情防控形势逐渐向好，各企业陆续复工复产。作为全国知名针织服装出...

发布时间： 2022-05-09 10:37

产业

从业务全球化到品牌全球化中国品牌“走出去”探索新价值

先进的液晶模组生产线、高频运转的生产设备、智能化的运营操控……今年4月，海信位于印度尼西亚首都雅加达的彩电基地正式投产，这也是中国企业从业务...

发布时间： 2022-05-09 10:34

互联

助力煤炭清洁高效利用我国煤气化制氢技术应用取得新进展

记者从中海石油炼化有限责任公司（以下简称中海炼化）获悉，我国煤气化制氢技术应用取得新进展，截至5月7日，位于广东惠州的我国首套采用E-Gas...

发布时间： 2022-05-09 10:34

互联

全国粮食春播4.92亿亩进度过半

目前，粮食主产区正趁着天气晴好，争抢播种。全国春播粮食4.92亿亩，完成预定面积一半以上，进度快于去年同期。近两天，东北春播加快，日播种量超...

发布时间： 2022-05-07 10:23

天舟四号货运飞船和长征七号运载火箭已转场，感觉良好、整装待发

据中国航天科技集团官方消息，运载此次发射的长征七号五运载火箭与天舟四号货运飞船组合体，今天上午从总装测试厂房垂直转运至发射区，将于近期发射。...

发布时间： 2022-05-07 10:13

细思极恐：AI快把人类数据榨干了!--

精选导读

以产业振兴促乡村振兴砀山迈瑞科技产业园开工仪式举行

江西南昌：服装产业复工忙

从业务全球化到品牌全球化中国品牌“走出去”探索新价值

助力煤炭清洁高效利用我国煤气化制氢技术应用取得新进展

全国粮食春播4.92亿亩进度过半

天舟四号货运飞船和长征七号运载火箭已转场，感觉良好、整装待发

每日热点

热门TAG

最新内容

头条推荐

细思极恐：AI快把人类数据榨干了!--

精选 导读

以产业振兴促乡村振兴 砀山迈瑞科技产业园开工仪式举行

江西南昌：服装产业复工忙

从业务全球化到品牌全球化 中国品牌“走出去”探索新价值

助力煤炭清洁高效利用 我国煤气化制氢技术应用取得新进展

全国粮食春播4.92亿亩进度过半

天舟四号货运飞船和长征七号运载火箭已转场，感觉良好、整装待发

每日热点

热门TAG

最新内容

头条推荐

精选导读

以产业振兴促乡村振兴砀山迈瑞科技产业园开工仪式举行

从业务全球化到品牌全球化中国品牌“走出去”探索新价值

助力煤炭清洁高效利用我国煤气化制氢技术应用取得新进展