当前位置:首页 > SEO知识 > 正文内容

你的网站内容被用于AI训练了吗?你愿意吗?

admin3年前 (2023-02-24)SEO知识299

最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。

说实话,过去20多年来,我一直没觉得SEO技术有什么根本变化。

虽然搜索引擎们每天更新算法,SEO们探索各种技巧,新名词层出不穷,这个战法,那个黑科技……

其实呢,真没什么变化,无非是:创作好的内容,让蜘蛛能抓到,让用户能正常访问,然后,就没了。

自从ChatGPT出现以后,我第一次感觉可能要有变化了。

我从来没有像现在这样觉得,SEO可能会有不同的做法了。

所以,现在能引起写帖子冲动的只有AI了。

上篇讨论AI是否会消灭SEO的帖子里提到过,Google测试中的生成式AI没有给出内容出处,也就不会给其他网站带来流量,那么站长们还不得抗议?

还能让Google蜘蛛来抓网站内容?我辛辛苦苦创作内容,让蜘蛛免费来抓,训练出AI,回答用户问题时没有链接,没有出处,不会给网站带来任何好处,我图什么呀?

如果有那么一天,我反正直接禁止Google蜘蛛来抓了。

那么,现在你的网站内容已经被用于AI训练了吗?

这个不太容易确切知道,因为生成式AI的回答不是伪原创,不是拼接,是在学习大量数据后AI自己写的原创。

Bing还好,会标出部分出处,被标的网站显然被用于训练了。Google有没有用呢?

前两天华盛顿邮报发了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之类AI看起来挺聪明的网站们“。

文章内嵌了一个小功能,可以查某个网站是否被Google用于AI训练,以及用的比例。

AI们训练的数据是海量的,来源也挺多,出版的书籍,各种数据库,wiki,普通网站肯定也是其中一部分。

C4是Google训练AI使用的一个网站数据集,里面有一千五百万个网站。

华盛顿邮报分析了每个网站出现的token次数,token越多,大致上被用于训练的数据越多。

token我不确定该怎么翻译,“字符串”反正指的是一小段文字,比如一个词或一个短语。

C4不是Google用于AI训练的所有网站,所以里面没有的网站,不一定就没被用于训练。

比如查一下zhihu.com,居然一个token都没有,这不科学,我无法相信知乎的内容没有被用于训练。

已经有人用这个小工具统计出被Google用于训练的token数和占比,Google专利第一,wikipedia第二,scribd第三:

已经有人用这个小工具统计出被Google用于训练的token数和占比,Google专利第一,wikipedia第二,scribd第三.png

出于好奇和虚荣心,肯定要查一下自己博客:

出于好奇和虚荣心,肯定要查一下自己博客.png

被用了,280个token。

好吧,我也不知道是该高兴还是难过。

有点欣慰是肯定的,毕竟,连联合早报都只有19个token:

有点欣慰是肯定的,毕竟,连联合早报都只有19个token.png

但短暂的虚荣得到满足之后,接下来就会想,我真的愿意我的内容被Google用于AI训练吗 – 在得不到任何好处的情况下?

各位可以查一下自己的网站有没有被用?用了的话,你心甘情愿吗?

扫描二维码推送至手机访问。

版权声明:本文由老苏SEO转载并发布,如侵权可联系删除。

本文链接:https://www.laosuseo.com/?id=10432

分享给朋友:

“你的网站内容被用于AI训练了吗?你愿意吗?” 的相关文章

SEO站内优化需要关注什么,如何做好?

SEO站内优化需要关注什么,如何做好?

网站建设离不开SEO优化,SEO优化就是在了解搜索引擎自然排名机制的基础上,对网站进行内外部的整体优化,从而提升网站在搜索引擎中的自然排名,达到网络营销的目的。我们知道了SEO优化分为站外优化和站内优化,其中站外优化也就是做外链的发布和管理,那么SEO站内优化需要做什么,哪些方面是需要关注的呢?这篇...

新手如何自学谷歌SEO

新手如何自学谷歌SEO

题主问题描述:目前主要是做shopify站内运营,但平时比较少接触到SEO,所以想自学,看平时能不能用得上。解答:首先抛结论,题主目前主要在做Shopify,那领域应该就是外贸或者相关了,谷歌seo对外贸和一些出海的业务肯定是有价值的,自然也用得上。况且多掌握一个技能也不是坏事。如何自学谷歌seo这...

百度搜索算法规范讲解

百度搜索算法规范讲解

百度最新线上公开课讲解搜索算法规范:从页面内容质量、用户需求满足、浏览体验友好这三个纬度调整。1、内容质量 第一点:内容质量会引用飓风算法3.0打击站群问题、恶劣采集等问题; 第二点:内容质量会引用细雨算法2.0打击软文信息页面出现空短、商品信息有误、穿插收益信息等问题;&nbs...

自学SEO和付费学SEO的区别?

自学SEO和付费学SEO的区别?

自学SEO和付费学SEO是两种不同的学习方式,它们有以下几个方面的区别: 1、时间成本: 自学SEO意味着你将付出更高的时间成本。付费学SEO则通常能在较短的时间内掌握SEO技巧,具体时间取决于学习者的基础和学习能力。 2、纠错成本:...

网站流量变现模式(8种通过网站流量挣钱的方法)

网站流量变现模式(8种通过网站流量挣钱的方法)

大家好,前几天给大家分享了做副业项目赚钱的工具,今天给大家介绍做网站赚钱的招数,学会做网站赚钱的路子也是非常多样的,并非只有挂广告单一的赚钱途径,做不同类型的网站也有不同的赚钱模式。做一个网站并不需要投入太多金钱成本,但需要投入更多的时间、精力把它运营起来。我们建立一个网站,首先需要明确自己的网站定...

沙盒期大概时间多久

沙盒期大概时间多久

1、什么是网站沙盒期?沙盒期大概时间多久seo中的沙盒是指一个新站建立后搜索引擎会对其进行一个类似资格评价的阶段,我们将这个阶段称为沙盒,在沙盒里面的这段时间,我们将其称为沙盒期,沙盒期一般都是2-6个月。在沙盒期这段时间内,我们仍需要经常更新文章,不过不应该过多的改网站结构,修改文章标题,在此期间...