资讯

九游会欧洲杯每种家具齐有一个页面-九游下载中心_九游游戏中心官网

发布日期:2025-02-27 07:21    点击次数:120

九游会欧洲杯每种家具齐有一个页面-九游下载中心_九游游戏中心官网

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

万万没思到,能把一家公司网站给搞宕机的元凶,果然是OpenAI纵脱爬虫的机器东说念主——GPTBot。

(GPTBot是OpenAI早年前推出的一款用具,用来自动合手取通盘互联网的数据。)

就在这两天,一家7东说念主团队公司(Triplegangers)的网站倏得宕机,CEO和职工们赶忙排查问题到底出在的那里。

不查不知说念,一查吓一跳。

罪魁首恶恰是OpenAI的GPTBot。

从CEO的形态中来看,OpenAI爬虫的“攻势”是有点纵脱在身上的:

咱们有跳动65000种家具,每种家具齐有一个页面,然后每个页面还齐有至少三张图片。

OpenAI正在发送多如牛毛的工作器申请,试图下载扫数内容,包括数十万张相片过甚精通形态。

在分析了公司上周的日记之后,团队进一步发现,OpenAI使用了不啻600个IP地址合手取数据。

△Triplegangers工作器日记:OpenAI机器东说念主未经许可纵脱爬虫

如斯畛域的爬虫,就导致这家公司网站的宕机,CEO致使无奈地暗示:

这基本上即是一场DDoS攻击。

更遑急的少量是,由于OpenAI纵脱地爬虫,还会激发了盛大的CPU使用和数据下载行动,从而导致网站在云算计工作(AWS)方面的资源消耗剧增,支拨就会大幅增长……

嗯,AI大公司纵脱爬虫,却由小公司来买单。

这家微型团队的碰到,亦然激发了不少网友们的估量,有东说念主觉得GPTBot的作念法并不是合手取,更像是“偷窃”的委婉说法:

也有网友现身暗示有同样的阅历,自从报复了大公司的批量AI爬虫,省了一大笔钱:

被爬虫到宕机,还不知说念被爬走了什么

那么OpenAI为什么要爬虫这家初创企业的数据?

绵薄来说,它家的数据如实属于高质地的那种。

据了解,Triplegangers的7名成员消耗了十多年的期间,打造了堪称最大“东说念主类数字孪生”数据库

网站包含从骨子东说念主类模子扫描的3D图像文献,况兼相片还带有精通的标签,涵盖种族、年岁、纹身与疤痕、各式体型等信息。

这关于需要数字化再现委果东说念主类特征的3D艺术家、游戏制作家等,无疑具有遑急价值。

固然Triplegangers网站上有一个工作要求页面,内部明确写了退却未经许可的AI合手取他们家的图片。

但从当前的后果上来看,这十足莫得起到任何作用。

要点在于,Triplegangers莫得正确建树一个文献——robots.txt。

robots.txt也称为机器东说念主遗弃条约,是为了告诉搜索引擎网站在索引采集时不要爬取哪些内容而创建的。

也即是说,一个网站若是不思被OpenAI爬虫,那就必须正确建树robots.txt文献,并带有特定标签,明确告诉GPTBot不要拜谒该网站。

但OpenAI除了GPTBot除外,还有ChatGPT-User和OAI-SearchBot,它俩也有各自对应的标签:

而且把柄OpenAI官方发布的爬虫信息来看,即便你立即正确树立了robots.txt文献,也不会立即奏凯。

因为OpenAI识别更新这个文献可能需要24个小时……

CEO老哥对此暗示:

如果一个网站莫得正确建树robots.txt文献,那么OpenAI和其它公司会觉得他们不错掌握自由地合手取内容。

这不是一个可选的系统。

正因如斯,也就有了Triplegangers在责任期间段网站被搞宕机,还搭上了高额的AWS用度。

规章好意思东期间的本周三,Triplegangers一经按照要求建树了正确的robots.txt文献。

以防万一,团队还树立了一个Cloudflare账户来报复其它的AI爬虫,如Barkrowler和Bytespider。

固然到了周四开工的时候,Triplegangers莫得再出现宕机的情况,但CEO老哥还有个悬而未决的困惑——

不知说念OpenAI齐从网站中爬了些什么数据,也关系不上OpenAI……

而且令CEO老哥愈加深表担忧的少量是:

如果不是GPTBot“贪念”到让咱们的网站宕机,咱们可能不知说念它一直在爬取咱们的数据。

这个历程是有bug的,即便你们AI大公司说了不错建树robots.txt来防护爬虫,但你们把职守推到了咱们身上。

终末,CEO老哥也命令宽绰在线企业,要思防护大公司未经允许爬虫,一定要主动、积极地去查找问题。

并不是第一例

但Triplegangers并不是第一个因为OpenAI纵脱爬虫导致宕机的公司。

在此之前,还有Game UI Database这家公司。

它收录了超56000张游戏用户界面截图的在线数据库,用于供游戏盘算师参考。

有一天,团队发现网站加载速率变慢,页面加载期间延迟三倍,用户赓续碰到502颠倒,首页每秒被再行加载200次。

他们一运转也以为是遭到了DDoS攻击,后果一查日记……是OpenAI,每秒查询2次,导致网站确切瘫痪。

但你以为如斯纵脱爬虫的独一OpenAI吗?

非也,非也。

举例Anthropic此前也被曝出来过同样的事情。

数字家具责任室Planetary的首创东说念主Joshua Gross曾暗示过,他们给客户再行盘算的网站上线后,流量激增,导致客户云资本翻倍。

经审计发现,盛大流量来自合手取机器东说念主,主若是Anthropic导致的无道理流量,盛大申请齐复返404颠倒。

针对这一风物,来自数字告白公司DoubleVerify的一份新接洽清楚,AI爬虫在2024 年导致“一般无效流量”(不是来自委果用户的流量)增多了86%。

那么AI公司,尤其是大模子公司,为什么要如斯纵脱地“吸食”采集上的数据?

一言蔽之,即是他们太缺用来磨砺的高质地数据了。

有接洽猜度过,到2032年大家可用的AI磨砺数据可能就会耗尽,这就让AI公司加速了数据采集的速率。

也正因如斯,OpenAI谷歌等AI公司为了得到更多“独家”视频用于AI磨砺,当今也正纷纷向UP主们重金求购那些“从未公开”的视频。

而且连价钱齐标好了,如果是为YouTube、Instagram和TikTok准备的未发布视频, 每分钟出价为1~2好意思元(总体一般是1~4好意思元),且把柄视频质地和要领的不同,价钱还能再涨涨。

那么你对这一风物有什么主见呢?接待在探讨区留言估量~

参考筹商:

[1]https://techcrunch.com/2025/01/10/how-openais-bot-crushed-this-seven-person-companys-web-site-like-a-ddos-attack/[2]https://www.reddit.com/r/webscraping/comments/1bapx0j/how_did_openai_scrap_the_entire_internet_for/[3]https://www.marktechpost.com/2023/08/10/openai-introduces-gptbot-a-web-crawler-designed-to-scrape-data-from-the-entire-internet-automatically/[4]https://platform.openai.com/docs/bots/overview-of-openai-crawlers[5]https://www.businessinsider.com/openai-anthropic-ai-bots-havoc-raise-cloud-costs-websites-2024-9

— 完 —

量子位 QbitAI · 头条号签约

矜恤咱们九游会欧洲杯,第一期间获知前沿科技动态



上一篇:九游下载中心_九游游戏中心官网该校一直坚执政事立校、质料强校、文化兴校-九游下载中心_九游游戏中心官网
下一篇:九游下载中心_九游游戏中心官网   适度1月13日20时-九游下载中心_九游游戏中心官网