首页 资讯内容详情

采集成人网站内容,诱导付费,这样的网站才该被封!

2020-04-07 1098 C站cilicili

昨天我们聊了,。看完评论,大部分人的看法是:要不是你正版平台吃吃相太难看,我也不会想方设法去找资源。

作为普通用户从而开始怀念甚至原谅盗版网站, 这肯定是不对的 !假如我们都看盗版,那么像《庆余年》这样高质量的影视作品将会越来越少。
支持正版杜绝盗版,这个是我们每一个普通用户该有的认知,但视频网站也别把用户当韭菜!
但,今天我们要聊的是下面这样的网站,要坚决打击!
事情的经过是这样的,某天下午我正在努力工(mo)作(yu) 中,某个qq 群里有人分享的聊天记录迅速引起了我的兴趣:
这让我想起了之前的“原谅宝”事件,可能还有些吃瓜群众不知道 “原谅宝事件”的始末。
PS: 这个项目并没有真正的命名为原谅宝,只是被很多媒体宣传成原谅宝。
2018 年 8 月,一位定居德国的程序员 @将记忆深埋 发布了一条消息,他表示准备将各大成人网站的视频及图片打 tags(标记) 后去做匹配, 为码农朋友们做一个过滤。

今年 5 月 27 日,该博主在微博公布的项目的最新进展,不仅采集了 成人网站内容 ,还采集了 社交媒体的内容 ,在全球范围内成功识别了 10 多万从事不可描述行业的小姐姐,总共 100TB 的数据。

此消息一出,又有一堆营销号大肆宣传,该号的粉丝数暴涨,但是随之而来的有 两种声音
一种是支持博主开发的,另外一种则是责备和谩骂
而后者的声音明显更大。
最后,在 5 月 31 日,开发者取消了直播采访的计划,并表示自己会 删除整个项目和数据库 ,同时也表示道歉。
当然,这都是过去式了,再回到咱们这次的话题。
它大概长成这样(下图):网站介绍“利用人工智能和大数据进行全网 人脸搜索 (尤其是成人网站)  ……。”  
这不就是“原谅宝”吗?  而且它还有一个几乎一模一样的英文网站 。
我抱着试一试的心态上传了一张图片,然后发现 ……    要付费!  价格还不便宜 !

普通查询 28.88 元,但效果较差,而要看到成人网站查询结果,需要  58.88 元一次的高级查询 。但是,你只需要一次性充值 198.88 元就可以获得永久高级查询。
198,你去不了新加坡,到不了加拿大,198,你买不到三星,换不了苹果。 但是,现在只要 198 你就可以深入了解身边那个 ta 的全部黑历史。 心动不如行动 …… 
咳咳 …… 就在我差点付费的时候,还好我及时发现,我根本没有女朋友。

在我冷静下来以后发现这个套路好像有点问题。
提前给你一个模糊搜索的结果,然后就诱导你去付费,在好奇心的驱使下付费查询。 而且由于查询问题的敏感,很多人发现被骗了之后也不好意思声张 这跟之前查开房记录查询的 APP 很像。 当然,这些软件都是骗人的 … 
为了进一步验证,我借助该网站的 ICP 备案号顺利的查到了运营公司。
没想到竟然就在湖南 …… 
随后再利用天眼查看一下这个公司: 该公司注册资本 500w, 成立时间 8 月 21 日 ,但是经营状态已经是注销(注销表示这个公司没了)。然后在股权穿透之后发现,该公司的股东只有一个。
就在我准备进一步了解的时候,得到了天眼查的善意提醒:
算了,算了 …… 因为事情已经基本搞清楚了。
8 月份到现在,一年三个月时间,这家注册资本 500w 的公司就直接注销了?  难不成是开着玩的?
有钱人的生活难道就是这么朴实无华,且枯燥 …… 
至此我们基本可以确定,这个公司是有问题的。 当然,后面我会技术据的方面来分析一下。
虽然该事件的开发者已经“删库跑路”了,但是对于这个事的讨论却并没有终结。 对于这件事,或者类似的事件,我们可以从两方面来看。
第一,从技术的角度来看,这个项目靠谱吗?
第二,从道德的角度来看,这个软件合适吗?
首先,从技术的角度来看, 这个 软件就不靠谱。
why?

首先我们要知道这个项目的原理,就是 利用机器学习来对比 ,上传的“人”和视频中的“人‘是不是同一个?那具体的过程是怎么学习呢?
举个简单的例子,给机器 2 张猫咪的图片,让机器来对比是不是同一只?  
等机器输出结果后,再告诉机器是否正确,而机器也会依照这次结果与正确答案的误差,来调整下一次对比的逻辑。 这就是机器学习的本质。
而这里最重要的一点是, 训练者(开发人员)必须知道正确答案 ,才能把正确答案告诉机器。
目前比较常规的做法是什么呢?
一般都是 雇佣很多外包人员 ,让真正的人来给图片、视频打上 tags(标记),然后把答案输出给机器对比,这个过程的成本很高。但是效果比较好,因此是目前的主流做法。
而这个“原谅宝”,他背后既没有大公司,也不是大土豪。 那么哪来的资源做大量的样本训练? 仅仅通过个人的技术 ?
其次,开发者最后提到自己删除了 100TB 的数据,这个 100TB 也很有问题。  (1TB = 1024GB,1PB = 1024TB)
第一,100TB 的数据处理和筛选 对于个人来说是比较大 的了,不是一个程序员能够处理的,而且存储的费用也不便宜呀! 
第二,这几个成人网站和社交网站, 哪一家的数据不是用 PB 做单位 !?无论是 P 站,还是 Facebook 。开发者爬取了这么多网站的数据居然才 100TB,这有点太魔幻现实了。

所以,这个项目的起点就有问题。不仅没有足够的样本的来训练,而且训练的内容,他也没有答案。 机器学习根本无从谈起。
更何况,这些网站的视频/图片质量层次不齐, 素材的精准度完全没有保障
比如拍照的时候,哪怕是光线有一点变化,照片区别都很大。 所以同一个人,拍出来的照片也是千姿百态。 而这个误差从图片到视频,会成百上千的增大。
所以说,从技术的角度来看, “原谅宝”根本就没办法正常的操作 ,更不要说什么精确的搜索结果了。
其次,从道德角度来看”原谅宝“的问题,网上的讨论基本围绕两个方面:
1、侵犯他人隐私权;
2、对当事人的二次伤害。
开发者在当时也表示,该系统需要通过 eID(公民网络电子身份标识)实名认证后注册登录,不经过本人同意是无法查询的。尽管开发者一再强调,自愿和实名制。不过在我看来,这就是 赤果果的网络暴力。
这里最大的一个问题就是,我们无法通过一段视频或者一张图片,来还原整个事情的来龙去脉。
或许你通过这个程序,看到某个女生/男生的一段视频,但是你无法知道这段视频上传的背景,也就是说,你不知道这段视频是怎么来?  
这个视频可能是自愿拍摄,也可以是被 偷拍 的(某一方或者不正规酒店),甚至是有些不法分子 窃取 的。
有时候,哪怕这个视频是真的,也无法判断视频的主角就是坏人,因为拍摄的背景和上传的原因我们都是未知的。
在这种背景下,什么实名制、自愿与否真的有意义吗?
这些视频本身就是对一些人的伤害,就是对他们的隐私侵犯。

最后,我想说科技在不断的进步,但是有人用它做好事,有人却总想着用它干坏事。
今天,每一次使用手机刷微博、淘宝、点外卖、叫车,都会在互联网上留下一个记录,而这些记录又会被其他的技术引用。
有的人以此来给我们提供更好的服务,有的人利用他们来诱导消费,甚至是用来诈骗。
这时候我们还能相信科技吗?
久而久之,必然会造成大家对科技的恐慌。 而最可怕,某些大厂也利用这套规则,悄咪咪的把手伸进你的口袋。
现在,我们比以往任何时间的都需要 “科技向善”
科技本身是中立的,但是那些使用他的人呢?也许,技术的发展能够解决一些问题,但是技术永远也解决不了背后的现实问题。世界是复杂的,世界上的人更复杂。
我想用一句老梗来结尾, 请少一些套路,多一些真诚