采集成人网站内容，诱导付费，这样的网站才该被封！

2020-04-07 1098 C站cilicili

昨天我们聊了，。看完评论，大部分人的看法是：要不是你正版平台吃吃相太难看，我也不会想方设法去找资源。

作为普通用户从而开始怀念甚至原谅盗版网站， 这肯定是不对的 ！假如我们都看盗版，那么像《庆余年》这样高质量的影视作品将会越来越少。

支持正版杜绝盗版，这个是我们每一个普通用户该有的认知，但视频网站也别把用户当韭菜！

但，今天我们要聊的是下面这样的网站，要坚决打击！

事情的经过是这样的，某天下午我正在努力工（mo）作（yu）中，某个qq 群里有人分享的聊天记录迅速引起了我的兴趣：

这让我想起了之前的“原谅宝”事件，可能还有些吃瓜群众不知道 “原谅宝事件”的始末。

PS：这个项目并没有真正的命名为原谅宝，只是被很多媒体宣传成原谅宝。

2018 年 8 月，一位定居德国的程序员 @将记忆深埋发布了一条消息，他表示准备将各大成人网站的视频及图片打 tags（标记）后去做匹配，为码农朋友们做一个过滤。

今年 5 月 27 日，该博主在微博公布的项目的最新进展，不仅采集了 成人网站内容 ，还采集了 社交媒体的内容 ，在全球范围内成功识别了 10 多万从事不可描述行业的小姐姐，总共 100TB 的数据。

此消息一出，又有一堆营销号大肆宣传，该号的粉丝数暴涨，但是随之而来的有 两种声音 。

一种是支持博主开发的，另外一种则是责备和谩骂。

而后者的声音明显更大。

最后，在 5 月 31 日，开发者取消了直播采访的计划，并表示自己会 删除整个项目和数据库 ，同时也表示道歉。

当然，这都是过去式了，再回到咱们这次的话题。

它大概长成这样（下图）：网站介绍“利用人工智能和大数据进行全网 人脸搜索 (尤其是成人网站) ……。”

这不就是“原谅宝”吗？而且它还有一个几乎一模一样的英文网站。

我抱着试一试的心态上传了一张图片，然后发现 …… 要付费！ ！价格还不便宜！

普通查询 28.88 元，但效果较差，而要看到成人网站查询结果，需要 58.88 元一次的高级查询 。但是，你只需要一次性充值 198.88 元就可以获得永久高级查询。

198，你去不了新加坡，到不了加拿大，198，你买不到三星，换不了苹果。但是，现在只要 198 你就可以深入了解身边那个 ta 的全部黑历史。心动不如行动 ……

咳咳 …… 就在我差点付费的时候，还好我及时发现，我根本没有女朋友。

在我冷静下来以后发现这个套路好像有点问题。

提前给你一个模糊搜索的结果，然后就诱导你去付费，在好奇心的驱使下付费查询。 而且由于查询问题的敏感，很多人发现被骗了之后也不好意思声张。这跟之前查开房记录查询的 APP 很像。当然，这些软件都是骗人的 …

为了进一步验证，我借助该网站的 ICP 备案号顺利的查到了运营公司。

没想到竟然就在湖南 ……

随后再利用天眼查看一下这个公司： 该公司注册资本 500w， 成立时间 8 月 21 日 ，但是经营状态已经是注销（注销表示这个公司没了）。然后在股权穿透之后发现，该公司的股东只有一个。

就在我准备进一步了解的时候，得到了天眼查的善意提醒：

算了，算了 …… 因为事情已经基本搞清楚了。

8 月份到现在，一年三个月时间，这家注册资本 500w 的公司就直接注销了？ 难不成是开着玩的？

有钱人的生活难道就是这么朴实无华，且枯燥 ……

至此我们基本可以确定，这个公司是有问题的。当然，后面我会技术据的方面来分析一下。

虽然该事件的开发者已经“删库跑路”了，但是对于这个事的讨论却并没有终结。对于这件事，或者类似的事件，我们可以从两方面来看。

第一，从技术的角度来看，这个项目靠谱吗？

第二，从道德的角度来看，这个软件合适吗？

首先，从技术的角度来看，这个 软件就不靠谱。

why？

首先我们要知道这个项目的原理，就是 利用机器学习来对比 ，上传的“人”和视频中的“人‘是不是同一个？那具体的过程是怎么学习呢？

举个简单的例子，给机器 2 张猫咪的图片，让机器来对比是不是同一只？

等机器输出结果后，再告诉机器是否正确，而机器也会依照这次结果与正确答案的误差，来调整下一次对比的逻辑。这就是机器学习的本质。

而这里最重要的一点是， 训练者（开发人员）必须知道正确答案 ，才能把正确答案告诉机器。

目前比较常规的做法是什么呢？

一般都是 雇佣很多外包人员 ，让真正的人来给图片、视频打上 tags（标记），然后把答案输出给机器对比，这个过程的成本很高。但是效果比较好，因此是目前的主流做法。

而这个“原谅宝”，他背后既没有大公司，也不是大土豪。那么哪来的资源做大量的样本训练？ 仅仅通过个人的技术？

其次，开发者最后提到自己删除了 100TB 的数据，这个 100TB 也很有问题。（1TB = 1024GB，1PB = 1024TB）

第一，100TB 的数据处理和筛选 对于个人来说是比较大 的了，不是一个程序员能够处理的，而且存储的费用也不便宜呀！

第二，这几个成人网站和社交网站， 哪一家的数据不是用 PB 做单位 ！？无论是 P 站，还是 Facebook 。开发者爬取了这么多网站的数据居然才 100TB，这有点太魔幻现实了。

所以，这个项目的起点就有问题。不仅没有足够的样本的来训练，而且训练的内容，他也没有答案。 机器学习根本无从谈起。

更何况，这些网站的视频/图片质量层次不齐， 素材的精准度完全没有保障 。

比如拍照的时候，哪怕是光线有一点变化，照片区别都很大。所以同一个人，拍出来的照片也是千姿百态。而这个误差从图片到视频，会成百上千的增大。

所以说，从技术的角度来看， “原谅宝”根本就没办法正常的操作 ，更不要说什么精确的搜索结果了。

其次，从道德角度来看”原谅宝“的问题，网上的讨论基本围绕两个方面：

1、侵犯他人隐私权；

2、对当事人的二次伤害。

开发者在当时也表示，该系统需要通过 eID（公民网络电子身份标识）实名认证后注册登录，不经过本人同意是无法查询的。尽管开发者一再强调，自愿和实名制。不过在我看来，这就是 赤果果的网络暴力。

这里最大的一个问题就是，我们无法通过一段视频或者一张图片，来还原整个事情的来龙去脉。

或许你通过这个程序，看到某个女生/男生的一段视频，但是你无法知道这段视频上传的背景，也就是说，你不知道这段视频是怎么来？

这个视频可能是自愿拍摄，也可以是被 偷拍 的（某一方或者不正规酒店），甚至是有些不法分子 窃取的。

有时候，哪怕这个视频是真的，也无法判断视频的主角就是坏人，因为拍摄的背景和上传的原因我们都是未知的。

在这种背景下，什么实名制、自愿与否真的有意义吗？

这些视频本身就是对一些人的伤害，就是对他们的隐私侵犯。

最后，我想说科技在不断的进步，但是有人用它做好事，有人却总想着用它干坏事。

今天，每一次使用手机刷微博、淘宝、点外卖、叫车，都会在互联网上留下一个记录，而这些记录又会被其他的技术引用。

有的人以此来给我们提供更好的服务，有的人利用他们来诱导消费，甚至是用来诈骗。

这时候我们还能相信科技吗？

久而久之，必然会造成大家对科技的恐慌。而最可怕，某些大厂也利用这套规则，悄咪咪的把手伸进你的口袋。

现在，我们比以往任何时间的都需要 “科技向善” 。

科技本身是中立的，但是那些使用他的人呢？也许，技术的发展能够解决一些问题，但是技术永远也解决不了背后的现实问题。世界是复杂的，世界上的人更复杂。

我想用一句老梗来结尾， 请少一些套路，多一些真诚 。

本文地址：https://cilicili.cn/post/324.html