内容过滤器

cwang · 2022年05月5日 14:29

我们的 mission 之一是熵减, 在目前这个 stage 我们能做的是

Context builder (最好的呈现有用的信息)
Filter (最大程度的过滤掉无用的信息)

这里我们讨论一下我们对于 Filter 的一些想法. Filter 的主要可以过滤一下几类

不良信息
内容农场
低质内容

并且让这个 Filter 可以做到

黑白名单提供过滤的灵活性
Public list - 开放给社区参与维护 (或者整合其他的开源项目)
Private list - 允许每个用户自己录入和维护属于自己的filter (手动录入, 文件上传, github url等)

上述是一些简单的思考, 具体的设计会基于这些思考. 欢迎F友参与讨论和提出意见!

下面是一些 reference

内容农场

https://github.com/danny0838/content-farm-terminator

综合

http://github.com/bcaso/Google-Chinese-Results-Whitelist
http://github.com/bcaso/Google-Chinese-Results-Whitelist

如果你有其他觉得能帮到F搜更好的搭建这个filter的资源, 请回复此帖!

关联

bcaso.user · 2021年12月16日 15:01

（1）最好是要与uBlacklist的规则兼容。

（2）黑名单的内容可能违法，所以这个对能否推出 Filter 有很严重的影响。或许你们抽出一部分人 Fork uBlacklist 做出一个支持 F 搜的插件，并保持与 uBlacklist 不太大的变动。这样就不会有法律风险。不过这对用户的要求就高了些。

bcaso.user · 2021年12月16日 15:26

(3) 至少要能把搜索结果显示 100 条。
白名单会使得每一搜索页中的内容变得特别少，因为符合白名单的网站，可能不在结果的第一页，因此，要在设置中，把每页搜索结果数调得尽可能大。

(4) uAutoPagerize 这个插件可以支持在自动翻页的同时过滤结果，希望 Fliter 能被动支持。

(5) 关于法律问题的补充：如果一个黑名单中有大量违法网站，那共享者犯法吗？使用它的人犯法吗？如果有人使用它来犯法，那共享者有责任吗？
相关的内容：绿坝还记得那个最短命的安全软件绿坝吗 - 知乎

fpt · 2021年12月28日 07:58

内容农场：
每日头条 https://kknews.cc

cwang · 2022年01月4日 13:15

Repo中的

GHHbD_perma_ban_list.txt -> 和第三个列表相同
uBlacklist_match_patterns.txt -> 正则匹配 path
uBlacklist_subscription.txt -> adblock 格式

以上理解是否正确?

我们的打算在 beta 阶段先支持第一个列表 (FQDN) 和第三个规则的导入或者手动输入.

bcaso.user · 2022年01月4日 22:52

第一个列表的作用可能只是为了生成第三个列表

uBlacklist 的说明：

三种规则：

通配符
正则
titile/对于标题的正则/

还有就是解除屏蔽的规则：@:*//*.前缀.域名.后缀/*

因为黑名单规则先于白名单生效，所以可以用通配符规则 *://*/* 或正则规则 /.*/ 屏蔽所有网址，然后用 @:*//*.前缀.域名.后缀/* 解除自定义的名单中的网址，这就实现了白名单。

cwang · 2022年01月5日 04:34

所以不是根域名屏蔽, 是某个资源节点 (path) 或者 title 过滤对吧?

bcaso.user · 2022年01月5日 05:23

不知道

cwang · 2022年01月5日 05:25

举个例子

不是直接过滤所有 example.com

而是过滤类似 blogs.example.com 或者 example.com/ad_mobile

或者是标题中包括某些关键词的

这个理解对不对?

bcaso.user · 2022年01月5日 06:15

规则 *://*.example.com/*，是从左往右匹配的，前缀有没有，让用户自己设。

直接填加域名 example.com ，应该属于无前缀的 *://example.com/*，如果用户本想屏蔽所有的 example.com，那用户应该添加 *.example.com, 属于有前缀的 *://*.example.com/* 这应该是用户的失误。

cwang · 2022年01月5日 06:10

好的! 我们设计一下实现方式!

bcaso.user · 2022年01月15日 02:27

对于规则 @:*//前缀.域名.后缀/*，后面可以再添加一个可选参数，权重，

变为：@:*//前缀.域名.后缀/*, 1

用做对白名单的排序，值越大，越靠后。

bcaso.user · 2022年01月27日 08:52

https://zh.wikipedia.org/zh-cn/Google可编程搜索引擎

google 在 06 年就推出了 google 可编程搜索引擎，免费的。

白名单搜索测试：

https://cse.google.com/cse?cx=e9a1e480e37a86080&q=

可以设置为浏览器的默认搜索引擎。

加入的域名列表：https://github.com/bcaso/Google-Chinese-Results-Whitelist/blob/main/whitelists/domain_name.txt

F搜可以做一个类似的吗？

对于黑白名单，Google, Bing, DuckDuckgo, Ecosia, Startpage，qwant 可以使用 uBlacklist 过滤，也可以直接使用 google 可编程搜索引擎(可以批量导入)。

Mikachu2333 · 2022年02月20日 12:00

干脆直接兼容adguard插件得了顺手加上油猴还有ublock，又一个谷歌浏览器……

Mikachu2333 · 2022年02月25日 05:11

这个确实不清楚“事前”和“事后”的区别。受教了

内容过滤器

广告

内容农场

综合