哈喽! 大家好! 最近有很多用户有反馈百科相关的问题, 大致分成以下两点
- Wiki 的链接无法访问
- 搜狗 / 百度百科的质量低
这个帖子探讨以下社区公共百科的问题, 可行性和实现方式.
希望想参与 beta 或者搭建公共百科的用户, 可以回复这个帖子或者私信我.
几个问题
词条质量
当时我们设计结果中包括wiki的原因也是因为很多词条在搜狗/百度百科中质量比较低, 而且很多被作者夹带私货. 尤其在学术 / 工程 / 计算机相关的词条质量尤其明显, 比如说
机器学习相关的一个关键词 backpropagation
, 对比在各个百科中
来源 | 是否包含 | 质量 | License |
Wikipedia | 高 | CC | |
百度 | 低 | 商用 | |
搜狗 | - | 商用 | |
快懂 | - | 商用 |
版权
任何商用 License 我们必须付费或者取得版权方同意才能使用. 因此数据源基于 CC License 是我们的首选. 由此看来, 我们可以把 Wikipedia 作为直接使用的数据源.
工程量
- 存量 - 130万左右的中文词条 (650万英文词条)
- 增量 - TBD (这个需要机器辅助的社区维护)
合法合规
所有词条需要人工审核 (机器辅助) 确保合法合规, 对于敏感词条不开放公共编辑.
借鉴案例
- 萌娘百科
- 万维百科
解决方案
- Start small - 从一些我们熟悉的知识图谱开始 (计算机, 数学, 工程等)
- Collaborative work - 社区词条负责人 (最好是学者, 或者对于该类词条有深度知识的人士)
- Members only - 这一条看起来很反常理, 因为我们还是觉得应该保留 CC License, 但是我们不想社区和Fsou这边的努力和贡献被第三方用来商业化. 并且按照百度和搜狗的惯例应该不会尊重 CC BY-SA.
进度更新
2022-01-05 目前已经完成130万字条的录入(共计400万页), 接下来会开始内容的筛查和过滤.