陆道升重生后第一个新年过得是很幸福的,不过享受完春节后的重生第一个寒假过得很辛苦了。
之前开发的爬虫系统这段时间在韩教授实验室里兢兢业业地运转了一段时间,经过抓取、过滤、验证以及不断地参数调整和重跑,终于拿到了约两万多个可用的网址。剩下的,就是人工的审核和整理了。
李兴平在hao123创建之前,最多收集了5000个实用网址。这些都是来自网吧真实顾客的需求,所以针对性非常不错。反观陆道升,通过自动化爬虫的搜集,加上如无效网址检测、去重、针对某些网址或规则的黑白名单等策略,最终搜集到了更多的网址,但这些网址是否合用,能否满足大众需求,陆道升并无十足把握,最终还是要走一遍人工的审核流程。
搜集可以自动化,但分类和排序确实需要大量人力劳动的工作,陆道升准备模仿hao123,按照网站热度分三级来组织网址的展现。
早期的hao123有名站
...