设置

关灯

第768章 爬虫 (6 / 9)

还不赶快来体验!!!

        要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。

        王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”

        周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”

        王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”

        “嗯!”

        周不器点了点头。

        这就是他想要的答案。

        爬虫黑名单!

        王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”

        内容未完,下一页继续阅读