任何网站的承载能力都是有上限的,如果一个网站的登陆机制有访问次数的上限,那么随便一个黑客、写一个不断登陆的脚本,让这个脚本一秒锺发送几百几千甚至几万次登陆请求,很快就能够摧垮整个网站的登录机制,以至於让所有用户都无法正常登陆。
为了应对这种“效率”,聪明的互联网人发明了一种人机鉴别的机制:验证码。
如果没有验证码,一个脚本一秒锺可以提交一万次登陆请求;可是一旦加了无法依靠脚本识别的验证码,纯自动化的脚本就立刻被扼杀在了网站门外,想提交登陆请求?可以,先填对验证码,识别有些难以辨认的验证码,至少需要几秒锺的时间,填写也需要几秒锺时间,就算是一次就能成功,想提交一次登陆请求,也至少需要十秒锺。
一秒锺一万次,和一次十秒锺,效率差了十万倍。
马老板的技术团队开发的就是一秒锺一万次的全自动化脚本,而淘宝网的服务器能够承载千万人同时浏览,这么强大的带宽与服务器支撑,马老板的技术团队可以在几个小时之间把淘宝网所有的页面全采集一遍。
可是一旦水印上线,马老板这个如意算盘就要落空了。
到时候,摆在马老板面前的选择只有三个。
第一个选择,为了保证效率,硬着头皮也要用!那李牧求之不得,到时候整个乐淘全是打着淘宝水印logo的图片,这广告做的真是太合适了;
第二个选择,为了不给李牧的淘宝打广告以及同时打自己的脸,放弃效率,改为批量采集,但要人工遮挡之后再进行上传,这样一来,效率将大大拖慢。眼下,淘宝网商品介绍的平均图片数差不多在5张左右,如果五张图片随即在不同的位置出现水印,五张图片都要进行人工遮盖的话,至少需要几分锺的时间……
第三种选择,乐淘不再帮淘宝卖家采集并上架,让淘宝卖家自己上传商品,他们手里的原始图片是没有淘宝网水印logo的,可这样虽然减去了乐淘的麻烦,但是一下子把这么大的工作量丢给淘宝卖家,他们能乐意吗?
晚上九点,陆照喜兴奋的来到马老板办公室,激动地说:“马总,我们的采集脚本和上传脚本都已经搞定了,比之前预计的时间提前了一个小时!”
终於有了点好消息!马老板立刻站起身来,高兴的说道:“很好很好!技术团队的同事们这么高的效率值得夸奖!”
说罢,马老板又道:“对了!为了避免夜长梦多,让技术部门立刻把淘宝网所有的商品页面全部采集下来,记得用一个更换IP的脚本,如果一个IP产生极大量的访问,李牧一定会有所察觉!我们要在他察觉之前,先把这些商品信息都采集过来,这样就算他想办法封堵也没有意义了!”
陆照喜立刻点了点头:“我这就去吩咐!”
自动更换IP的功能,网络上有大量现成的软件和脚本,各种小网站刷独立IP、刷PV都用能够不断更换IP的脚本实现,乐淘的技术人员自己就有现成的脚本,几乎是拿过来就用了。
九点十分,乐淘正式启动了对淘宝页面的采集,对百度这种搜索引擎来说,采集一个淘宝的页面对它的整个采集工作来说,简直就是九牛一毛,但是对乐淘来说,这还真是个浩大的工程。
今晚,雷教主在淘宝网加班坐镇。
淘宝这次批量增加logo所采用的技术手段并不是给服务器上的每个图片都加上logo,而是直接在网站程序中增加一个功能,一旦这个功能开启,在开启之后访问网站的用户,在访问产品详情页的时候,服务器将自动把Logo叠加在图片上进行展示,所以乐淘需要一点点采集页面,但淘宝却掌握了一个瞬间给所有图片加上水印logo的开关。
更重要的是,这个开关,早在一个小时前,就已经悄悄打开。
当乐淘的采集脚本工作开始发力起跑的时候,技术部门的负责人重点监督着采集的数量以及速度,却在不经意间发现了异常:陆续采集到的商品页面信息中,商品的每一张图片介绍上,竟然都多了一个两行的半透明白色logo!
logo的上一行是:“淘宝网”三个字;下一行是“<a href="http://www.taobao.com" target="_blank">www.taobao.com</a>”……
(本章完)