学校首页  教务选课  本站首页  计算中心简介  部门工作  对外交流  C语言学习  大学计算机  PAT考试  咨询与投诉 
 首页 > 大学计算机 > 快速、安全上网 > 3Q、3B大战 > 正文 更多3Q、3B大战
搜索工程师解读国际爬虫规则:360已触碰底线

2012年09月02日16:02  来源:DoNews、凤凰网  访问量:7200

本文来源:2012-08-29 11:16:25 DoNews、2012-08-29 11:39 凤凰网

  昨日夜间,上线不到十日即轻松登上国内第二大搜索引擎宝座的奇虎360搜索遭遇滑铁卢,在百度一项打击违规抓取和匿名访问的措施上线后,360搜索通过山寨加绑架用户的模式被彻底揭穿,这个故事也正是对所谓“搜索引擎技术无用论”的当头棒喝。

  “360综合搜索已超出Robots协议的‘底线’,不仅未经授权大量抓取百度、google内容,还记录国内知名网游的后台订单,优惠码等,甚至一些用户的电子邮箱、帐号、密码也被360通过浏览器悄然记录在案。”8月28日,业内一位有10年搜索工程师经验的专业人士向记者表示。

  据了解,奇虎360自8月16日上线以来,已连续遭到业界“违规”的警告。不仅UI设计,搜索结果直接剽窃、篡改百度、google等搜索引擎,还不顾国际通行的Roberts协议,抓取百度、google等搜索引擎的内容,很多商业网站和个人信息的私密内容也被抓取泄密。据悉,这种匿名访问和违规抓取其他网站内容的行为,不仅严重违反了行业底线,也伤害到了用户的体验。在国外,这种行为甚至会受到法律方面的制裁。“这已经严重触碰了Robots协议的底线!这些让如百度这样踏踏实实做技术的公司进行反击行动,是必然的!”

  这位搜索工程师告诉记者,所谓Robots协议,通俗的讲,就是网站会通过robots.txt协议来自主控制是否愿意被搜索引擎收录,或者指定搜索引擎只收录指定的内容。而搜索引擎会按照每个网站主给与自己的权限来进行抓取。这就好比,一个正常的人去到别人家里,需要先敲门,得到许可以后才能进入客厅。除非有主人的进一步许可和邀请,否则你不能擅自进入内室,或者在别人家里四处溜达。当然,强盗或者小偷例外。

  记者查阅百度百科、维基百科信息显示,搜索不仅是一项技术性很强的互联网应用形态,同时也需遵循国际通行的道德准则——robots爬虫协议。搜索引擎的原理是通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等),自动搜集互联网上的网页并获取相关信息。鉴于网络安全与隐私的考虑,包括百度、谷歌、雅虎在内的搜索引擎都会遵循robots协议。

  对于普通网站而言,若不设置robots协议,会导致用户秘密流失。但如果网站设置了robots协议,自以为很安全了,但如360综合搜索这般,不遵守robots协议,就等于网站的遮羞布就没有了,后果是及其严重的。

  据记者调查,众多用户近日也反馈了相同的信息。如一部分用户在使用360综合搜索时,发现360搜索会抓取IBM lotus domino 邮件系统后台和个人邮件文件存储地址(如下图),甚至连一些知名网游的后台订单、电子优惠券编号等信息也尽显无遗。

360搜索中关于公司、用户名等信息尽显无遗


  据业内人士分析,之所以奇虎360会采取如此策略,一是360技术的“先天缺陷”而导致、二是该公司的流氓基因。首先,奇虎360为了弥补自身技术上的缺失,奉行“拿来主义”,大幅抓取百度内容、google等内容,甚至在新闻和MP3等方面完全抓取百度搜索结果,却并未经过授权。有法律人士指出,这些都不排除百度会对360的这一行为做出适度反击。

  其次,360搜索会通过360安全卫士和360浏览器将用户平时浏览网页的信息反馈给360的搜索爬虫服务器,然后再由爬虫对相关信息进行抓取,因此造成许多网站的私密内容被360搜索引擎抓取到。“360搜索泄露稳私的现象并非个案,由于属于典型的浏览器搜索模式,它的搜索结果很难绕开这一弊端。”一位IT业内资深人士表示。

  最后,360产品惯有的“泄露用户隐私”、“存在安全漏洞”……等问题继续在搜索领域作恶。微博上有大量网友爆料称,不仅国内知名网游的后台订单,优惠码等敏感记录被360抓取,甚至一些用户的电子邮箱、帐号、密码也被360通过浏览器悄然记录在案。

  “我十分担心自己的安全,因为我不知道什么时候自己的账户、密码等信息就会统统被记录下来。” 记者发现这种来自用户的担忧非常普遍。

360抓取的用户优惠码


  对于360搜索的严重违背行业规范的作恶举动,部分媒体人士认为,“360综合搜索依靠浏览器来获取隐私,用入口绑架用户,显然已经走上了3721的老路,所不同的只是浏览器插件变成了浏览器,而且还披上了一件搜索的外衣。”

  据记者近日走访众多互联网人士时发现,众多人士则纷纷表达了另一种了隐忧:这种基于浏览器的信息泄露,不仅使得用户私隐安全难以保证,轻则致使部分用户的生活陷入混乱,重则扰乱整个网络秩序。胡乱抓取的结果还将滋生犯罪,为大量的网络侵权和经济犯罪提供了条件。

  行业专家表示:360由于缺乏搜索的基因,存在技术和模式上的先天缺陷,不仅搜集、存储能力、以及对搜索结果优化能力缺失,更为严重的是,从互联网发展的规律来看,靠着违背通行规则、损害他人和用户利益的所谓捷径,必然无法持久,必定会引起踏踏实实做技术的公司的排斥与反击。


 前一条:百度工程师称360已破底线:流氓会武术 谁都挡不住 (2012-09-02)
 后一条:广发等四大券商内部邮件:禁用360浏览器及系列产品 (2012-09-02)
相关报道
·百度工程师鬼节捉鬼 360浏览器抓取隐私现形 (2012-09-02)
·腾讯搜搜辟谣:360指责百度违规抓取腾讯内容不实 (2012-09-02)
 
 
 
 

 

◆ MOOC+SPOC

C语言程序设计MOOC
Office高级应用MOOC
大学计算机MOOC(56学时)
大学计算机MOOC(32学时)

◆ 英语工具(*=机房开放)

离线词典:有道词典(绿色版)
离线翻译:金山快译(绿色版)
* 谷歌翻译
* 百度词典/翻译/论文写作助手
* 金山词霸/翻译/写作批改
必应词典/翻译
有道词典/翻译/简历助手

◆ 重要公告

成都信息工程大学关于组织报…
DSA数据结构与算法实验室在2…
2024年度DSA数据结构与算法…
2024 年(第17届)中国大学…
2023-2024学年第2学期《Offi…
第三届“成都信息工程大学团…
20232学期非计算机类《C语言…
第二届成都信息工程大学新生…
第十五届蓝桥杯全国软件和信…
20231学期非计算机类《C语言…

◆ 校园热线

教学平台 数字图书 招生就业
学生事务 心灵之约 邮件服务
后勤管理
四川·成都市西南航空港经济开发区学府路一段24号  邮编:610225
学校值班电话:028-85966502     联系计算中心:电话028-85966005  电子邮件  留言
Copyright©成都信息工程大学计算中心 2008-2011  建议使用IE5.5,1024*768以上浏览