载入中
  • 正在进行的高效万维网搜索算法的探索
  • 作者:佚名
  • 发表日期:十月 01, 2007
  • 浏览:80次
  • 收藏本文
  • 编者导读:作者 Sara Robinson原题: The Ongoing Search for Efficient Web Search Algorithms, 译自SIAM NEWS, v. 37(2004), no. 9, pp. 4, 11.在Google 的搜索网站键入``newspaper(报纸)”,你的搜索就会拉出长达几十页的到各种报纸的网站的链接. 然而,出于某种原因, Google忽略了这些...
  • 作者 Sara Robinson

    原题: The Ongoing Search for Efficient Web Search Algorithms, 译自SIAM NEWS, v. 37(2004), no. 9, pp. 4, 11.

    在Google 的搜索网站键入``newspaper(报纸)”,
    你的搜索就会拉出长达几十页的到各种报纸的网站的链接. 然而,
    出于某种原因, Google忽略了这些报纸本身的网址.

    相比之下, 在不那么知名的网站Ask Jeeves上, 同样的搜索,除了Google
    找到的那些信息外, 还会给出诸如 USA Today(今日美国)、The Christian
    Science Monitor(基督教科学箴言报)、The Daily
    Telegraph(每日电讯)和The New York Times(纽约时报)那些报纸的网址.

      有可能从两组结果搜索出同样的信息, 但是这种比较告诉我们:
    这反映了这些网址用来对他们搜索结果分等级的基本数学算法的细微差别.
    这些从20世纪90年代发展出来的算法至今仍然是研究的重点.   

    关键概念

    大约在20世纪90年代中期,万维网对几千个主题多达几亿页的内容研制了巨大的信息库.
    但是对于想寻找某个特定主题的可靠信息的某些人来说,当地图书馆仍然是比较好的选择.

    例如由 Alta Vista, Excite, Lycos 和Hotbot等所提供的那个年代的国际互联网的搜索引擎完全依靠信息检索(information retrieval, IR)系统的技术来查找文件,这些系统明显地以要搜索的术语及其出现的高频率为其组成部分.但是这种工具是为规模有限的数据库设计的, 这些数据库由可以控制的文体和结构的方式提供划一的高质量信息组成.万维网及其基础结构是以多种多样格式提供的质量各不相同的一堆无序、杂乱的网页.面对这乱糟糟的一堆, 如果该网页多处出现要搜索的术语的话, 单靠IR技术就有可能把垃圾网页的等级评得很高. 与此同时,这种技术有可能忽略掉根本不包含该术语的相关网页.   

    例如, 搜索``cars(汽车)”或``automobile manufacturers(汽车制造商)”, 得到的回答可能没有 Honda或Ford的万维网网站. 搜索 lung cancer(肺癌),则有可能把对烟草工业的诉讼网站的等级排得比有关健康的权威网站还要高.

    简单的关键词搜索还有另一个缺点:想把更多的通信量拉到自己的万维网网站去的人很容易充分利用简单的关键词搜索技术.企业很快就学会了怎样把他们的万维网网站推到搜索结果的第一页:只要简单地把广受欢迎的搜索术语以隐匿来源的方式一再重复地融入其网页就可以了.

    看来从万维网提取有用信息的仅有希望就是要有一大批其角色和图书馆管理员一样的研究人员,他们能从混乱中精选、并对每个主题挑选并组织高质量的网页. 确实, 诸如
    Yahoo等广受大众欢迎的网站正是采用了这种方法,建立由其雇员评阅和作了索引的万维网网站指南.但是,随着万维网每天有几十万网页的增加.这种指南在视野方面必定会受到限制.

    全文见 数学译林
  • 【引用地址】http://www.suanshu.net/test.aspx
  • 【关键字】正在进行的高效万维网搜索算法的探索
载入中
版权申明:非特殊申明,本站文章均系转载自互联网,如果侵犯了你的合法权益,请告知我们,我们会第一时间处理. 要点评这篇文章,请在下面留言
针对这篇文章的评论
  • 评论载入中
    评论载入中...请稍后...

发表您的评论您的评论

用户名: 验证码: 说明:评论并不需要注册.如果您不是本站会员,你可以注册为本站会员. 注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
  • 不良评论请用报告管理员,以利管理员及时删除。
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规。
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  • 本站评论管理人员有权保留或删除其管辖评论中的任意内容。
  • 您在本站发表的作品,本站有权在网站内转载或引用。
  • 参与本评论即表明您已经阅读并接受上述条款。

赞助商链接