广告联盟网

 找回密码
 注册
查看: 536|回复: 5
打印 上一主题 下一主题

一篇摘自北大研究生论文里面的网页技术文章

[复制链接]
跳转到指定楼层
1#
发表于 2007-4-10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
一篇摘自北大研究生毕业论文里面的网页技术文章,大家认真地研究一下,或许会对搜索引擎封站有所有了解,文章太长,我只发比较重要的部分。

基于Robot的搜索引擎通常包含以下四个步骤:
网页抓取:发现、搜集Web上的网页信息。
网页消重:消除搜集到的网页中重复或近似重复的网页。
建立索引:对搜集到的Web信息建立索引库。
提供检索服务:根据用户输入的查询项,在索引库中检索出文档。
下面详细讨论网页消重和建立索引。
网页消重是指将搜集到的网页中重复网页去掉的过程,在消重后的网页集上建索引再提供服务可以保证用户查询时不会出现大量内容重复的网页,同时节省建立索引的时间以及检索的时间。[Manber94] [SCAM] [SM99]是三种比较常用的重复网页判断方法,其中[SM99]被Google所使用。这些重复网页发现算法都是基于相同的想法:为每张网页计算一组指纹(fingerprint),如果两张网页中相同的指纹数量超过一个阈值,这两张网页就被认为是互为重复的网页。然而,大量的重复网页并不是对原始网页的简单拷贝,而是将要转载的主题内容放在不同的模板中形成的。我们把这种近似的重复网页以及完全相同的重复网页统称为近似网页。由于模板中的内容绝大多数是与主题内容无关的,因此模板中的内容就会干扰近似网页识别程序对近似情况的判断,从而导致错误消重。常见的错误消重有以下两种情况:
    情况1:相同的内容,由于放在了不同的模板中导致应该被消掉但实际上被消重程序判断为非近似网页而保留。
    情况2:不同的内容,由于放在了相同的模板中导致不应该被消掉但实际上被消重程序判断为近似网页而消掉。
    对于完全相同的近似网页,消重算法是容易识别的,因而,如何识别主题内容相同但模板不同的情况是消重算法面临的问题。
在索引过程中,索引器为搜集到的文档建立了一个(或若干个)索引文件,索引文件是用来在检索时对查询词与文档进行匹配的,从而找到与查询词相关的文档。为了合理的对检索到的文档排序,研究人员提出了HITS [HITS] and PageRank [PR]算法,这两个算法通过分析Web上的链接结构来计算网页的重要性。正如[PR]中附录所讲述的,由于广告等噪音内容通常伴随着超链出现,PageRank算法得到的排序通常偏向于广告网页。另外,如果不去除原始网页中的噪音内容,检索系统必然对噪音内容也建立索引,从而导致仅仅因为查询词在某张网页的噪音内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出,噪音内容不仅使索引结构的规模变大,而且还导致了检索准确性的下降。针对这个问题,[LH02]中提出了一个去除网页中噪音内容的方法,该方法首先依据<table>标签构造网页的标签树,从而依据<table>标签将一张网页规划为相互嵌套的内容块;而后,对于使用同一个模板作出的网页集,利用基于信息熵的方法找出在该网页集中多次出现的内容,作为冗余内容,而在该网页集中出现较少的内容块就是有效信息块。实验证明该方法是有效的,但该方法必须局限在基于同一个模板的网页集,而Web上的网页模板不计其数,该方法显然不够通用。[YLL03]中也提出了一个噪音内容判断方法,该方法必须针对某一个网站,通过对网站建立一棵特殊的标签树的方法,自动发现网站中网页内的噪音内容。但这种方法的局限在于,它只能以网站为单位进行处理。实际上,任意一张网页,人是比较容易区别其中的噪音内容和主题内容的。这说明我们有可能追求自动识别一张网页中的主题内容和噪音内容而不需要依赖于一个网页集合;这样就可以使去除网页噪音内容的方法更加通用和独立。
2#
发表于 2007-4-10 | 只看该作者
看的好眼花,暂时没看完,没有发现价值。今天商务看了一下王通写的那东西,感觉还不错
3#
发表于 2007-4-10 | 只看该作者
很没深度的一篇文章
4#
发表于 2007-4-10 | 只看该作者
理论就是理论,这人可以去死了。
5#
发表于 2007-4-10 | 只看该作者
似懂非懂地理解了1%
6#
发表于 2007-4-11 | 只看该作者
这文章好!
支持楼主.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|广告联盟网  

GMT, 2024-11-26 , Processed in 0.104354 second(s), 19 queries .

Powered by Discuz! X3.2

© 2005-2021 www.ggads.com GGADS 广告联盟网

快速回复 返回顶部 返回列表