岭南首页 电信首页 校友联谊 招生信息 教师风采 我要咨询 电信优酷
 

 


    首页>>学生作品>>详细

搜索引擎 作者:黄锦浩 黄龙龙


 

作者:黄锦浩  黄龙龙
班级:10软件开发(4)班  
指导老师:明生


一、作品简介
    聚焦爬虫又称主题爬虫,它的工作流程比传统网络爬虫复杂一些,在抓取页面并提取出URL以后,会根据相应的URL分析算法保留尽可能多的主题相关度高的URL,并将其放入等待抓取的URL队列。与主题无关或相关度不高的URL将被丢弃。然后再从URL队列里读取URL进行抓取,并重复上述过程,直到满足爬行停止条件为止。并且,聚焦爬虫的系统中有专门的数据库,用来存储被爬虫抓取的网页,并有专门的功能模块对网页进行内容分析、特征词提取,从而建立起响应的主题特征词库。特征词库建立以后,可以更好的对之后抓取的网页进行分析和评价,把与主题无关或相关度不高的网页排除。

 

二、作品特点
聚焦主题爬虫是一个新时代的搜索引擎,它是基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。
具体的方法根据种子样本的获取方式可以分为:
(1)    预先给定的初始抓取种子样本;
(2)    预先给定的网页分类目录与分类目录对应的种子样本,如淘宝网、拍拍网;
(3)    通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征等等。

 

三、作品推广价值
    该项目作为一款新时代搜索引擎是属于稚嫩的阶段。在搜索引擎这个市场里,首先作为一般用户都是希望在最短的时间内搜索到自己想要的信息,在其如将变幻莫千的万维网里,包含了一大堆信息。有各式各样的数据,但很多的网站里也会存在一些“坏”的信息,这些信息主要对用户的电脑进行攻击,造成系统崩溃,中毒等。所以,有必要的对这些没用的信息就是过滤是用户最想看到的事情。因此,需要聚焦!
    所以,我们需要更多人的大力支持,需要投入一定的资金。以此技术推广到未来的云计算,在短期里,我们   可以通过以下几种方式进行盈利:
    聚钱模式。我们是通过聚焦的方式对各个URL链接的网站进行过滤,从而间接的访问各个网站。
聚划算模式。在聚焦的作用下,我们可以为用户通过聚焦引擎获取一些积分进一步转化为虚拟货币,拥有这些虚拟货币,用户可享受到政策上补贴,比如,可以兑换网络上的一些实体道具等。

四、作品图片


 
地址: 广东广州天河东圃大观中路492号   电话: 020-22305690   传真: 020-22305574
ICP备案编号: 粤ICP备05084255号     2005-2014 College Of Electronic and Information
©广东岭南职业技术学院电子信息工程学院     http://cie.lnc.edu.cn/