每日小编都会为大家带来一些知识类的文章,那么今天小编为大家带来的是网络爬虫程序方面的消息知识,那么如果各位小伙伴感兴趣的话可以,认真的查阅一下下面的内容哦。
1、Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。
2、它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。
3、WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等。
本文到此结束,希望对大家有所帮助。