在ScrapingHub上部署Scrapy spider-yiteyi-C++库

什么是ScrapingHub？

null

Scrapy是一个用于web爬行的开源框架。这个框架是用python编写的，最初是为网页抓取而设计的。Web抓取也可以用于使用API提取数据。ScrapingHub提供了从网页抓取数据的整个服务，即使对于复杂的网页也是如此。

为什么是ScrapingHub？

比如说，一个网站提供了一个输入字段，作为回报，一个基于搜索查询的get响应。其目的是通过输入并获得响应来获取所有数据。现在这个输入字段可以有从“0000”字符串到“9999”字符串的数字，所以简而言之，需要输入10000个，这样就可以从网站上获得所有结果。现在，对于每个请求，比如“0000”，将需要4-5分钟，作为响应，您将获得1000多个字段的数据。它可能会有所不同，因为在最后，网站将返回所有数字以“0000”结尾的数据，而对于网站来说，查询和返回这些数据需要时间。如果我们做一些小数学，那么10000*5=50000分钟，这意味着大约35天。

因此，对于初学者来说，可以使用Python2.7的mechanize模块进行查询，但最终需要35天才能通过不间断地运行PC/笔记本电脑来完成。另一种解决方案是，可以使用多线程和多处理来避免这种情况，但以有组织的方式保存数据并克服这种复杂性需要大量时间。但是使用 痒痒的 将节省大量时间。尽管如此，我们仍然需要运行这个脚本至少1-3天，因为我们正在讨论如何删除数百万数据。因此，要克服这个问题，最好的选择是求助于 ScrapingHub .

ScrapingHub提供了在云上部署Scrapy spider并执行它的功能。作为回报，它将运行我们的蜘蛛24小时（免费用户）或7天（付费），这是值得的。这就是为什么人们可以使用ScrapingHub来节省时间和成本。

如何做到这一点：

步骤1：在本地机器中创建Spider

在里面前一篇文章，我们创建了一个简单的蜘蛛来抓取网页并获取该网站上的所有URL。同样，只需添加一个额外的功能，通过在脚本中维护set并在添加之前进行交叉检查，就可以避免删除重复的url。

                     # importing scrapy module                   
                     import                               scrapy                   
                             
                             
                     class                               ExtractUrls(scrapy.Spider):                   
                             
                                         # Name of the spider                   
                                         crawled                               =                               set                               ()                   
                             
                                         # Set to avoiding duplicate url                   
                                         name                               =                               "extract"                   
                             
                                         def                               start_requests(                               self                               ):                   
                             
                                         # Starting url mentioned                   
                                         urls                               =                               [                               '                       https://www.geeksforgeeks.org                      '                               , ]                   
                                         for                               url                               in                               urls:                   
                                         yield                               scrapy.Request(url                               =                               url,                   
                                         callback                               =                               self                               .parse)                   
                             
                                         def                               parse(                               self                               , response):                   
                                         title                               =                               response.css(                               'title::text'                               ).extract_first()                   
                                         links                               =                               response.css(                               'a::attr(href)'                               ).extract()                   
                                         for                               link                               in                               links:                   
                                         yield                   
                                         {                   
                                         'title'                               : title,                   
                                         'links'                               : link                   
                                         }                   
                             
                                         if                               (                               'geeksforgeeks'                               in                               link                               and                   
                                         link                               not                               in                               self                               .crawled):                   
                                         self                               .crawled.update(link)                   
                                         yield                               scrapy.Request(url                               =                               link,                   
                                         callback                               =                               self                               .parse)