用Python从维基百科的信息框中获取文本-yiteyi-C++库

信息框是一个模板，用于收集和呈现有关其主题的信息子集。它可以描述为包含一组属性值对的结构化文档，并且 维基百科 ，它代表一篇文章主题的信息摘要。所以 维基百科信息箱 是一个固定格式的表格，通常添加到文章的右上角，以表示该wiki页面的摘要文章，有时还用于改进对其他相关文章的导航。 [要了解更多关于infobox的信息，点击这里 ] 刮网是一种有助于从网站中提取大量数据的机制，通过该机制，数据被提取并保存到计算机中的本地文件或表格（电子表格）格式的数据库中。有几种方法可以从网上提取信息。使用API是从网站中提取数据的最佳方法之一。几乎所有大型网站，如Youtube Facebook、谷歌、Twitter和StackOverflow，都提供API，以更结构化的方式访问其数据。如果你能通过API获得你所需要的，那么红色方法几乎总是比网页抓取更受欢迎。有时，当我们开发任何项目或在其他地方使用它时，需要删除维基百科页面的内容。在本文中，我将介绍如何提取维基百科信息框的内容。基本上，我们可以使用两个Python模块来抓取数据： Urllib2 ：这是一个Python模块，可用于获取URL。urllib2是一个用于获取URL的Python模块。它以urlopen函数的形式提供了一个非常简单的接口。它能够使用各种不同的协议获取URL。有关更多详细信息，请参阅文档页面 . 美丽的群体 ：这是一个从网页中提取信息的不可思议的工具。您可以使用它来提取表格、列表、段落，还可以使用过滤器从网页中提取信息。看看这个文档页面美丽之路 BeautifulSoup不会为我们获取网页。我们可以将urllib2与BeautifulSoup库一起使用。 现在我要告诉你另一种简单的刮法 以下步骤：我们将使用的模块包括：我在这里使用了Python 2.7， 确保这些模块已安装在您的机器上。 如果没有，则可以在控制台或提示符下使用pip安装

null

python

                           # importing modules                         
                           import                                        requests                         
                           from                                        lxml                                        import                                        etree                         
                                      
                           # manually storing desired URL                         
                           url                                        =                                        '                             https://en.wikipedia.org/wiki/Delhi_Public_School_Society                            '                         
                                      
                           # fetching its url through requests module                         
                           req                                        =                                        requests.get(url)                         
                                      
                           store                                        =                                        etree.fromstring(req.text)                         
                                      
                           # this will give Motto portion of above                         
                           # URL's info box of Wikipedia's page                         
                           output                                        =                                        store.xpath(                                        '//table[@class="infobox vcard"]/tr[th/text()="Motto"]/td/i'                                        )                         
                                      
                           # printing the text portion                         
                           print                                        output[                                        0                                        ].text                         
                                      
                           # Run this program on your installed Python or                         
                           # on your local system using cmd or any IDE.