用Python从维基百科的信息框中获取文本

信息框是一个模板,用于收集和呈现有关其主题的信息子集。它可以描述为包含一组属性值对的结构化文档,并且 维基百科 ,它代表一篇文章主题的信息摘要。 所以 维基百科信息箱 是一个固定格式的表格,通常添加到文章的右上角,以表示该wiki页面的摘要文章,有时还用于改进对其他相关文章的导航。 [要了解更多关于infobox的信息, 点击这里 ] 刮网 是一种有助于从网站中提取大量数据的机制,通过该机制,数据被提取并保存到计算机中的本地文件或表格(电子表格)格式的数据库中。 有几种方法可以从网上提取信息。使用API是从网站中提取数据的最佳方法之一。几乎所有大型网站,如Youtube Facebook、谷歌、Twitter和StackOverflow,都提供API,以更结构化的方式访问其数据。如果你能通过API获得你所需要的,那么红色方法几乎总是比网页抓取更受欢迎。 有时,当我们开发任何项目或在其他地方使用它时,需要删除维基百科页面的内容。在本文中,我将介绍如何提取维基百科信息框的内容。 基本上,我们可以使用两个Python模块来抓取数据: Urllib2 :这是一个Python模块,可用于获取URL。urllib2是一个用于获取URL的Python模块。它以urlopen函数的形式提供了一个非常简单的接口。它能够使用各种不同的协议获取URL。有关更多详细信息,请参阅 文档页面 . 美丽的群体 :这是一个从网页中提取信息的不可思议的工具。您可以使用它来提取表格、列表、段落,还可以使用过滤器从网页中提取信息。看看这个 文档页面 美丽之路 BeautifulSoup不会为我们获取网页。我们可以将urllib2与BeautifulSoup库一起使用。 现在我要告诉你另一种简单的刮法 以下步骤: 我们将使用的模块包括: 我在这里使用了Python 2.7, 确保这些模块已安装在您的机器上。 如果没有,则可以在控制台或提示符下使用pip安装

null

python

# importing modules
import requests
from lxml import etree
# manually storing desired URL
# fetching its url through requests module
req = requests.get(url)
store = etree.fromstring(req.text)
# this will give Motto portion of above
# URL's info box of Wikipedia's page
output = store.xpath( '//table[@class="infobox vcard"]/tr[th/text()="Motto"]/td/i' )
# printing the text portion
print output[ 0 ].text
# Run this program on your installed Python or
# on your local system using cmd or any IDE.


看到这个链接,它会显示这个维基百科的“座右铭部分” 信息箱。(如本截图所示)

图片[1]-用Python从维基百科的信息框中获取文本-yiteyi-C++库

Your browser is not supported.

首先编写代码

现在,在运行你得到的程序之后,

图片[3]-用Python从维基百科的信息框中获取文本-yiteyi-C++库

您还可以修改URL。XPath来获取信息框的不同部分。 如果你想了解更多关于网络抓取的信息,请访问以下链接, 1) 刮网1 2) 刮网2

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享