Python是进行数据分析的优秀语言,主要是因为以数据为中心的Python软件包的奇妙生态系统。 熊猫 是这些软件包中的一个,使导入和分析数据变得更加容易。
熊猫 str.count()
方法用于计算字符串或正则表达式模式在序列的每个字符串中的出现次数。还可以将其他标志参数传递给句柄,以修改 正则表达式 比如区分大小写、多行匹配等。
因为这是一个pandas string方法,所以它只适用于一系列字符串和 str先生 每次调用此方法之前都必须加前缀。否则,它将给出一个错误。
语法: 系列str.count(pat,flags=0)
参数: 拍打: 要在序列中出现的字符串中搜索的字符串或正则表达式 旗帜: 可以传递的正则表达式标志(A、S、L、M、I、X),默认值为0,表示无。对于这个正则表达式模块(re)也必须导入。
返回类型: 包含每个字符串中传递的字符出现次数的序列。
要下载代码中使用的CSV,请单击 在这里
在以下示例中,使用的数据框包含一些NBA球员的数据。任何操作之前的数据帧图像附在下面。
示例#1: 计算单词出现率 在本例中,Pandas系列由一个列表组成,gfg的出现使用str.count()方法进行计数。
# importing pandas package import pandas as pd # making list list = [ "GeeksforGeeks" , "Geeksforgeeks" , "geeksforgeeks" , "geeksforgeeks is a great platform" , "for tech geeks" ] # making series series = pd.Series( list ) # counting occurrence of geeks count = series. str .count( "geeks" ) # display count |
输出: 如输出图像所示,显示了每个字符串中出现的极客,由于第一个大写字母,极客未被计数。 示例2: 使用旗帜
在本例中,“a”的出现次数计入“名称”列。flag参数也会被使用和重新设置。我被传给它,这意味着无知。因此,a和a都将在计数时考虑。
# importing pandas module import pandas as pd # importing module for regex import re # reading csv file from url # String to be searched in start of string search = "a" # count of occurrence of a and creating new column data[ "count" ] = data[ "Name" ]. str .count(search, re.I) # display data |
输出: 如输出图像所示,通过查看第一个索引本身可以清楚地进行比较,Avery Bradely中a的计数为2,这意味着同时考虑了大写和小写。