Python是进行数据分析的优秀语言,主要是因为以数据为中心的Python软件包的奇妙生态系统。 熊猫 是这些软件包中的一个,使导入和分析数据变得更加容易。
熊猫 startswith()
是另一种在序列或数据框中搜索和过滤文本数据的方法。这种方法与Python的类似 startswith() 方法,但具有不同的参数,并且仅适用于熊猫对象。因此 str先生 每次调用此方法之前都必须加前缀,以便编译器知道它与默认函数不同。
语法: 系列str.startswith(pat,na=nan)
参数: 拍打: 要搜索的字符串。(不接受正则表达式) 安娜: 用于设置序列中的值为空时应显示的内容。
返回类型: 布尔级数,如果值的开头有传递的字符串,则为True。
要下载代码中使用的CSV,请单击 在这里
在以下示例中,使用的数据框包含一些NBA球员的数据。任何操作之前的数据帧图像附在下面。
示例#1: 返回布尔系列 在本例中,使用str.startswith()函数检查college列的字符串开头是否有“G”。返回一个布尔级数,在字符串开头有“G”的索引位置为真。
# importing pandas module import pandas as pd # reading csv file from url # String to be searched in start of string search = "G" # boolean series returned data[ "College" ]. str .startswith(search) |
输出: 如输出图像所示,bool系列在索引位置处为True,其中College列的起始位置为“G”。也可以通过查看原始数据帧的图像进行比较。 示例2: 处理空值 数据分析中最重要的部分是处理空值。从上面的输出图像中可以看出,无论College列中的值是空的还是NaN,布尔级数都有NaN。如果这个布尔序列被传递到数据帧中,它将给出一个错误。因此,需要使用 不 参数它也可以设置为string,但由于bool series用于传递和返回相应的值,因此应该只将其设置为bool值。 在这个例子中, 不 参数设置为False。因此,只要College列有空值,Bool系列就会存储False而不是NaN。之后,序列再次传递到数据帧,以仅显示真值。
# importing pandas module import pandas as pd # reading csv file from url # String to be searched in start of string search = "G" # boolean series returned with False at place of NaN bool_series = data[ "College" ]. str .startswith(search, na = False ) # displaying filtered dataframe data[bool_series] |
输出: 如输出图像所示,数据帧中的行在College列的字符串开头有“G”。由于na参数设置为False,因此不会显示NaN值。