Python是进行数据分析的优秀语言,主要是因为以数据为中心的Python软件包的奇妙生态系统。 熊猫 是这些软件包中的一个,使导入和分析数据变得更加容易。
熊猫 str.get_dummies()
用于在传递的分隔符处分隔调用方序列中的每个字符串。分割每个字符串后,返回一个包含所有可能值的数据帧。如果原始数据框中同一索引处的文本值包含字符串(列名/拆分值),则该位置的值为1,否则为0。
因为这是一个字符串操作, str先生 每次调用此函数之前都必须加前缀。否则,它将抛出一个错误。
语法: 系列str.get_dummies(sep=’|’)
参数: 九月: 字符串值,用于拆分字符串的分隔符
返回类型: 仅具有二进制值的数据帧
要下载以下示例中使用的数据集,请单击 在这里
在以下示例中,使用的数据框包含一些员工的数据。任何操作之前的数据帧图像附在下面。 示例#1: 在空白处分隔不同的字符串。
在本例中,团队列中的字符串已在“”处拆分(空白),拆分后返回的数据框中包含所有可能的值。如果字符串(列名)存在于旧数据框中同一索引处的文本值中,则返回的数据框中的值为1。
Python3
# importing pandas import pandas as pd # making data frame from csv at url # making dataframe using get_dummies() dummies = data[ "Team" ]. str .get_dummies( " " ) # display dummies.head( 10 ) |
输出: 如输出图像所示,它可以与数据帧的原始图像进行比较。如果字符串存在于同一索引中,则值为1,否则为0。 要点:
示例2: 多点拆分/静态值列
在本例中,新列(“Hello gfg family”)采用静态值。然后应用get_dummies()方法,字符串在“g”处分开。由于“g”不止一次出现,因此将有多个列,并且所有列中的值必须与所有行中的字符串相同。
Python3
# importing pandas import pandas as pd # making data frame from csv at url # string for new column string = "Hello gfg family" # creating new column data[ "New_column" ] = string # creating dummies df = data[ "New_column" ]. str .get_dummies( "g" ) # display df.head( 10 ) |
输出: 如输出图像所示,新数据框有3列,每行有相同的值。