Pig STRSPLIT 函数 - 菜鸟教程

STRSPLIT 函数

STRSPLIT此函数用于通过给定的定界符分割给定的字符串。

句法

下面给出了STRSPLIT() 的语法。此函数接受需要拆分的字符串，正则表达式和指定限制（整数字符串应拆分的子字符串的数量）的整数值。此函数解析字符串，当遇到给定的正则表达式时，它将字符串拆分为n个子字符串，其中n是传递给limit的值。

 
grunt> STRSPLIT(string, regex, limit)

例子

假设在HDFS目录/pig_data/中有一个名为emp.txt的文件，如下所示。此文件包含员工详细信息，例如ID，姓名，年龄和城市。

 
001,Robin_Smith,22,newyork 
002,BOB_Wilson,23,Kolkata 
003,Maya_Reddy,23,Tokyo 
004,Sara_Jain,25,London 
005,David_Miller,23,Bhuwaneshwar 
006,Maggy_Moore,22,Chennai 
007,Robert_Scott,22,newyork 
008,Syam_Ketavarapu,23,Kolkata 
009,Mary_Carter,25,Tokyo 
010,Saran_Naidu,25,London 
011,Stacy_Green,25,Bhuwaneshwar 
012,Kelly_Moore,22,Chennai

并且，我们已将这个文件通过名为emp_data的关系加载到Pig中，如下所示。

 
grunt> emp_data = LOAD 'hdfs://localhost:9000/pig_data/emp.txt' USING PigStorage(',') as (id:int, name:chararray, age:int, city:chararray);

以下是STRSPLIT（）函数的示例。如果您观察emp.txt文件，您会发现在名称列中，我们的雇员的姓名和姓由分隔符'_'分隔。在此示例中，我们尝试使用STRSPLIT（）函数拆分员工的姓名和姓。

 
grunt> strsplit_data = FOREACH emp_data GENERATE (id,name), STRSPLIT (name,'_',2);

上面的语句替换字符串“Bhuwaneshwar”与“Bhuw”在指定的列城在emp_data关系并返回结果。此结果存储在名为replace_data的关系中。如下所示，使用Dump运算符验证关系replace_data的内容。

 
grunt> Dump strsplit_data;
  
((1,Robin_Smith),(Robin,Smith))
((2,BOB_Wilson),(BOB,Wilson))
((3,Maya_Reddy),(Maya,Reddy))
((4,Sara_Jain),(Sara,Jain))
((5,David_Miller),(David,Miller))
((6,Maggy_Moore),(Maggy,Moore))
((7,Robert_Scott),(Robert,Scott))
((8,Syam_Ketavarapu),(Syam,Ketavarapu))
((9,Mary_Carter),(Mary,Carter))
((10,Saran_Naidu),(Saran,Naidu))
((11,Stacy_Green),(Stacy,Green))
((12,Kelly_Moore),(Kelly,Moore))