Spark SQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24

平常在使用mysql的时候,我们在写SQL的时候会使用到MySQL为我们提供的一些内置函数,如数值函数:求绝对值abs()、平方根sqrt()等,还有其它的字符函数、日期函数、聚合函数等等。使我们利用这些内置函数能够快速实现我们的业务逻辑。在SparkSQL里其实也为我们提供了近两百多种内置函数,我们通过

import org.apache.spark.sql.functions._

导入内置函数包,来使用。也可以在SQL语句中直接使用。SparkSQL内置函数分类:聚合函数、集合函数、日期函数、数学函数、混杂函数、非聚合函数、排序函数、字符串函数、UDF函数和窗口函数这10类函数。

1 内置函数的使用
使用内置函数的方式有两种,一种是通过编程的方式的使用,另一种是通过SQL的方式使用。

例如:我们有如下数据,想要使用SparkSQL内置函数lower()来将名字全部转为小写

+----+---+-----------+
|name|age| phone|
+----+---+-----------+
|Ming| ||
|hong| ||
| zhi| ||
+----+---+-----------+

以编程的方式使用内置函数

import org.apache.spark.sql.functions._
df.select(lower(col("name")).as("name"), col("age"), col("phone")).show()

以SQL的方式使用

df.createOrReplaceTempView("people")
spark.sql("select lower(name) as name,age,phone from people").show()

2 UDF函数的使用
有的时候,SparkSQL提供的内置函数无法满足我们的业务的时候,我们可以使用过UDF函数来自定义我们的实现逻辑。例如:需要对上面的数据添加一列id,要求id的生成是name+随机生成的uuid+phone。这时候我们可以使用UDF自定义函数实现。如下所示:

//根据name和phone生成组合,并加上一段uud生成唯一表示id
def idGenerator(name: String, phone: Long): String = {
name + "-" + UUID.randomUUID().toString + "-" + phone.toString
}
//生成udf函数
val idGeneratorUDF = udf(idGenerator _)
//加入隐式转换
import spark.implicits._
df.withColumn("id", idGeneratorUDF($"name", $"phone")).show()

也可以这样写:

//加入隐式转换
import spark.implicits._
//根据name和phone生成组合,并加上一段uud生成唯一表示id
def idGenerator(name: String, phone: Long): String = {
name + "-" + UUID.randomUUID().toString + "-" + phone.toString
}
//注册udf函数
spark.udf.register("idGenerator",idGenerator _)
//使用idGenerator
df.withColumn("id",callUDF("idGenerator",$"name",$"phone")).show()

结果都是一样的:

+----+---+-----------+--------------------+
|name|age| phone| id|
+----+---+-----------+--------------------+
|Ming| ||Ming-9b87d4d5-91d...|
|hong| ||hong-7a91f7d8-66a...|
| zhi| ||zhi-f005859c-...|
+----+---+-----------+--------------------+

同样,我们可以将我们自定义的UDF函数注册到SparkSQL里,然后用SQL实现

//将自定义函数注册到SparkSQL里
spark.udf.register("idGeneratorUDF",idGeneratorUDF)
//创建临时表
df.createOrReplaceTempView("people")
//使用sql查询
spark.sql("select idGeneratorUDF(name,phone) as id,name,age,phone from people").show()

注意:上面加入import spark.implicits._隐式转换是为了方便使用$”列名”来代替col(“列名”)

完整代码:

import java.util.UUID
import org.apache.spark.sql.SparkSession /**
* spark sql 内置函数
*/
object SparkSQLFunctionApp {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local").getOrCreate()
import org.apache.spark.sql.functions._
//加入隐式转换: 本例子里可以使用toDF方法和$"列名"代替col("列名")
import spark.implicits._
val df = Seq(("Ming", , 15552211521L), ("hong", , 13287994007L), ("zhi", , 15552211523L)).toDF("name", "age", "phone")
df.show() /**
* +----+---+-----------+
* |name|age| phone|
* +----+---+-----------+
* |Ming| 20|15552211521|
* |hong| 19|13287994007|
* | zhi| 21|15552211523|
* +----+---+-----------+
*/
//1 使用内置函数将所有名字都转为小写
//1.1 编程的方式:
df.select(lower($"name").as("name"), $"age", $"phone").show() /**
* +----+---+-----------+
* |name|age| phone|
* +----+---+-----------+
* |ming| 20|15552211521|
* |hong| 19|13287994007|
* | zhi| 21|15552211523|
* +----+---+-----------+
*/
//1.2 SQL的方式
//注册表
df.createOrReplaceTempView("people")
spark.sql("select lower(name) as name,age,phone from people").show() /**
* +----+---+-----------+
* |name|age| phone|
* +----+---+-----------+
* |ming| 20|15552211521|
* |hong| 19|13287994007|
* | zhi| 21|15552211523|
* +----+---+-----------+
*/ //2 UDF函数的使用
//2.1 直接使用
//根据name和phone生成组合,并加上一段uud生成唯一表示id
def idGenerator(name: String, phone: Long): String = {
name + "-" + UUID.randomUUID().toString + "-" + phone.toString
} //生成udf函数
val idGeneratorUDF = udf(idGenerator _)
df.withColumn("id", idGeneratorUDF($"name", $"phone")).show() /**
* +----+---+-----------+--------------------+
* |name|age| phone| id|
* +----+---+-----------+--------------------+
* |Ming| 20|15552211521|Ming-74338e40-548...|
* |hong| 19|13287994007|hong-4f058f2b-9d3...|
* | zhi| 21|15552211523|zhi-f42bea86-a9cf...|
* +----+---+-----------+--------------------+
*/
//将自定义函数注册到SparkSQL里
spark.udf.register("idGeneratorUDF", idGeneratorUDF)
//创建临时表
df.createOrReplaceTempView("people")
//使用sql查询
spark.sql("select idGeneratorUDF(name,phone) as id,name,age,phone from people").show() /**
* +----+---+-----------+--------------------+
* |name|age| phone| id|
* +----+---+-----------+--------------------+
* |Ming| 20|15552211521|Ming-74338e40-548...|
* |hong| 19|13287994007|hong-4f058f2b-9d3...|
* | zhi| 21|15552211523|zhi-f42bea86-a9cf...|
* +----+---+-----------+--------------------+
*/
//2.2 通过callUDF使用
//注册udf函数
spark.udf.register("idGenerator", idGenerator _)
//使用idGenerator
df.withColumn("id", callUDF("idGenerator", $"name", $"phone")).show() /**
* +----+---+-----------+--------------------+
* |name|age| phone| id|
* +----+---+-----------+--------------------+
* |Ming| 20|15552211521|Ming-74338e40-548...|
* |hong| 19|13287994007|hong-4f058f2b-9d3...|
* | zhi| 21|15552211523|zhi-f42bea86-a9cf...|
* +----+---+-----------+--------------------+
*/
//创建临时表
df.createOrReplaceTempView("people")
//使用sql查询
spark.sql("select idGenerator(name,phone) as id,name,age,phone from people").show() /**
* +--------------------+----+---+-----------+
* | id|name|age| phone|
* +--------------------+----+---+-----------+
* |Ming-d4236bac-e21...|Ming| 20|15552211521|
* |hong-bff84c0d-67d...|hong| 19|13287994007|
* |zhi-aa0174b0-c8b3...| zhi| 21|15552211523|
* +--------------------+----+---+-----------+
*/
}
}

Spark SQL内置函数的更多相关文章

  1. sql内置函数pivot强大的行转列功能

    原文:sql内置函数pivot强大的行转列功能 语法: PIVOT用于将列值旋转为列名(即行转列),在SQL Server 2000可以用聚合函数配合CASE语句实现 PIVOT的一般语法是:PIVO ...

  2. [转] Spark sql 内置配置(V2.2)

    [From] https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配.加粗配置项是对sparkSQL ...

  3. 【翻译】Flink Table Api & SQL — 内置函数

    本文翻译自官网:Built-In Functions  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/fu ...

  4. Oracle SQL 内置函数大全

    SQL中的单记录函数 1.ASCII 返回与指定的字符对应的十进制数;SQL> select ascii('A') A,ascii('a') a,ascii('0') zero,ascii(' ...

  5. Oracle SQL 内置函数大全(转)

    SQL中的单记录函数 1.ASCII 返回与指定的字符对应的十进制数;SQL> select ascii('A') A,ascii('a') a,ascii('0') zero,ascii(' ...

  6. Orace内置函数大全[转:http://www.cnblogs.com/lfx0692/articles/2395950.html]

    NewProgramer   Oracle SQL 内置函数大全(转) SQL中的单记录函数 1.ASCII 返回与指定的字符对应的十进制数;SQL> select ascii('A') A,a ...

  7. SQL Server 内置函数、临时对象、流程控制

    SQL Server 内置函数 日期时间函数 --返回当前系统日期时间 select getdate() as [datetime],sysdatetime() as [datetime2] getd ...

  8. SQL Server利用RowNumber()内置函数与Over关键字实现通用分页存储过程(支持单表或多表结查集分页)

    SQL Server利用RowNumber()内置函数与Over关键字实现通用分页存储过程,支持单表或多表结查集分页,存储过程如下: /******************/ --Author:梦在旅 ...

  9. Oracle中的内置函数在sql中的转换整理

    程序里面经常会即支持Oracle数据库,又支持sql数据库.而有些Oracle内置函数用的比较多,但在sql中语法有些不同,我做了些整理,希望可以帮助大家.... 1.oracle中的内置函数:ora ...

随机推荐

  1. Scala基础语法 (一)

    如果你之前是一名 Java 程序员,并了解 Java 语言的基础知识,那么你能很快学会 Scala 的基础语法. Scala 与 Java 的最大区别是:Scala 语句末尾的分号 ; 是可选的. 我 ...

  2. 遍历JObject

    JObject jo = JObject.Parse(jsonStr); IEnumerable<JProperty> properties = jo.Properties(); fore ...

  3. db2 中文表名和字段

    建库语句 create db test on D: using codeset GBK territory CN 或者 territory cn codeset 和 territory 都是需要指定 ...

  4. MAGENTO程序结构图

    Magento程序结构图(Program Structure Diagram): /app – 程序根目录 /app/etc – 全局配置文件目录 /app/code – 所有模块安装其模型和控制器的 ...

  5. Standard C++ Programming: Virtual Functions and Inlining

    原文链接:http://www.drdobbs.com/cpp/standard-c-programming-virtual-functions/184403747 By Josée Lajoie a ...

  6. VM VirtualBox 上安装 CentOs6.4(详细)

    在网上下载:CentOS-6.4-i386-bin-DVD1.iso镜像. 这是我在VBox上安装CentOs6.4的过程: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12 ...

  7. 【动态规划】流水作业调度问题与Johnson法则

    1.问题描述:     n个作业{1,2,…,n}要在由2台机器M1和M2组成的流水线上完成加工.每个作业加工的顺序都是先在M1上加工,然后在M2上加工.M1和M2加工作业i所需的时间分别为ai和bi ...

  8. devexpress实现单元格根据条件显示不同的样式(颜色、字体、对齐方式,大小等)

    1.devexpress控件库之所以被大家所喜爱,是因为它将许多常用的东西都封装成了属性.可以通过一些简单的配置,将以前某些需要大篇幅代码才可实现的效果展示出来.这里是一个实现了将[第二列数据在表格0 ...

  9. 团队作业——Alpha冲刺 11/12

    团队作业--Alpha冲刺 冲刺任务安排 杨光海天 今日任务:预览界面布局实现,并留下交互接口 明日任务:预览界面中自定义保存的实现 郭剑南 今日任务:尝试解决Python编写程序无法在Android ...

  10. 搞不清FastCgi与php-fpm之间是个什么样的关系

    我在网上查fastcgi与php-fpm的关系,查了快一周了,基本看了个遍,真是众说纷纭,没一个权威性的定义. 网上有的说,fastcgi是一个协议,php-fpm实现了这个协议: 有的说,php-f ...