【大数据面试题】012 谈谈 Hive 性能优化常用的方法-CFANZ编程社区

图是一种数据结构，其中结点可以具有零个或多个相邻元素。两个结点之间的连接称为边。结点也可以称为顶点。

顶点（vertex）
边（edge）
路径
无向图：顶点之间的连接没有方向
有向图：顶点之间的连接有方向
带权图：边带权值的图，也叫网
图的表现方式
- 二维数组表示（邻接矩阵）
- 链表表示（邻接表）

邻接矩阵

邻接矩阵是表示图形中顶点之间相邻关系的矩阵，对于n个顶点的图而言，矩阵是的row和col表示的是1……n个点

在这里插入图片描述

代码

在这里插入图片描述

package com.xiaolu.graph;


import sun.java2d.windows.GDIRenderer;

import java.util.ArrayList;
import java.util.Arrays;

/**
 * 邻接矩阵
 */

public class Graph {

    private ArrayList<String> vertexList; // 存储顶点集合
    private int[][] edges; // 存储图对应的邻接矩阵
    private int numOfEdge; // 表示边的数目

    public static void main(String[] args) {
        int n = 5; // 结点个数
        String Vertexes[] = {"A", "B", "C", "D", "E"};
        // 创建图对象
        Graph graph = new Graph(n);
        // 循环添加顶点
        for (String vertex : Vertexes) {
            graph.insertVertex(vertex);
        }

        // 添加边
        // A-B A-C B-C B-D B-E
        graph.insertEdge(0, 1, 1);
        graph.insertEdge(0, 2, 1);
        graph.insertEdge(1, 2, 1);
        graph.insertEdge(1, 3, 1);
        graph.insertEdge(1, 4, 1);

        // 显示邻接矩阵
        graph.showGraph();

    }

    public Graph(int n) { // n 表示顶点个数
        // 初始化矩阵和集合
        edges = new int[n][n];
        vertexList = new ArrayList<>(n);
        numOfEdge = 0;
    }

    // 插入结点
    public void insertVertex(String vertex) {
        vertexList.add(vertex);
    }

    /**
     * 更新邻接矩阵的值【添加边】
     *
     * @param v1     表示点的下标，即第几个顶点 "A"-"B" "A"->0 "B"->1
     * @param v2     表示第二个顶点对应的下标
     * @param weight 表示 邻接矩阵中的权值.  此时 0 表示 不可连通，1 表示可连通【有关联】
     */
    public void insertEdge(int v1, int v2, int weight) {
        edges[v1][v2] = weight;
        edges[v2][v1] = weight;
        numOfEdge++;
    }

    // 添加一些图中常用方法
    // 返回结点的个数
    public int getNumOfEdge() {
        return vertexList.size();
    }

    // 返回边的数目
    public int getNumOfEdges() {
        return numOfEdge;
    }

    // 返回结点i(下标)对应的数据 0 ->"A" 1->"B" 2->"C"
    public String getValueByIndex(int i) {
        return vertexList.get(i);
    }

    // 返回v1和v2的权值
    public int getWeight(int v1, int v2) {
        return edges[v1][v2];
    }

    // 显示图对应的矩阵
    public void showGraph() {
        for (int[] link : edges) {
            System.err.println(Arrays.toString(link));
        }
    }
}

邻接表

邻接矩阵需要为每个顶点都分配n个边的空间，其实有很多边都是不存在，会造成空间的一定损失
邻接表的实现只关心存在的边，不关心不存在的边。因此没有空间浪费，邻接表由数组+链表组成

在这里插入图片描述

图的深度

图遍历介绍

所谓图的遍历，即是对结点的访问。一个图有那么多个结点，如何遍历这些结点，需要特定策略，一般有两种访问策略：

深度优先遍历【纵向】
广度优先遍历【横向】

深度优先遍历基本思想（*代码带考察）

深度优先遍历，从初始访问结点出发，初始访问结点可能有多个邻接结点，深度优先遍历的策略就是首先访问第一个邻接结点，然后再以这个被访问的邻接结点作为初始结点，访问它的第一个邻接结点，可以这样理解：每次都在访问完当前结点后首先访问当前结点的第一个邻接结点。
我们可以看到，这样的访问策略是优先往纵向挖掘深入，而不是对一个结点的所有邻接结点进行横向访问。
显然，深度优先搜索是一个递归的过程

深度优先遍历算法步骤：

访问初始结点v，并标记结点v为已访问。
查找结点v 的第一个邻接结点w。
若w存在，则继续执行4，如果w不存在，则回到第1步，将从v的下一个结点继续。
若w未被访问，对w进行深度优先遍历递归（即把w当做另一个V，然后进行步骤123）。
若w已被访问，查找结点v 的邻接结点w 的下一个邻接结点，转到步骤3。

在这里插入图片描述

/**
 * 得到第一个邻接结点的下标 w
 *
 * @param index
 * @return 如果存在就返回对应的下标，否则返回-1
 */
public int getFirstNeighbor(int index) {
    for (int j = 0; j < vertexList.size(); j++) {
        if (edges[index][j] > 0) {
            return j;
        }
    }
    return -1;
}

// 根据前一个邻接结点v2的下标来获取下一个邻接结点
public int getNextNeighbor(int v1, int v2) {
    for (int j = v2 + 1; j < vertexList.size(); j++) {
        if (edges[v1][j] > 0) {
            return j;
        }
    }
    return -1;
}

// 深度优先遍历算法
// i 第一次就是 0
private void dfs(boolean[] isVisited, int i) {
    // 访问该结点并输出
    System.out.print(getValueByIndex(i) + "->");
    // 将结点设置为已经访问
    isVisited[i] = true;
    // 查找结点 i 的第一个邻接结点w
    int w = getFirstNeighbor(i);
    while (w != -1) {// 说明下一个结点存在
        // 如果没被访问过
        if (!isVisited[w]) {
            dfs(isVisited, w);
        }
        // 若w已被访问，查找结点 i 的邻接结点w 的下一个邻接结点
        w = getNextNeighbor(i, w);
    }
}

// 对dfs 进行一个重载，遍历我们所有的结点，并进行dfs
public void dfs() {
    // 遍历所有的结点，进行dfs [回溯]
    for (int i = 0; i < getNumOfVertex(); i++) {
        // 若 i 存在，则继续执行，如果i不存在，则回到第1步，将从i的下一个结点继续。
        if (!isVisited[i]) { // 如果还未被访问过
            dfs(isVisited, i);
        }
    }
}

广度优先遍历基本思想（*代码带考察）

类似于一个分层搜索的过程，广度优先遍历需要使用一个队列以保持访问过的结点的顺序，以便按这个顺序来访问这些结点的邻接结点

广度优先遍历算法步骤

访问初始结点v并标记结点v为已访问。
结点v入队列
当队列非空时，继续执行，否则算法结束。
出队列，取得队头结点u。
查找结点u的第一个邻接结点w:
若结点u的邻接结点w不存在，则转到步骤3；否则循环执行以下三个步骤：
1. 若结点w尚未被访问，则访问结点w并标记为已访问。
2. 结点w入队列
3. 查找结点u的继w邻接结点后的下一个邻接结点w，转到步骤6。

// 广度优先遍历算法
// 对一个结点进行广度优先遍历的方法
private void bfs(boolean[] isVisited, int i) {
    int u; // 表示队列的头结点对应的下标
    int w; // 邻接节点w
    // 队列，记录结点访问的顺序
    LinkedList queue = new LinkedList();
    // 访问结点，输出结点信息
    System.out.println(getValueByIndex(i) + "=>");
    // 标记为已访问
    isVisited[i] = true;
    // 将结点加入队列
    queue.addLast(i);
    // 循环从队列中取出头结点
    while (!queue.isEmpty()) {
        // 取出队列的头结点
        u = (Integer) queue.removeFirst();
        // 得到第一个邻接结点的下标 w
        w = getFirstNeighbor(u);
        while (w != -1) {// 找到
            // 是否访问过
            if (!isVisited[w]) {// 未访问
                System.out.println(getValueByIndex(i) + "=>");
                // 标记已访问
                isVisited[w] = true;
                // 入队列
                queue.addLast(w);
            }
            // 以u为前驱点，找w后的下一个邻结点
            w = getNextNeighbor(u, w); // 体现出广度优先
        }
    }

}

// 遍历所有的结点，都进行广度优先搜索
public void bfs() {
    for (int i = 0; i < getNumOfVertex(); i++) {
        if (!isVisited[i]) {// 如果未访问
            bfs(isVisited, i);
        }
    }
}

代码

在这里插入图片描述

package com.xiaolu.graph;


import java.util.ArrayList;
import java.util.Arrays;
import java.util.LinkedHashMap;
import java.util.LinkedList;

/**
 * @author 林小鹿
 * @version 1.0
 */

public class Graph {

    private ArrayList<String> vertexList; // 存储顶点集合
    private int[][] edges; // 存储图对应的邻接矩阵，0表示没有联系， 1表示有联系
    private int numOfEdge; // 表示边的数目
    // 定义给数组boolean[]，记录某个结点是否被访问
    private boolean[] isVisited;

    public static void main(String[] args) {
        int n = 8; // 结点个数
//        String Vertexes[] = {"A", "B", "C", "D", "E"};
        String Vertexes[] = {"1", "2", "3", "4", "5", "6", "7", "8"};
        // 创建图对象
        Graph graph = new Graph(n);
        // 循环添加顶点
        for (String vertex : Vertexes) {
            graph.insertVertex(vertex);
        }

        // 添加边
//        // A-B A-C B-C B-D B-E
//        graph.insertEdge(0, 1, 1);
//        graph.insertEdge(0, 2, 1);
//        graph.insertEdge(1, 2, 1);
//        graph.insertEdge(1, 3, 1);
//        graph.insertEdge(1, 4, 1);

        //更新边的关系
        graph.insertEdge(0, 1, 1);
        graph.insertEdge(0, 2, 1);
        graph.insertEdge(1, 3, 1);
        graph.insertEdge(1, 4, 1);
        graph.insertEdge(3, 7, 1);
        graph.insertEdge(4, 7, 1);
        graph.insertEdge(2, 5, 1);
        graph.insertEdge(2, 6, 1);
        graph.insertEdge(5, 6, 1);

        // 显示邻接矩阵
        graph.showGraph();

        // 深度优先算法遍历
        System.out.println("深度优先算法遍历");
        graph.dfs(); // 1->2->4->8->5->3->6->7
        System.out.println();
        System.out.println("广度优先算法遍历");
        graph.bfs(); // 1=>2=>3=>4=>5=>6=>7=>8
    }

    public Graph(int n) { // n 表示顶点个数
        // 初始化矩阵和集合
        edges = new int[n][n];
        vertexList = new ArrayList<>(n);
        numOfEdge = 0;

    }

    /**
     * 得到第一个邻接结点的下标 w
     *
     * @param index
     * @return 如果存在就返回对应的下标，否则返回-1
     */
    public int getFirstNeighbor(int index) {
        for (int j = 0; j < vertexList.size(); j++) {
            if (edges[index][j] > 0) {
                return j;
            }
        }
        return -1;
    }

    // 根据前一个邻接结点v2的下标来获取下一个邻接结点
    public int getNextNeighbor(int v1, int v2) {
        for (int j = v2 + 1; j < vertexList.size(); j++) {
            if (edges[v1][j] > 0) {
                return j;
            }
        }
        return -1;
    }

    // 深度优先遍历算法
    // i 第一次就是 0
    private void dfs(boolean[] isVisited, int i) {
        // 访问该结点并输出
        System.out.print(getValueByIndex(i) + "->");
        // 将结点设置为已经访问
        isVisited[i] = true;
        // 查找结点 i 的第一个邻接结点w
        int w = getFirstNeighbor(i);
        while (w != -1) {// 说明下一个结点存在
            // 如果没被访问过
            if (!isVisited[w]) {
                dfs(isVisited, w);
            }
            // 若w已被访问，查找结点 i 的邻接结点w 的下一个邻接结点
            w = getNextNeighbor(i, w);

        }
    }

    // 对dfs 进行一个重载，遍历我们所有的结点，并进行深度优先
    public void dfs() {
        isVisited = new boolean[vertexList.size()];
        // 遍历所有的结点，进行dfs [回溯]
        for (int i = 0; i < getNumOfVertex(); i++) {
            // 若 i 存在，则继续执行，如果i不存在，则回到第1步，将从i的下一个结点继续。
            if (!isVisited[i]) { // 如果还未被访问过
                dfs(isVisited, i);
            }
        }
    }

    // 广度优先遍历算法
    // 对一个结点进行广度优先遍历的方法
    private void bfs(boolean[] isVisited, int i) {
        int u; // 表示队列的头结点对应的下标
        int w; // 邻接节点w
        // 队列，记录结点访问的顺序
        LinkedList queue = new LinkedList();
        // 访问结点，输出结点信息
        System.out.print(getValueByIndex(i) + "=>");
        // 标记为已访问
        isVisited[i] = true;
        // 将结点加入队列
        queue.addLast(i);
        // 循环从队列中取出头结点
        while (!queue.isEmpty()) {
            // 取出队列的头结点
            u = (Integer) queue.removeFirst();
            // 得到第一个邻接结点的下标 w
            w = getFirstNeighbor(u);
            while (w != -1) {// 找到
                // 是否访问过
                if (!isVisited[w]) {// 未访问
                    System.out.print(getValueByIndex(w) + "=>");
                    // 标记已访问
                    isVisited[w] = true;
                    // 入队列
                    queue.addLast(w);
                }
                // 以u为前驱点，找w后的下一个邻结点
                w = getNextNeighbor(u, w); // 体现出广度优先
            }
        }

    }

    // 遍历所有的结点，都进行广度优先搜索
    public void bfs() {
        isVisited = new boolean[vertexList.size()];
        for (int i = 0; i < getNumOfVertex(); i++) {
            if (!isVisited[i]) {// 如果未访问
                bfs(isVisited, i);
            }
        }
    }

    // 插入结点
    public void insertVertex(String vertex) {
        vertexList.add(vertex);
    }

    /**
     * 更新邻接矩阵的值【添加边】
     *
     * @param v1     表示点的下标，即第几个顶点 "A"-"B" "A"->0 "B"->1
     * @param v2     表示第二个顶点对应的下标
     * @param weight 表示 邻接矩阵中的权值.  此时 0 表示 不可连通，1 表示可连通【有关联】
     */
    public void insertEdge(int v1, int v2, int weight) {
        edges[v1][v2] = weight;
        edges[v2][v1] = weight;
        numOfEdge++;
    }

    // 添加一些图中常用方法
    // 返回结点的个数
    public int getNumOfVertex() {
        return vertexList.size();
    }

    // 返回边的数目
    public int getNumOfEdges() {
        return numOfEdge;
    }

    // 返回结点i(下标)对应的数据 0 ->"A" 1->"B" 2->"C"
    public String getValueByIndex(int i) {
        return vertexList.get(i);
    }

    // 返回v1和v2的权值
    public int getWeight(int v1, int v2) {
        return edges[v1][v2];
    }

    // 显示图对应的矩阵
    public void showGraph() {
        for (int[] link : edges) {
            System.err.println(Arrays.toString(link));
        }
    }
}