0
点赞
收藏
分享

微信扫一扫

【大数据面试题】012 谈谈 Hive 性能优化常用的方法

alanwhy 2024-03-04 阅读 6
数据结构

图是一种数据结构,其中结点可以具有零个或多个相邻元素。两个结点之间的连接称为边。结点也可以称为顶点。

  • 顶点(vertex)

  • 边(edge)

  • 路径

  • 无向图:顶点之间的连接没有方向

  • 有向图:顶点之间的连接有方向

  • 带权图:边带权值的图,也叫网

  • 图的表现方式

    • 二维数组表示(邻接矩阵)
    • 链表表示(邻接表)

邻接矩阵

邻接矩阵是表示图形中顶点之间相邻关系的矩阵,对于n个顶点的图而言,矩阵是的row和col表示的是1……n个点

在这里插入图片描述


代码

在这里插入图片描述

package com.xiaolu.graph;


import sun.java2d.windows.GDIRenderer;

import java.util.ArrayList;
import java.util.Arrays;

/**
 * 邻接矩阵
 */

public class Graph {

    private ArrayList<String> vertexList; // 存储顶点集合
    private int[][] edges; // 存储图对应的邻接矩阵
    private int numOfEdge; // 表示边的数目

    public static void main(String[] args) {
        int n = 5; // 结点个数
        String Vertexes[] = {"A", "B", "C", "D", "E"};
        // 创建图对象
        Graph graph = new Graph(n);
        // 循环添加顶点
        for (String vertex : Vertexes) {
            graph.insertVertex(vertex);
        }

        // 添加边
        // A-B A-C B-C B-D B-E
        graph.insertEdge(0, 1, 1);
        graph.insertEdge(0, 2, 1);
        graph.insertEdge(1, 2, 1);
        graph.insertEdge(1, 3, 1);
        graph.insertEdge(1, 4, 1);

        // 显示邻接矩阵
        graph.showGraph();

    }

    public Graph(int n) { // n 表示顶点个数
        // 初始化矩阵和集合
        edges = new int[n][n];
        vertexList = new ArrayList<>(n);
        numOfEdge = 0;
    }

    // 插入结点
    public void insertVertex(String vertex) {
        vertexList.add(vertex);
    }

    /**
     * 更新邻接矩阵的值【添加边】
     *
     * @param v1     表示点的下标,即第几个顶点 "A"-"B" "A"->0 "B"->1
     * @param v2     表示第二个顶点对应的下标
     * @param weight 表示 邻接矩阵中的权值.  此时 0 表示 不可连通,1 表示可连通【有关联】
     */
    public void insertEdge(int v1, int v2, int weight) {
        edges[v1][v2] = weight;
        edges[v2][v1] = weight;
        numOfEdge++;
    }

    // 添加一些图中常用方法
    // 返回结点的个数
    public int getNumOfEdge() {
        return vertexList.size();
    }

    // 返回边的数目
    public int getNumOfEdges() {
        return numOfEdge;
    }

    // 返回结点i(下标)对应的数据 0 ->"A" 1->"B" 2->"C"
    public String getValueByIndex(int i) {
        return vertexList.get(i);
    }

    // 返回v1和v2的权值
    public int getWeight(int v1, int v2) {
        return edges[v1][v2];
    }

    // 显示图对应的矩阵
    public void showGraph() {
        for (int[] link : edges) {
            System.err.println(Arrays.toString(link));
        }
    }
}

邻接表

  1. 邻接矩阵需要为每个顶点都分配n个边的空间,其实有很多边都是不存在,会造成空间的一定损失
  2. 邻接表的实现只关心存在的边,不关心不存在的边。因此没有空间浪费,邻接表由数组+链表组成

在这里插入图片描述


图的深度

图遍历介绍

所谓图的遍历,即是对结点的访问。一个图有那么多个结点,如何遍历这些结点,需要特定策略,一般有两种访问策略:

  1. 深度优先遍历【纵向】
  2. 广度优先遍历【横向】

深度优先遍历基本思想(*代码带考察)

  1. 深度优先遍历,从初始访问结点出发,初始访问结点可能有多个邻接结点,深度优先遍历的策略就是首先访问第一个邻接结点,然后再以这个被访问的邻接结点作为初始结点,访问它的第一个邻接结点,可以这样理解:每次都在访问完当前结点后首先访问当前结点的第一个邻接结点
  2. 我们可以看到,这样的访问策略是优先往纵向挖掘深入,而不是对一个结点的所有邻接结点进行横向访问。
  3. 显然,深度优先搜索是一个递归的过程

深度优先遍历算法步骤:

  1. 访问初始结点v,并标记结点v为已访问。
  2. 查找结点v 的第一个邻接结点w。
  3. 若w存在,则继续执行4,如果w不存在,则回到第1步,将从v的下一个结点继续。
  4. 若w未被访问,对w进行深度优先遍历递归(即把w当做另一个V,然后进行步骤123)。
  5. 若w已被访问,查找结点v 的邻接结点w 的下一个邻接结点,转到步骤3。

在这里插入图片描述

/**
 * 得到第一个邻接结点的下标 w
 *
 * @param index
 * @return 如果存在就返回对应的下标,否则返回-1
 */
public int getFirstNeighbor(int index) {
    for (int j = 0; j < vertexList.size(); j++) {
        if (edges[index][j] > 0) {
            return j;
        }
    }
    return -1;
}

// 根据前一个邻接结点v2的下标来获取下一个邻接结点
public int getNextNeighbor(int v1, int v2) {
    for (int j = v2 + 1; j < vertexList.size(); j++) {
        if (edges[v1][j] > 0) {
            return j;
        }
    }
    return -1;
}

// 深度优先遍历算法
// i 第一次就是 0
private void dfs(boolean[] isVisited, int i) {
    // 访问该结点并输出
    System.out.print(getValueByIndex(i) + "->");
    // 将结点设置为已经访问
    isVisited[i] = true;
    // 查找结点 i 的第一个邻接结点w
    int w = getFirstNeighbor(i);
    while (w != -1) {// 说明下一个结点存在
        // 如果没被访问过
        if (!isVisited[w]) {
            dfs(isVisited, w);
        }
        // 若w已被访问,查找结点 i 的邻接结点w 的下一个邻接结点
        w = getNextNeighbor(i, w);
    }
}

// 对dfs 进行一个重载,遍历我们所有的结点,并进行dfs
public void dfs() {
    // 遍历所有的结点,进行dfs [回溯]
    for (int i = 0; i < getNumOfVertex(); i++) {
        // 若 i 存在,则继续执行,如果i不存在,则回到第1步,将从i的下一个结点继续。
        if (!isVisited[i]) { // 如果还未被访问过
            dfs(isVisited, i);
        }
    }
}

广度优先遍历基本思想(*代码带考察)

类似于一个分层搜索的过程,广度优先遍历需要使用一个队列以保持访问过的结点的顺序,以便按这个顺序来访问这些结点的邻接结点

广度优先遍历算法步骤

  1. 访问初始结点v并标记结点v为已访问。
  2. 结点v入队列
  3. 当队列非空时,继续执行,否则算法结束。
  4. 出队列,取得队头结点u。
  5. 查找结点u的第一个邻接结点w:
  6. 若结点u的邻接结点w不存在,则转到步骤3;否则循环执行以下三个步骤:
    1. 若结点w尚未被访问,则访问结点w并标记为已访问。
    2. 结点w入队列
    3. 查找结点u的继w邻接结点后的下一个邻接结点w,转到步骤6。
// 广度优先遍历算法
// 对一个结点进行广度优先遍历的方法
private void bfs(boolean[] isVisited, int i) {
    int u; // 表示队列的头结点对应的下标
    int w; // 邻接节点w
    // 队列,记录结点访问的顺序
    LinkedList queue = new LinkedList();
    // 访问结点,输出结点信息
    System.out.println(getValueByIndex(i) + "=>");
    // 标记为已访问
    isVisited[i] = true;
    // 将结点加入队列
    queue.addLast(i);
    // 循环从队列中取出头结点
    while (!queue.isEmpty()) {
        // 取出队列的头结点
        u = (Integer) queue.removeFirst();
        // 得到第一个邻接结点的下标 w
        w = getFirstNeighbor(u);
        while (w != -1) {// 找到
            // 是否访问过
            if (!isVisited[w]) {// 未访问
                System.out.println(getValueByIndex(i) + "=>");
                // 标记已访问
                isVisited[w] = true;
                // 入队列
                queue.addLast(w);
            }
            // 以u为前驱点,找w后的下一个邻结点
            w = getNextNeighbor(u, w); // 体现出广度优先
        }
    }

}

// 遍历所有的结点,都进行广度优先搜索
public void bfs() {
    for (int i = 0; i < getNumOfVertex(); i++) {
        if (!isVisited[i]) {// 如果未访问
            bfs(isVisited, i);
        }
    }
}

代码

在这里插入图片描述

package com.xiaolu.graph;


import java.util.ArrayList;
import java.util.Arrays;
import java.util.LinkedHashMap;
import java.util.LinkedList;

/**
 * @author 林小鹿
 * @version 1.0
 */

public class Graph {

    private ArrayList<String> vertexList; // 存储顶点集合
    private int[][] edges; // 存储图对应的邻接矩阵,0表示没有联系, 1表示有联系
    private int numOfEdge; // 表示边的数目
    // 定义给数组boolean[],记录某个结点是否被访问
    private boolean[] isVisited;

    public static void main(String[] args) {
        int n = 8; // 结点个数
//        String Vertexes[] = {"A", "B", "C", "D", "E"};
        String Vertexes[] = {"1", "2", "3", "4", "5", "6", "7", "8"};
        // 创建图对象
        Graph graph = new Graph(n);
        // 循环添加顶点
        for (String vertex : Vertexes) {
            graph.insertVertex(vertex);
        }

        // 添加边
//        // A-B A-C B-C B-D B-E
//        graph.insertEdge(0, 1, 1);
//        graph.insertEdge(0, 2, 1);
//        graph.insertEdge(1, 2, 1);
//        graph.insertEdge(1, 3, 1);
//        graph.insertEdge(1, 4, 1);

        //更新边的关系
        graph.insertEdge(0, 1, 1);
        graph.insertEdge(0, 2, 1);
        graph.insertEdge(1, 3, 1);
        graph.insertEdge(1, 4, 1);
        graph.insertEdge(3, 7, 1);
        graph.insertEdge(4, 7, 1);
        graph.insertEdge(2, 5, 1);
        graph.insertEdge(2, 6, 1);
        graph.insertEdge(5, 6, 1);

        // 显示邻接矩阵
        graph.showGraph();

        // 深度优先算法遍历
        System.out.println("深度优先算法遍历");
        graph.dfs(); // 1->2->4->8->5->3->6->7
        System.out.println();
        System.out.println("广度优先算法遍历");
        graph.bfs(); // 1=>2=>3=>4=>5=>6=>7=>8
    }

    public Graph(int n) { // n 表示顶点个数
        // 初始化矩阵和集合
        edges = new int[n][n];
        vertexList = new ArrayList<>(n);
        numOfEdge = 0;

    }

    /**
     * 得到第一个邻接结点的下标 w
     *
     * @param index
     * @return 如果存在就返回对应的下标,否则返回-1
     */
    public int getFirstNeighbor(int index) {
        for (int j = 0; j < vertexList.size(); j++) {
            if (edges[index][j] > 0) {
                return j;
            }
        }
        return -1;
    }

    // 根据前一个邻接结点v2的下标来获取下一个邻接结点
    public int getNextNeighbor(int v1, int v2) {
        for (int j = v2 + 1; j < vertexList.size(); j++) {
            if (edges[v1][j] > 0) {
                return j;
            }
        }
        return -1;
    }

    // 深度优先遍历算法
    // i 第一次就是 0
    private void dfs(boolean[] isVisited, int i) {
        // 访问该结点并输出
        System.out.print(getValueByIndex(i) + "->");
        // 将结点设置为已经访问
        isVisited[i] = true;
        // 查找结点 i 的第一个邻接结点w
        int w = getFirstNeighbor(i);
        while (w != -1) {// 说明下一个结点存在
            // 如果没被访问过
            if (!isVisited[w]) {
                dfs(isVisited, w);
            }
            // 若w已被访问,查找结点 i 的邻接结点w 的下一个邻接结点
            w = getNextNeighbor(i, w);

        }
    }

    // 对dfs 进行一个重载,遍历我们所有的结点,并进行深度优先
    public void dfs() {
        isVisited = new boolean[vertexList.size()];
        // 遍历所有的结点,进行dfs [回溯]
        for (int i = 0; i < getNumOfVertex(); i++) {
            // 若 i 存在,则继续执行,如果i不存在,则回到第1步,将从i的下一个结点继续。
            if (!isVisited[i]) { // 如果还未被访问过
                dfs(isVisited, i);
            }
        }
    }

    // 广度优先遍历算法
    // 对一个结点进行广度优先遍历的方法
    private void bfs(boolean[] isVisited, int i) {
        int u; // 表示队列的头结点对应的下标
        int w; // 邻接节点w
        // 队列,记录结点访问的顺序
        LinkedList queue = new LinkedList();
        // 访问结点,输出结点信息
        System.out.print(getValueByIndex(i) + "=>");
        // 标记为已访问
        isVisited[i] = true;
        // 将结点加入队列
        queue.addLast(i);
        // 循环从队列中取出头结点
        while (!queue.isEmpty()) {
            // 取出队列的头结点
            u = (Integer) queue.removeFirst();
            // 得到第一个邻接结点的下标 w
            w = getFirstNeighbor(u);
            while (w != -1) {// 找到
                // 是否访问过
                if (!isVisited[w]) {// 未访问
                    System.out.print(getValueByIndex(w) + "=>");
                    // 标记已访问
                    isVisited[w] = true;
                    // 入队列
                    queue.addLast(w);
                }
                // 以u为前驱点,找w后的下一个邻结点
                w = getNextNeighbor(u, w); // 体现出广度优先
            }
        }

    }

    // 遍历所有的结点,都进行广度优先搜索
    public void bfs() {
        isVisited = new boolean[vertexList.size()];
        for (int i = 0; i < getNumOfVertex(); i++) {
            if (!isVisited[i]) {// 如果未访问
                bfs(isVisited, i);
            }
        }
    }

    // 插入结点
    public void insertVertex(String vertex) {
        vertexList.add(vertex);
    }

    /**
     * 更新邻接矩阵的值【添加边】
     *
     * @param v1     表示点的下标,即第几个顶点 "A"-"B" "A"->0 "B"->1
     * @param v2     表示第二个顶点对应的下标
     * @param weight 表示 邻接矩阵中的权值.  此时 0 表示 不可连通,1 表示可连通【有关联】
     */
    public void insertEdge(int v1, int v2, int weight) {
        edges[v1][v2] = weight;
        edges[v2][v1] = weight;
        numOfEdge++;
    }

    // 添加一些图中常用方法
    // 返回结点的个数
    public int getNumOfVertex() {
        return vertexList.size();
    }

    // 返回边的数目
    public int getNumOfEdges() {
        return numOfEdge;
    }

    // 返回结点i(下标)对应的数据 0 ->"A" 1->"B" 2->"C"
    public String getValueByIndex(int i) {
        return vertexList.get(i);
    }

    // 返回v1和v2的权值
    public int getWeight(int v1, int v2) {
        return edges[v1][v2];
    }

    // 显示图对应的矩阵
    public void showGraph() {
        for (int[] link : edges) {
            System.err.println(Arrays.toString(link));
        }
    }
}
举报

相关推荐

0 条评论