0
点赞
收藏
分享

微信扫一扫

Git仓库体积精简

金牛豆豆 2022-04-03 阅读 43

背景

本文将介绍如果工作上遇到了git新手向远程仓库提交大体积文件或者文件夹的处理方法

精简仓库基本流程

  1. 查找大文件
  2. 遍历提交记录并删除大文件对象
  3. 本地仓库回收空间
  4. 强制推送至远端
  5. 重新拉取仓库

<!--more-->

查看本地仓库体积

git count-objects -vH

效果如下:
Git仓库体积精简

查找大文件

git rev-list --all --objects | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}')"

效果如下:
Git仓库体积精简

  1. git rev-list --all --objects: 按时间倒序遍历时候commit,并罗列出每次提交所有对象和对象ID
  2. git verify-pack -v .git/objects/pack/*.idx:这个命令是用来验证git pack-objects打包的Git归档文件并显示归档详情
  3. git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}': 遍历.git下面idx文件,查找历史大文件,并按照大小进行排序,列出最大的3个对象id

流程:每当git rev-list --all --objects输出一次结果时,先获取"$()"的结果 ,最后通过grep来匹配

弊端: 当对象数量较多时,此命令效率会很低

如果耗时过长可分步骤来查找大文件,步骤如下:

  1. git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3: 查找历史大文件,并按照大小进行排序,列出最大的3个对象id
    效果如下:
    Git仓库体积精简
  2. git rev-list --objects --all | grep 60ecdaf1da26086feb8e6cb56f9843f6cf2029b6: 查看指定对象id的对象信息
    效果如下:
    Git仓库体积精简

    遍历提交记录并删除大文件对象

    注意: 本地仓库不能有修改

git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch 大文件路径' --prune-empty --tag-name-filter cat -- --all

例如:git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch env/automake-1.15.tar<br/>' --prune-empty --tag-name-filter cat -- --all
效果如下:
Git仓库体积精简

本地仓库回收空间

rm -rf .git/refs/original/              # 删除本地仓库引用
git reflog expire --expire=now --all    # 设置所有reflog条目现在过期
git gc --aggressive --prune=now         # 回收空间,移除无效或异常的文件

回收完成之后再次执行git count-objects -vH

结果如下:
Git仓库体积精简

强制推送至远端

git push origin --force --all

重新拉取仓库

不能在原先的本地仓库拉取代码,不然会进行合并,导致本地仓库更大

参考资料

  • Git 瘦身代码库,永久删除大文件
  • Git项目过大清理(针对大文件)
举报

相关推荐

0 条评论