auto_paras_search_data_ratio_generate.py
import subprocess
import pandas as pd
import os
import itertools
import warnings
warnings.filterwarnings("ignore")
# 🌹 Lang_Ratio: 按照语言个数划分阶梯
d_list = [
{'lang': ['en', 'id', 'vi', 'th', 'ms', 'sft'],
'lang_ratio': [0.5, 0.125, 0.125, 0.125, 0.125, 0.065]}, # 单语言阶梯配比
{'lang': ['en', 'id', 'vi', 'th', 'ms', 'sft'],
'lang_ratio': [0.35, 0.1, 0.1, 0.35, 0.1, 0.065]}, # 双主语言阶梯配比
{'lang': ['en', 'id', 'vi', 'th', 'ms', 'sft'],
'lang_ratio': [0.2, 0.2, 0.2, 0.2, 0.2, 0.06