0
点赞
收藏
分享

微信扫一扫

【Linux】Linux Bash Shell 教程

晗韩不普通 2024-08-31 阅读 6
python算法

一、批量生成配比

# 保证element + "en"的总体占比不变
# 从element_min_ratio到element_max_ratio,生成element在这个范围内的超参搜索配比。
import pandas as pd
import numpy as np
pd.set_option('display.max_colwidth', None)

df = pd.read_csv("qwen2_data_ratio_lan17_dclm_code.csv", dtype={'dir': str, 'lang': str, 'size': float})
df_grouped = df.groupby(['lang']).sum().rename(columns={"size":"total_size"})
df_grouped.reset_index()

initial_lang = ['en','zh','es','fr','pt','ko','ja','tr','vi','th','ms','id','ar','it','de','pl','ur','sft','edu'
举报

相关推荐

0 条评论