hadoop-streaming多输入join与shuffle原理解读-CFANZ编程社区

多个输入的join在reducer的写法

def read_mapper_output(file,separator='\t'):
    for line in file:
        yield line.rstrip().split(separator,1)

def main(separator='\t'):
    data=read_mapper_output(sys.stdin,separator=separator)
    for feature, group in groupby(data, itemgetter(0)):
        encode = ''
        for info in group:
            try:
                items = info[1].split('\t')

多个输入的join在mapper的写法

import os

if "map_input_file" in os.environ:
    map_input_file = os.environ["map_input_file"]
else:
    map_input_file = 'youtube/deepfm'

with open(0, 'r', errors='ignore') as f_in:
    if 'youtube/fm/v2' in map_input_file:
        print('\t'.join([feature, 'encode', encode]))
    if 'youtube/deepfm' in map_input_file:
        print('\t'.join([feature, 'sample', encode]))

本地验证itertools的groupby

from itertools import groupby
from operator import itemgetter
x = [['2', '\t'.join(['sample', 'train'])], ['1', '\t'.join(['encode', 'pred'])], ['1', '\t'.join(['sample', 'pred'])]]
soooo = sorted(x, key=itemgetter(0))
for feature, group in groupby(soooo, key=itemgetter(0)):
    for info in group:
        print(info)
        print(f'feature: {feature}  info[1]: {info[1]}')

实验结果

['1', 'encode\tpred']
feature: 1  info[1]: encode  pred
['1', 'sample\tpred']
feature: 1  info[1]: sample  pred
['2', 'sample\ttrain']
feature: 2  info[1]: sample  train