dnet-hadoop/dhp-workflows/dhp-aggregation/src/main/java/eu/dnetlib/dhp/collection/GenerateNativeStoreSparkJob...


package eu.dnetlib.dhp.collection;

import static eu.dnetlib.dhp.aggregation.common.AggregationUtility.*;
import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;

import java.io.*;
import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.Objects;
import java.util.Optional;

import org.apache.commons.io.IOUtils;
import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.MapFunction;
import org.apache.spark.sql.*;
import org.apache.spark.sql.expressions.Aggregator;
import org.apache.spark.util.LongAccumulator;
import org.dom4j.Document;
import org.dom4j.Node;
import org.dom4j.io.SAXReader;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.fasterxml.jackson.core.JsonProcessingException;
import com.fasterxml.jackson.databind.ObjectMapper;

import eu.dnetlib.data.mdstore.manager.common.model.MDStoreVersion;
import eu.dnetlib.dhp.application.ArgumentApplicationParser;
import eu.dnetlib.dhp.collection.worker.CollectorWorkerApplication;
import eu.dnetlib.dhp.model.mdstore.MetadataRecord;
import eu.dnetlib.dhp.model.mdstore.Provenance;
import net.sf.saxon.expr.Component;
import scala.Tuple2;

public class GenerateNativeStoreSparkJob {

	private static final Logger log = LoggerFactory.getLogger(GenerateNativeStoreSparkJob.class);

	private static final ObjectMapper MAPPER = new ObjectMapper();

	private static final String DATASET_NAME = "/store";

	public static void main(String[] args) throws Exception {

		final ArgumentApplicationParser parser = new ArgumentApplicationParser(
			IOUtils
				.toString(
					GenerateNativeStoreSparkJob.class
						.getResourceAsStream(
							"/eu/dnetlib/dhp/collection/collection_input_parameters.json")));
		parser.parseArgument(args);

		final String provenanceArgument = parser.get("provenance");
		log.info("Provenance is {}", provenanceArgument);
		final Provenance provenance = MAPPER.readValue(provenanceArgument, Provenance.class);

		final String dateOfCollectionArgs = parser.get("dateOfCollection");
		log.info("dateOfCollection is {}", dateOfCollectionArgs);
		final Long dateOfCollection = new Long(dateOfCollectionArgs);

		String mdStoreVersion = parser.get("mdStoreVersion");
		log.info("mdStoreVersion is {}", mdStoreVersion);

		final MDStoreVersion currentVersion = MAPPER.readValue(mdStoreVersion, MDStoreVersion.class);

		String readMdStoreVersionParam = parser.get("readMdStoreVersion");
		log.info("readMdStoreVersion is {}", readMdStoreVersionParam);

		final MDStoreVersion readMdStoreVersion = StringUtils.isBlank(readMdStoreVersionParam) ? null
			: MAPPER.readValue(readMdStoreVersionParam, MDStoreVersion.class);

		final String xpath = parser.get("xpath");
		log.info("xpath is {}", xpath);

		final String encoding = parser.get("encoding");
		log.info("encoding is {}", encoding);

		Boolean isSparkSessionManaged = Optional
			.ofNullable(parser.get("isSparkSessionManaged"))
			.map(Boolean::valueOf)
			.orElse(Boolean.TRUE);
		log.info("isSparkSessionManaged: {}", isSparkSessionManaged);

		SparkConf conf = new SparkConf();
		/*
		 * conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"); conf .registerKryoClasses( new
		 * Class[] { MetadataRecord.class, Provenance.class });
		 */

		runWithSparkSession(
			conf,
			isSparkSessionManaged,
			spark -> createNativeMDStore(
				spark, provenance, dateOfCollection, xpath, encoding, currentVersion, readMdStoreVersion));
	}

	private static void createNativeMDStore(SparkSession spark,
		Provenance provenance,
		Long dateOfCollection,
		String xpath,
		String encoding,
		MDStoreVersion currentVersion,
		MDStoreVersion readVersion) throws IOException {
		final JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());

		final LongAccumulator totalItems = sc.sc().longAccumulator("TotalItems");
		final LongAccumulator invalidRecords = sc.sc().longAccumulator("InvalidRecords");

		final String seqFilePath = currentVersion.getHdfsPath() + CollectorWorkerApplication.SEQUENCE_FILE_NAME;
		final JavaRDD<MetadataRecord> nativeStore = sc
			.sequenceFile(seqFilePath, IntWritable.class, Text.class)
			.map(
				item -> parseRecord(
					item._2().toString(),
					xpath,
					encoding,
					provenance,
					dateOfCollection,
					totalItems,
					invalidRecords))
			.filter(Objects::nonNull)
			.distinct();

		final Encoder<MetadataRecord> encoder = Encoders.bean(MetadataRecord.class);
		final Dataset<MetadataRecord> mdstore = spark.createDataset(nativeStore.rdd(), encoder);

		final String targetPath = currentVersion.getHdfsPath() + DATASET_NAME;

		if (readVersion != null) { // INCREMENTAL MODE
			log.info("updating {} incrementally with {}", targetPath, readVersion.getHdfsPath());
			Dataset<MetadataRecord> currentMdStoreVersion = spark
				.read()
				.load(readVersion.getHdfsPath() + DATASET_NAME)
				.as(encoder);
			TypedColumn<MetadataRecord, MetadataRecord> aggregator = new MDStoreAggregator().toColumn();

			final Dataset<MetadataRecord> map = currentMdStoreVersion
				.union(mdstore)
				.groupByKey(
					(MapFunction<MetadataRecord, String>) MetadataRecord::getId,
					Encoders.STRING())
				.agg(aggregator)
				.map((MapFunction<Tuple2<String, MetadataRecord>, MetadataRecord>) Tuple2::_2, encoder);

			map.select("id").takeAsList(100).forEach(s -> log.info(s.toString()));

			saveDataset(map, targetPath);

		} else {
			saveDataset(mdstore, targetPath);
		}

		final Long total = spark.read().load(targetPath).count();
		log.info("collected {} records for datasource '{}'", total, provenance.getDatasourceName());

		writeTotalSizeOnHDFS(spark, total, currentVersion.getHdfsPath() + "/size");
	}

	public static class MDStoreAggregator extends Aggregator<MetadataRecord, MetadataRecord, MetadataRecord> {

		@Override
		public MetadataRecord zero() {
			return null;
		}

		@Override
		public MetadataRecord reduce(MetadataRecord b, MetadataRecord a) {
			return getLatestRecord(b, a);
		}

		@Override
		public MetadataRecord merge(MetadataRecord b, MetadataRecord a) {
			return getLatestRecord(b, a);
		}

		private MetadataRecord getLatestRecord(MetadataRecord b, MetadataRecord a) {
			if (b == null)
				return a;

			if (a == null)
				return b;
			return (a.getDateOfCollection() > b.getDateOfCollection()) ? a : b;
		}

		@Override
		public MetadataRecord finish(MetadataRecord r) {
			return r;
		}

		@Override
		public Encoder<MetadataRecord> bufferEncoder() {
			return Encoders.bean(MetadataRecord.class);
		}

		@Override
		public Encoder<MetadataRecord> outputEncoder() {
			return Encoders.bean(MetadataRecord.class);
		}

	}

	public static MetadataRecord parseRecord(
		final String input,
		final String xpath,
		final String encoding,
		final Provenance provenance,
		final Long dateOfCollection,
		final LongAccumulator totalItems,
		final LongAccumulator invalidRecords) {

		if (totalItems != null)
			totalItems.add(1);
		try {
			SAXReader reader = new SAXReader();
			Document document = reader.read(new ByteArrayInputStream(input.getBytes(StandardCharsets.UTF_8)));
			Node node = document.selectSingleNode(xpath);
			final String originalIdentifier = node.getText();
			if (StringUtils.isBlank(originalIdentifier)) {
				if (invalidRecords != null)
					invalidRecords.add(1);
				return null;
			}
			return new MetadataRecord(originalIdentifier, encoding, provenance, document.asXML(), dateOfCollection);
		} catch (Throwable e) {
			invalidRecords.add(1);
			return null;
		}
	}

}
switched automatic code formatting plugin to net.revelc.code.formatter:formatter-maven-plugin 2020-04-27 14:52:31 +02:00
added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00			`package eu.dnetlib.dhp.collection;`

WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`import static eu.dnetlib.dhp.aggregation.common.AggregationUtility.*;`
improved unit tests in dhp-aggregation 2020-05-05 12:39:04 +02:00			`import static eu.dnetlib.dhp.common.SparkSessionSupport.runWithSparkSession;`

WIP mdstore transaction implemented on hadoop side 2021-01-29 16:42:41 +01:00			`import java.io.*;`
introduced common project code formatting plugin, works on the commit hook, based on https://github.com/Cosium/git-code-format-maven-plugin, applied to each java class in the project 2020-04-18 12:42:58 +02:00			`import java.nio.charset.StandardCharsets;`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`import java.util.List;`
introduced common project code formatting plugin, works on the commit hook, based on https://github.com/Cosium/git-code-format-maven-plugin, applied to each java class in the project 2020-04-18 12:42:58 +02:00			`import java.util.Objects;`
improved unit tests in dhp-aggregation 2020-05-05 12:39:04 +02:00			`import java.util.Optional;`
reformatted code according to the updated style descriptor 2020-04-28 11:23:29 +02:00
Added documentation on a class, and reused ArgumetApplicationParser on dhp-aggregation 2019-10-07 17:02:53 +02:00			`import org.apache.commons.io.IOUtils;`
added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00			`import org.apache.commons.lang3.StringUtils;`
			`import org.apache.hadoop.io.IntWritable;`
			`import org.apache.hadoop.io.Text;`
improved unit tests in dhp-aggregation 2020-05-05 12:39:04 +02:00			`import org.apache.spark.SparkConf;`
added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00			`import org.apache.spark.api.java.JavaRDD;`
			`import org.apache.spark.api.java.JavaSparkContext;`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00			`import org.apache.spark.api.java.function.MapFunction;`
			`import org.apache.spark.sql.*;`
			`import org.apache.spark.sql.expressions.Aggregator;`
added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00			`import org.apache.spark.util.LongAccumulator;`
			`import org.dom4j.Document;`
			`import org.dom4j.Node;`
			`import org.dom4j.io.SAXReader;`
improved unit tests in dhp-aggregation 2020-05-05 12:39:04 +02:00			`import org.slf4j.Logger;`
			`import org.slf4j.LoggerFactory;`
added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`import com.fasterxml.jackson.core.JsonProcessingException;`
reformatted code according to the updated style descriptor 2020-04-28 11:23:29 +02:00			`import com.fasterxml.jackson.databind.ObjectMapper;`

WIP mdstore transaction implemented on hadoop side 2021-01-29 16:42:41 +01:00			`import eu.dnetlib.data.mdstore.manager.common.model.MDStoreVersion;`
reformatted code according to the updated style descriptor 2020-04-28 11:23:29 +02:00			`import eu.dnetlib.dhp.application.ArgumentApplicationParser;`
WIP mdstore transaction implemented on hadoop side 2021-01-29 16:42:41 +01:00			`import eu.dnetlib.dhp.collection.worker.CollectorWorkerApplication;`
reformatted code according to the updated style descriptor 2020-04-28 11:23:29 +02:00			`import eu.dnetlib.dhp.model.mdstore.MetadataRecord;`
			`import eu.dnetlib.dhp.model.mdstore.Provenance;`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`import net.sf.saxon.expr.Component;`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00			`import scala.Tuple2;`
reformatted code according to the updated style descriptor 2020-04-28 11:23:29 +02:00
added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00			`public class GenerateNativeStoreSparkJob {`

improved unit tests in dhp-aggregation 2020-05-05 12:39:04 +02:00			`private static final Logger log = LoggerFactory.getLogger(GenerateNativeStoreSparkJob.class);`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`private static final ObjectMapper MAPPER = new ObjectMapper();`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`private static final String DATASET_NAME = "/store";`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00			`public static void main(String[] args) throws Exception {`

			`final ArgumentApplicationParser parser = new ArgumentApplicationParser(`
Removed old messaging system not quite used from collection and Transformation workflow code refactor 2021-01-28 09:51:17 +01:00			`IOUtils`
			`.toString(`
			`GenerateNativeStoreSparkJob.class`
			`.getResourceAsStream(`
			`"/eu/dnetlib/dhp/collection/collection_input_parameters.json")));`
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00			`parser.parseArgument(args);`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00
Removed old messaging system not quite used from collection and Transformation workflow code refactor 2021-01-28 09:51:17 +01:00			`final String provenanceArgument = parser.get("provenance");`
			`log.info("Provenance is {}", provenanceArgument);`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`final Provenance provenance = MAPPER.readValue(provenanceArgument, Provenance.class);`
WIP mdstore transaction implemented on hadoop side 2021-01-29 16:42:41 +01:00
Removed old messaging system not quite used from collection and Transformation workflow code refactor 2021-01-28 09:51:17 +01:00			`final String dateOfCollectionArgs = parser.get("dateOfCollection");`
			`log.info("dateOfCollection is {}", dateOfCollectionArgs);`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`final Long dateOfCollection = new Long(dateOfCollectionArgs);`
WIP mdstore transaction implemented on hadoop side 2021-01-29 16:42:41 +01:00
			`String mdStoreVersion = parser.get("mdStoreVersion");`
			`log.info("mdStoreVersion is {}", mdStoreVersion);`

WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`final MDStoreVersion currentVersion = MAPPER.readValue(mdStoreVersion, MDStoreVersion.class);`
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00			`String readMdStoreVersionParam = parser.get("readMdStoreVersion");`
			`log.info("readMdStoreVersion is {}", readMdStoreVersionParam);`

			`final MDStoreVersion readMdStoreVersion = StringUtils.isBlank(readMdStoreVersionParam) ? null`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`: MAPPER.readValue(readMdStoreVersionParam, MDStoreVersion.class);`

			`final String xpath = parser.get("xpath");`
			`log.info("xpath is {}", xpath);`

			`final String encoding = parser.get("encoding");`
			`log.info("encoding is {}", encoding);`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00			`Boolean isSparkSessionManaged = Optional`
Removed old messaging system not quite used from collection and Transformation workflow code refactor 2021-01-28 09:51:17 +01:00			`.ofNullable(parser.get("isSparkSessionManaged"))`
			`.map(Boolean::valueOf)`
			`.orElse(Boolean.TRUE);`
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00			`log.info("isSparkSessionManaged: {}", isSparkSessionManaged);`

			`SparkConf conf = new SparkConf();`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`/*`
			`* conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"); conf .registerKryoClasses( new`
			`* Class[] { MetadataRecord.class, Provenance.class });`
			`*/`
Implemented a first prototype of incremental harvesting and trasformation using readlock 2021-02-01 13:56:05 +01:00
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00			`runWithSparkSession(`
Removed old messaging system not quite used from collection and Transformation workflow code refactor 2021-01-28 09:51:17 +01:00			`conf,`
			`isSparkSessionManaged,`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`spark -> createNativeMDStore(`
			`spark, provenance, dateOfCollection, xpath, encoding, currentVersion, readMdStoreVersion));`
removed duplicate code HttpConnector.java 2021-01-25 15:05:37 +01:00			`}`

WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`private static void createNativeMDStore(SparkSession spark,`
			`Provenance provenance,`
			`Long dateOfCollection,`
			`String xpath,`
			`String encoding,`
			`MDStoreVersion currentVersion,`
			`MDStoreVersion readVersion) throws IOException {`
			`final JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());`

			`final LongAccumulator totalItems = sc.sc().longAccumulator("TotalItems");`
			`final LongAccumulator invalidRecords = sc.sc().longAccumulator("InvalidRecords");`

			`final String seqFilePath = currentVersion.getHdfsPath() + CollectorWorkerApplication.SEQUENCE_FILE_NAME;`
			`final JavaRDD<MetadataRecord> nativeStore = sc`
			`.sequenceFile(seqFilePath, IntWritable.class, Text.class)`
			`.map(`
			`item -> parseRecord(`
			`item._2().toString(),`
			`xpath,`
			`encoding,`
			`provenance,`
			`dateOfCollection,`
			`totalItems,`
			`invalidRecords))`
			`.filter(Objects::nonNull)`
			`.distinct();`

			`final Encoder<MetadataRecord> encoder = Encoders.bean(MetadataRecord.class);`
			`final Dataset<MetadataRecord> mdstore = spark.createDataset(nativeStore.rdd(), encoder);`

			`final String targetPath = currentVersion.getHdfsPath() + DATASET_NAME;`

			`if (readVersion != null) { // INCREMENTAL MODE`
			`log.info("updating {} incrementally with {}", targetPath, readVersion.getHdfsPath());`
			`Dataset<MetadataRecord> currentMdStoreVersion = spark`
			`.read()`
			`.load(readVersion.getHdfsPath() + DATASET_NAME)`
			`.as(encoder);`
			`TypedColumn<MetadataRecord, MetadataRecord> aggregator = new MDStoreAggregator().toColumn();`

			`final Dataset<MetadataRecord> map = currentMdStoreVersion`
			`.union(mdstore)`
			`.groupByKey(`
			`(MapFunction<MetadataRecord, String>) MetadataRecord::getId,`
			`Encoders.STRING())`
			`.agg(aggregator)`
			`.map((MapFunction<Tuple2<String, MetadataRecord>, MetadataRecord>) Tuple2::_2, encoder);`

			`map.select("id").takeAsList(100).forEach(s -> log.info(s.toString()));`

			`saveDataset(map, targetPath);`

			`} else {`
			`saveDataset(mdstore, targetPath);`
			`}`

			`final Long total = spark.read().load(targetPath).count();`
			`log.info("collected {} records for datasource '{}'", total, provenance.getDatasourceName());`

			`writeTotalSizeOnHDFS(spark, total, currentVersion.getHdfsPath() + "/size");`
			`}`

			`public static class MDStoreAggregator extends Aggregator<MetadataRecord, MetadataRecord, MetadataRecord> {`

			`@Override`
			`public MetadataRecord zero() {`
			`return null;`
			`}`

			`@Override`
			`public MetadataRecord reduce(MetadataRecord b, MetadataRecord a) {`
			`return getLatestRecord(b, a);`
			`}`

			`@Override`
			`public MetadataRecord merge(MetadataRecord b, MetadataRecord a) {`
			`return getLatestRecord(b, a);`
			`}`

			`private MetadataRecord getLatestRecord(MetadataRecord b, MetadataRecord a) {`
			`if (b == null)`
			`return a;`

			`if (a == null)`
			`return b;`
			`return (a.getDateOfCollection() > b.getDateOfCollection()) ? a : b;`
			`}`

			`@Override`
			`public MetadataRecord finish(MetadataRecord r) {`
			`return r;`
			`}`

			`@Override`
			`public Encoder<MetadataRecord> bufferEncoder() {`
			`return Encoders.bean(MetadataRecord.class);`
			`}`

			`@Override`
			`public Encoder<MetadataRecord> outputEncoder() {`
			`return Encoders.bean(MetadataRecord.class);`
			`}`
code refactor 2021-02-01 14:58:06 +01:00
			`}`

switched automatic code formatting plugin to net.revelc.code.formatter:formatter-maven-plugin 2020-04-27 14:52:31 +02:00			`public static MetadataRecord parseRecord(`
			`final String input,`
			`final String xpath,`
			`final String encoding,`
			`final Provenance provenance,`
			`final Long dateOfCollection,`
			`final LongAccumulator totalItems,`
			`final LongAccumulator invalidRecords) {`

			`if (totalItems != null)`
			`totalItems.add(1);`
			`try {`
			`SAXReader reader = new SAXReader();`
			`Document document = reader.read(new ByteArrayInputStream(input.getBytes(StandardCharsets.UTF_8)));`
			`Node node = document.selectSingleNode(xpath);`
			`final String originalIdentifier = node.getText();`
			`if (StringUtils.isBlank(originalIdentifier)) {`
			`if (invalidRecords != null)`
			`invalidRecords.add(1);`
			`return null;`
			`}`
WIP: metadata collection in INCREMENTAL mode and relative test 2021-02-01 19:29:10 +01:00			`return new MetadataRecord(originalIdentifier, encoding, provenance, document.asXML(), dateOfCollection);`
switched automatic code formatting plugin to net.revelc.code.formatter:formatter-maven-plugin 2020-04-27 14:52:31 +02:00			`} catch (Throwable e) {`
Removed old messaging system not quite used from collection and Transformation workflow code refactor 2021-01-28 09:51:17 +01:00			`invalidRecords.add(1);`
switched automatic code formatting plugin to net.revelc.code.formatter:formatter-maven-plugin 2020-04-27 14:52:31 +02:00			`return null;`
			`}`
			`}`

added first implementation of dnet-workflows 2019-03-18 10:44:35 +01:00			`}`