dnet-hadoop/dhp-workflows/dhp-doiboost/src/main/java/eu/dnetlib/doiboost/SparkGenerateDOIBoostAction...

package eu.dnetlib.doiboost

import eu.dnetlib.dhp.application.ArgumentApplicationParser
import eu.dnetlib.dhp.schema.action.AtomicAction
import eu.dnetlib.dhp.schema.oaf.{Organization, Publication, Relation, Dataset => OafDataset}
import org.apache.commons.io.IOUtils
import org.apache.hadoop.io.Text
import org.apache.hadoop.io.compress.GzipCodec
import org.apache.hadoop.mapred.SequenceFileOutputFormat
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, Encoder, Encoders, SaveMode, SparkSession}
import org.slf4j.{Logger, LoggerFactory}

object SparkGenerateDOIBoostActionSet {
  val logger: Logger = LoggerFactory.getLogger(getClass)
  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf()
    val parser = new ArgumentApplicationParser(IOUtils.toString(getClass.getResourceAsStream("/eu/dnetlib/dhp/doiboost/generate_doiboost_as_params.json")))
    parser.parseArgument(args)
    val spark: SparkSession =
      SparkSession
        .builder()
        .config(conf)
        .appName(getClass.getSimpleName)
        .master(parser.get("master")).getOrCreate()

    implicit val mapEncoderPub: Encoder[Publication] = Encoders.kryo[Publication]
    implicit val mapEncoderOrg: Encoder[Organization] = Encoders.kryo[Organization]
    implicit val mapEncoderDataset: Encoder[OafDataset] = Encoders.kryo[OafDataset]
    implicit val mapEncoderRel: Encoder[Relation] = Encoders.kryo[Relation]
    implicit val mapEncoderAS: Encoder[(String, String)] = Encoders.tuple(Encoders.STRING, Encoders.STRING)

    implicit val mapEncoderAtomiAction: Encoder[AtomicAction[OafDataset]] = Encoders.kryo[AtomicAction[OafDataset]]

    val dbPublicationPath           = parser.get("dbPublicationPath")
    val dbDatasetPath               = parser.get("dbDatasetPath")
    val crossRefRelation            = parser.get("crossRefRelation")
    val dbaffiliationRelationPath   = parser.get("dbaffiliationRelationPath")
    val dbOrganizationPath          = parser.get("dbOrganizationPath")
    val workingDirPath              = parser.get("targetPath")
    val sequenceFilePath            = parser.get("sFilePath")

    val asDataset = spark.read.load(dbDatasetPath).as[OafDataset]
      .map(d =>DoiBoostMappingUtil.fixResult(d))
      .map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))
//      .write.mode(SaveMode.Overwrite).save(s"$workingDirPath/actionSet")

    val asPublication =spark.read.load(dbPublicationPath).as[Publication]
      .map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))
//      .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")

    val asOrganization = spark.read.load(dbOrganizationPath).as[Organization]
      .map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))
//      .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")


    val asCRelation = spark.read.load(crossRefRelation).as[Relation]
      .map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))
//      .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")

    val asRelAffiliation = spark.read.load(dbaffiliationRelationPath).as[Relation]
      .map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))
//      .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")


    val d: Dataset[(String, String)] = asDataset.union(asPublication).union(asOrganization).union(asCRelation).union(asRelAffiliation)

//      spark.read.load(s"$workingDirPath/actionSet").as[(String,String)]

    d.rdd.repartition(6000).map(s => (new Text(s._1), new Text(s._2))).saveAsHadoopFile(s"$sequenceFilePath", classOf[Text], classOf[Text], classOf[SequenceFileOutputFormat[Text,Text]], classOf[GzipCodec])


  }

}
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00			`package eu.dnetlib.doiboost`

			`import eu.dnetlib.dhp.application.ArgumentApplicationParser`
			`import eu.dnetlib.dhp.schema.action.AtomicAction`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`import eu.dnetlib.dhp.schema.oaf.{Organization, Publication, Relation, Dataset => OafDataset}`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00			`import org.apache.commons.io.IOUtils`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`import org.apache.hadoop.io.Text`
			`import org.apache.hadoop.io.compress.GzipCodec`
			`import org.apache.hadoop.mapred.SequenceFileOutputFormat`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00			`import org.apache.spark.SparkConf`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`import org.apache.spark.sql.{Dataset, Encoder, Encoders, SaveMode, SparkSession}`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00			`import org.slf4j.{Logger, LoggerFactory}`

			`object SparkGenerateDOIBoostActionSet {`
			`val logger: Logger = LoggerFactory.getLogger(getClass)`
			`def main(args: Array[String]): Unit = {`

			`val conf: SparkConf = new SparkConf()`
			`val parser = new ArgumentApplicationParser(IOUtils.toString(getClass.getResourceAsStream("/eu/dnetlib/dhp/doiboost/generate_doiboost_as_params.json")))`
			`parser.parseArgument(args)`
			`val spark: SparkSession =`
			`SparkSession`
			`.builder()`
			`.config(conf)`
			`.appName(getClass.getSimpleName)`
			`.master(parser.get("master")).getOrCreate()`

code refactor 2020-05-28 09:57:46 +02:00			`implicit val mapEncoderPub: Encoder[Publication] = Encoders.kryo[Publication]`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`implicit val mapEncoderOrg: Encoder[Organization] = Encoders.kryo[Organization]`
code refactor 2020-05-28 09:57:46 +02:00			`implicit val mapEncoderDataset: Encoder[OafDataset] = Encoders.kryo[OafDataset]`
			`implicit val mapEncoderRel: Encoder[Relation] = Encoders.kryo[Relation]`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`implicit val mapEncoderAS: Encoder[(String, String)] = Encoders.tuple(Encoders.STRING, Encoders.STRING)`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00
code refactor 2020-05-28 09:57:46 +02:00			`implicit val mapEncoderAtomiAction: Encoder[AtomicAction[OafDataset]] = Encoders.kryo[AtomicAction[OafDataset]]`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00
code refactor 2020-05-28 09:57:46 +02:00			`val dbPublicationPath = parser.get("dbPublicationPath")`
			`val dbDatasetPath = parser.get("dbDatasetPath")`
			`val crossRefRelation = parser.get("crossRefRelation")`
			`val dbaffiliationRelationPath = parser.get("dbaffiliationRelationPath")`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`val dbOrganizationPath = parser.get("dbOrganizationPath")`
code refactor 2020-05-28 09:57:46 +02:00			`val workingDirPath = parser.get("targetPath")`
defined a single oozie workflow for the generation of doiboost 2021-01-04 17:01:35 +01:00			`val sequenceFilePath = parser.get("sFilePath")`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`val asDataset = spark.read.load(dbDatasetPath).as[OafDataset]`
code refactor 2020-05-28 09:57:46 +02:00			`.map(d =>DoiBoostMappingUtil.fixResult(d))`
			`.map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))`
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`// .write.mode(SaveMode.Overwrite).save(s"$workingDirPath/actionSet")`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`val asPublication =spark.read.load(dbPublicationPath).as[Publication]`
code refactor 2020-05-28 09:57:46 +02:00			`.map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))`
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`// .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`val asOrganization = spark.read.load(dbOrganizationPath).as[Organization]`
improvement DOIBoost 2020-06-04 14:39:20 +02:00			`.map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))`
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`// .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")`
improvement DOIBoost 2020-06-04 14:39:20 +02:00

avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`val asCRelation = spark.read.load(crossRefRelation).as[Relation]`
code refactor 2020-05-28 09:57:46 +02:00			`.map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))`
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`// .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")`
code refactor 2020-05-28 09:57:46 +02:00
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`val asRelAffiliation = spark.read.load(dbaffiliationRelationPath).as[Relation]`
code refactor 2020-05-28 09:57:46 +02:00			`.map(d=>DoiBoostMappingUtil.toActionSet(d))(Encoders.tuple(Encoders.STRING, Encoders.STRING))`
avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00			`// .write.mode(SaveMode.Append).save(s"$workingDirPath/actionSet")`
code refactor 2020-05-28 09:57:46 +02:00

avoid to save intermediate dataset before generation of Sequence file 2021-01-04 17:54:57 +01:00

			`val d: Dataset[(String, String)] = asDataset.union(asPublication).union(asOrganization).union(asCRelation).union(asRelAffiliation)`

			`// spark.read.load(s"$workingDirPath/actionSet").as[(String,String)]`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00
defined a single oozie workflow for the generation of doiboost 2021-01-04 17:01:35 +01:00			`d.rdd.repartition(6000).map(s => (new Text(s._1), new Text(s._2))).saveAsHadoopFile(s"$sequenceFilePath", classOf[Text], classOf[Text], classOf[SequenceFileOutputFormat[Text,Text]], classOf[GzipCodec])`
implemented generation of ActionSet 2020-05-26 09:15:33 +02:00








			`}`

			`}`