dnet-hadoop/dhp-workflows/dhp-doiboost/src/test/scala/eu/dnetlib/dhp/doiboost/mag/MAGMappingTest.scala

package eu.dnetlib.dhp.doiboost.mag

import eu.dnetlib.doiboost.mag.{ConversionUtil, MagPapers, SparkProcessMAG}
import org.apache.spark.SparkConf
import org.apache.spark.sql.{Dataset, SparkSession}
import org.codehaus.jackson.map.ObjectMapper
import org.json4s.DefaultFormats
import org.junit.jupiter.api.Assertions._
import org.junit.jupiter.api.Test
import org.slf4j.{Logger, LoggerFactory}

import java.sql.Timestamp
import scala.io.Source

class MAGMappingTest {

  val logger: Logger = LoggerFactory.getLogger(getClass)
  val mapper = new ObjectMapper()

  @Test
  def testSplitter(): Unit = {
    val s = "sports.team"

    if (s.contains(".")) {
      println(s.split("\\.") head)
    }

  }

  @Test
  def testDate(): Unit = {

    val p: Timestamp = Timestamp.valueOf("2011-10-02 00:00:00")

    println(p.toString.substring(0, 10))

  }

  @Test
  def buildInvertedIndexTest(): Unit = {
    val json_input = Source
      .fromInputStream(getClass.getResourceAsStream("/eu/dnetlib/doiboost/mag/invertedIndex.json"))
      .mkString
    val description = ConversionUtil.convertInvertedIndexString(json_input)
    assertNotNull(description)
    assertTrue(description.nonEmpty)

    logger.debug(description)

  }

  @Test
  def normalizeDoiTest(): Unit = {

    implicit val formats = DefaultFormats

    val conf = new SparkConf()
    conf.setMaster("local[*]")
    conf.set("spark.driver.host", "localhost")
    val spark: SparkSession =
      SparkSession
        .builder()
        .appName(getClass.getSimpleName)
        .config(conf)
        .getOrCreate()
    val path = getClass.getResource("/eu/dnetlib/doiboost/mag/magPapers.json").getPath

    import org.apache.spark.sql.Encoders
    val schema = Encoders.product[MagPapers].schema

    import spark.implicits._
    val magPapers: Dataset[MagPapers] =
      spark.read.option("multiline", true).schema(schema).json(path).as[MagPapers]
    val ret: Dataset[MagPapers] = SparkProcessMAG.getDistinctResults(magPapers)
    assertTrue(ret.count == 10)
    ret.take(10).foreach(mp => assertTrue(mp.Doi.equals(mp.Doi.toLowerCase())))

    spark.close()
  }

  @Test
  def normalizeDoiTest2(): Unit = {

    import org.json4s.DefaultFormats

    implicit val formats = DefaultFormats

    val conf = new SparkConf()
    conf.setMaster("local[*]")
    conf.set("spark.driver.host", "localhost")
    val spark: SparkSession =
      SparkSession
        .builder()
        .appName(getClass.getSimpleName)
        .config(conf)
        .getOrCreate()
    val path = getClass.getResource("/eu/dnetlib/doiboost/mag/duplicatedMagPapers.json").getPath

    import org.apache.spark.sql.Encoders
    val schema = Encoders.product[MagPapers].schema

    import spark.implicits._
    val magPapers: Dataset[MagPapers] =
      spark.read.option("multiline", true).schema(schema).json(path).as[MagPapers]
    val ret: Dataset[MagPapers] = SparkProcessMAG.getDistinctResults(magPapers)
    assertTrue(ret.count == 8)
    ret.take(8).foreach(mp => assertTrue(mp.Doi.equals(mp.Doi.toLowerCase())))
    spark.close()
    //ret.take(8).foreach(mp => println(write(mp)))
  }

}
[scala-refactor] Module dhp-doiboost: Moved all scala source into src/main/scala and src/test/scala 2021-12-06 14:24:03 +01:00			`package eu.dnetlib.dhp.doiboost.mag`
start implementing MAG mapping 2020-05-11 09:38:27 +02:00
[scala-refactor] Module dhp-doiboost: Moved all scala source into src/main/scala and src/test/scala 2021-12-06 14:24:03 +01:00			`import eu.dnetlib.doiboost.mag.{ConversionUtil, MagPapers, SparkProcessMAG}`
Code refactor: - removed old workflows in doiboost - splitted workflow of doiboost in preprocess and process 2021-07-14 14:37:06 +02:00			`import org.apache.spark.SparkConf`
			`import org.apache.spark.sql.{Dataset, SparkSession}`
			`import org.codehaus.jackson.map.ObjectMapper`
[scala-refactor] Module dhp-doiboost: Moved all scala source into src/main/scala and src/test/scala 2021-12-06 14:24:03 +01:00			`import org.json4s.DefaultFormats`
Code refactor: - removed old workflows in doiboost - splitted workflow of doiboost in preprocess and process 2021-07-14 14:37:06 +02:00			`import org.junit.jupiter.api.Assertions._`
start implementing MAG mapping 2020-05-11 09:38:27 +02:00			`import org.junit.jupiter.api.Test`
			`import org.slf4j.{Logger, LoggerFactory}`
next step of MAG conversion implemented 2020-05-19 09:24:45 +02:00
Code refactor: - removed old workflows in doiboost - splitted workflow of doiboost in preprocess and process 2021-07-14 14:37:06 +02:00			`import java.sql.Timestamp`
next step of MAG conversion implemented 2020-05-13 10:38:04 +02:00			`import scala.io.Source`
next step of MAG conversion implemented 2020-05-19 09:24:45 +02:00
start implementing MAG mapping 2020-05-11 09:38:27 +02:00			`class MAGMappingTest {`

			`val logger: Logger = LoggerFactory.getLogger(getClass)`
			`val mapper = new ObjectMapper()`

next step of MAG conversion implemented 2020-05-20 08:14:03 +02:00			`@Test`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`def testSplitter(): Unit = {`
next step of MAG conversion implemented 2020-05-20 08:14:03 +02:00			`val s = "sports.team"`
next step of MAG conversion implemented 2020-05-19 09:24:45 +02:00
next step of MAG conversion implemented 2020-05-20 08:14:03 +02:00			`if (s.contains(".")) {`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`println(s.split("\\.") head)`
next step of MAG conversion implemented 2020-05-20 08:14:03 +02:00			`}`
next step of MAG conversion implemented 2020-05-19 09:24:45 +02:00
next step of MAG conversion implemented 2020-05-13 10:38:04 +02:00			`}`

improvement DOIBoost 2020-06-04 14:39:20 +02:00			`@Test`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`def testDate(): Unit = {`
improvement DOIBoost 2020-06-04 14:39:20 +02:00
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`val p: Timestamp = Timestamp.valueOf("2011-10-02 00:00:00")`
improvement DOIBoost 2020-06-04 14:39:20 +02:00
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`println(p.toString.substring(0, 10))`
improvement DOIBoost 2020-06-04 14:39:20 +02:00
			`}`

next step of MAG conversion implemented 2020-05-13 10:38:04 +02:00			`@Test`
next step of MAG conversion implemented 2020-05-19 09:24:45 +02:00			`def buildInvertedIndexTest(): Unit = {`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`val json_input = Source`
			`.fromInputStream(getClass.getResourceAsStream("/eu/dnetlib/doiboost/mag/invertedIndex.json"))`
			`.mkString`
next step of MAG conversion implemented 2020-05-13 10:38:04 +02:00			`val description = ConversionUtil.convertInvertedIndexString(json_input)`
			`assertNotNull(description)`
			`assertTrue(description.nonEmpty)`
start implementing MAG mapping 2020-05-11 09:38:27 +02:00
next step of MAG conversion implemented 2020-05-13 10:38:04 +02:00			`logger.debug(description)`
start implementing MAG mapping 2020-05-11 09:38:27 +02:00
			`}`
Code refactor: - removed old workflows in doiboost - splitted workflow of doiboost in preprocess and process 2021-07-14 14:37:06 +02:00
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`@Test`
			`def normalizeDoiTest(): Unit = {`
added tests for the normalization of the dois 2021-06-30 12:57:11 +02:00
			`implicit val formats = DefaultFormats`

Code refactor: - removed old workflows in doiboost - splitted workflow of doiboost in preprocess and process 2021-07-14 14:37:06 +02:00			`val conf = new SparkConf()`
			`conf.setMaster("local[*]")`
			`conf.set("spark.driver.host", "localhost")`
			`val spark: SparkSession =`
			`SparkSession`
			`.builder()`
			`.appName(getClass.getSimpleName)`
			`.config(conf)`
			`.getOrCreate()`
[scala-refactor] Module dhp-doiboost: Moved all scala source into src/main/scala and src/test/scala 2021-12-06 14:24:03 +01:00			`val path = getClass.getResource("/eu/dnetlib/doiboost/mag/magPapers.json").getPath`
added tests for the normalization of the dois 2021-06-30 12:57:11 +02:00
			`import org.apache.spark.sql.Encoders`
			`val schema = Encoders.product[MagPapers].schema`

			`import spark.implicits._`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`val magPapers: Dataset[MagPapers] =`
			`spark.read.option("multiline", true).schema(schema).json(path).as[MagPapers]`
			`val ret: Dataset[MagPapers] = SparkProcessMAG.getDistinctResults(magPapers)`
added tests for the normalization of the dois 2021-06-30 12:57:11 +02:00			`assertTrue(ret.count == 10)`
			`ret.take(10).foreach(mp => assertTrue(mp.Doi.equals(mp.Doi.toLowerCase())))`

			`spark.close()`
			`}`

			`@Test`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`def normalizeDoiTest2(): Unit = {`
added tests for the normalization of the dois 2021-06-30 12:57:11 +02:00
			`import org.json4s.DefaultFormats`

			`implicit val formats = DefaultFormats`

Code refactor: - removed old workflows in doiboost - splitted workflow of doiboost in preprocess and process 2021-07-14 14:37:06 +02:00			`val conf = new SparkConf()`
			`conf.setMaster("local[*]")`
			`conf.set("spark.driver.host", "localhost")`
			`val spark: SparkSession =`
			`SparkSession`
			`.builder()`
			`.appName(getClass.getSimpleName)`
			`.config(conf)`
			`.getOrCreate()`
[scala-refactor] Module dhp-doiboost: Moved all scala source into src/main/scala and src/test/scala 2021-12-06 14:24:03 +01:00			`val path = getClass.getResource("/eu/dnetlib/doiboost/mag/duplicatedMagPapers.json").getPath`
added tests for the normalization of the dois 2021-06-30 12:57:11 +02:00
			`import org.apache.spark.sql.Encoders`
			`val schema = Encoders.product[MagPapers].schema`

			`import spark.implicits._`
scalafmt: code formatting 2022-01-11 16:57:48 +01:00			`val magPapers: Dataset[MagPapers] =`
			`spark.read.option("multiline", true).schema(schema).json(path).as[MagPapers]`
			`val ret: Dataset[MagPapers] = SparkProcessMAG.getDistinctResults(magPapers)`
added tests for the normalization of the dois 2021-06-30 12:57:11 +02:00			`assertTrue(ret.count == 8)`
			`ret.take(8).foreach(mp => assertTrue(mp.Doi.equals(mp.Doi.toLowerCase())))`
			`spark.close()`
			`//ret.take(8).foreach(mp => println(write(mp)))`
			`}`
start implementing MAG mapping 2020-05-11 09:38:27 +02:00
			`}`