languagetool-org · mark-baas · Dec 21, 2023 · Dec 21, 2023 · Dec 21, 2023 · Dec 21, 2023
diff --git a/languagetool-language-modules/nl/src/main/java/org/languagetool/language/Dutch.java b/languagetool-language-modules/nl/src/main/java/org/languagetool/language/Dutch.java
@@ -65,7 +65,7 @@ public String[] getCountries() {
   @NotNull
   @Override
   public Tagger createDefaultTagger() {
-    return new DutchTagger();
+    return DutchTagger.INSTANCE;
   }
 
   @Nullable

diff --git a/...agetool-language-modules/nl/src/main/java/org/languagetool/rules/nl/CompoundAcceptor.java b/...agetool-language-modules/nl/src/main/java/org/languagetool/rules/nl/CompoundAcceptor.java
@@ -21,7 +21,7 @@
 import com.google.common.collect.ImmutableSet;
 import org.languagetool.*;
 import org.languagetool.rules.RuleMatch;
-import org.languagetool.tagging.Tagger;
+import org.languagetool.tagging.nl.DutchTagger;
 
 import java.io.IOException;
 import java.nio.file.Files;
@@ -558,14 +558,13 @@ public class CompoundAcceptor {
     }
   }
 
-  private final Tagger tagger;
+  private DutchTagger dutchTagger = DutchTagger.INSTANCE;
 
   CompoundAcceptor() {
-    tagger = Languages.getLanguageForShortCode("nl").getTagger();
   }
 
-  public CompoundAcceptor(Tagger tagger) {
-    this.tagger = tagger;
+  public CompoundAcceptor(DutchTagger dutchTagger) {
+    this.dutchTagger = dutchTagger;
   }
 
   boolean acceptCompound(String word) {
@@ -576,7 +575,7 @@ boolean acceptCompound(String word) {
       String part1 = word.substring(0, i);
       String part2 = word.substring(i);
       if (acceptCompound(part1, part2)) {
-        //System.out.println(part1+part2 + " -> accepted");
+        System.out.println(part1+part2 + " -> accepted");
         return true;
       }
     }
@@ -604,7 +603,7 @@ boolean acceptCompound(String part1, String part2) {
       if (part1.endsWith("s") && !part1Exceptions.contains(part1.substring(0, part1.length() -1)) && !alwaysNeedsS.contains(part1) && !noS.contains(part1) && !part1.contains("-")) {
         for (String suffix : alwaysNeedsS) {
           if (part1lc.endsWith(suffix)) {
-            return isNoun(part2) && isExistingWord(part1.substring(0, part1.length() - 1)) && spellingOk(part2);
+            return isNoun(part2) && isExistingWord(part1lc.substring(0, part1lc.length() - 1)) && spellingOk(part2);
           }
         }
         return needsS.contains(part1lc) && isNoun(part2) && spellingOk(part1.substring(0, part1.length() - 1)) && spellingOk(part2);
@@ -614,21 +613,22 @@ boolean acceptCompound(String part1, String part2) {
         part2 = part2.substring(1);
         return noS.contains(part1lc) && isNoun(part2) && spellingOk(part1) && spellingOk(part2) && hasCollidingVowels(part1, part2);
       } else {
-        return (noS.contains(part1lc) || part1Exceptions.contains(part1lc)) && isNoun(part2) && spellingOk(part1) && spellingOk(part2) && !hasCollidingVowels(part1, part2);
+        return (noS.contains(part1lc) || part1Exceptions.contains(part1lc)) && isNoun(part2) && spellingOk(part1) && !hasCollidingVowels(part1, part2);
       }
     } catch (IOException e) {
       throw new RuntimeException(e);
     }
   }
 
-  boolean isNoun(String word) throws IOException {
-    List<AnalyzedTokenReadings> part2Readings = tagger.tag(Collections.singletonList(word));
-    return part2Readings.stream().anyMatch(k -> k.hasPosTagStartingWith("ZNW")) && !part2Exceptions.contains(word) ;
+  private boolean isNoun(String word) throws IOException {
+    return dutchTagger.getPostags(word).stream().anyMatch(k -> {
+      assert k.getPOSTag() != null;
+      return k.getPOSTag().startsWith("ZNW") && !part2Exceptions.contains(word);
+    });
   }
 
   private boolean isExistingWord(String word) throws IOException {
-    List<AnalyzedTokenReadings> part2Readings = tagger.tag(Collections.singletonList(word));
-    return part2Readings.stream().noneMatch(AnalyzedTokenReadings::isPosTagUnknown);
+    return dutchTagger.getPostags(word).stream().anyMatch(k -> k.getPOSTag() != null);
   }
 
   private boolean hasCollidingVowels(String part1, String part2) {

diff --git a/languagetool-language-modules/nl/src/main/java/org/languagetool/tagging/nl/DutchTagger.java b/languagetool-language-modules/nl/src/main/java/org/languagetool/tagging/nl/DutchTagger.java
@@ -37,6 +37,7 @@
  */
 public class DutchTagger extends BaseTagger {
 
+  public static final DutchTagger INSTANCE = new DutchTagger();
   private static final Pattern PATTERN1_A = compile("([^aeiouáéíóú])(á)([^aeiouáéíóú])");
   private static final Pattern PATTERN1_E = compile("([^aeiouáéíóú])(é)([^aeiouáéíóú])");
   private static final Pattern PATTERN1_I = compile("([^aeiouáéíóú])(í)([^aeiouáéíóú])");
@@ -69,22 +70,22 @@ public DutchTagger() {
     super("/nl/dutch.dict", new Locale("nl"));
   }
   private static final Set<String> alwaysNeedsHet = ImmutableSet.of(
-          "patroon",
-          "punt",
-          "gemaal",
-          "weer",
-          "kussen",
-          "deel"
+    "patroon",
+    "punt",
+    "gemaal",
+    "weer",
+    "kussen",
+    "deel"
   );
   private static final Set<String> alwaysNeedsDe = ImmutableSet.of(
-          "keten",
-          "boor",
-          "dans"
+    "keten",
+    "boor",
+    "dans"
   );
   private static final Set<String> alwaysNeedsMrv = ImmutableSet.of(
-          "pies",
-          "koeken",
-          "heden"
+    "pies",
+    "koeken",
+    "heden"
   );
   // custom code to deal with words carrying optional accents
   @Override
@@ -250,6 +251,11 @@ public List<AnalyzedTokenReadings> tag(List<String> sentenceTokens) {
     return tokenReadings;
   }
 
+  // get tags and prevent tagger from passing value back to CompoundAcceptor, going into tagging loop
+  public List<AnalyzedToken> getPostags(String word) {
+    return asAnalyzedTokenListForTaggedWords(word, getWordTagger().tag(word));
+  }
+
   private void addTokens(List<AnalyzedToken> taggedTokens, List<AnalyzedToken> l) {
     if (taggedTokens != null) {
       l.addAll(taggedTokens);

diff --git a/...ool-language-modules/nl/src/test/java/org/languagetool/rules/nl/CompoundAcceptorTest.java b/...ool-language-modules/nl/src/test/java/org/languagetool/rules/nl/CompoundAcceptorTest.java
@@ -21,15 +21,13 @@
 import org.junit.Ignore;
 import org.junit.Test;
 
-import java.io.IOException;
-
 import static org.junit.Assert.assertFalse;
 import static org.junit.Assert.assertTrue;
 
 public class CompoundAcceptorTest {
 
   @Test
-  public void testAcceptCompound() throws IOException {
+  public void testAcceptCompound() {
     CompoundAcceptor acceptor = new CompoundAcceptor();
 
     assertTrue(acceptor.acceptCompound("bedrijfsregels"));
@@ -51,7 +49,9 @@ public void testAcceptCompound() throws IOException {
     assertTrue(acceptor.acceptCompound("kunstomlijning"));
     assertTrue(acceptor.acceptCompound("webomlijning"));
     assertFalse(acceptor.acceptCompound("lingsboek"));
-    assertTrue(acceptor.acceptCompound("gezondheidsinfluencers"));
+
+    assertTrue(acceptor.acceptCompound("webschoolboek"));
+    assertFalse(acceptor.acceptCompound("gezondheidsomlijningssvervangingsinfluencers"));
 
     assertFalse(acceptor.acceptCompound("Papiersversnipperaar"));
 
@@ -104,12 +104,11 @@ public void testAcceptCompound() throws IOException {
 
     assertTrue(acceptor.acceptCompound("auto-uitlaat"));
     assertFalse(acceptor.acceptCompound("autouitlaat"));
-
   }
 
   @Ignore("Use for interactive debugging")
   @Test
-  public void testAcceptCompoundInternal() throws IOException {
+  public void testAcceptCompoundInternal() {
     CompoundAcceptor acceptor = new CompoundAcceptor();
     assertTrue(acceptor.acceptCompound("passagiers", "schip"));
     assertTrue(acceptor.acceptCompound("papier", "versnipperaar"));

diff --git a/...getool-language-modules/nl/src/test/java/org/languagetool/tagging/nl/DutchTaggerTest.java b/...getool-language-modules/nl/src/test/java/org/languagetool/tagging/nl/DutchTaggerTest.java
@@ -63,6 +63,13 @@ public void testTagger() throws IOException {
     TestTools.myAssert("beoordelingsgeschiedenisje", "beoordelingsgeschiedenisje/[beoordelingsgeschiedenis]ZNW:EKV:VRK:HET", tokenizer, tagger);
     TestTools.myAssert("Beoordelingsgeschiedenisjes", "Beoordelingsgeschiedenisjes/[beoordelingsgeschiedenis]ZNW:MRV:VRK:DE_", tokenizer, tagger);
 
+    // Test compound words with 2 parts
+    TestTools.myAssert("beroertegeschiedenisje", "beroertegeschiedenisje/[beroertegeschiedenis]ZNW:EKV:VRK:HET", tokenizer, tagger);
+    // Test compound words with 3 parts
+    TestTools.myAssert("gastkritiekgeschiedenis", "gastkritiekgeschiedenis/[null]null", tokenizer, tagger);
+    // Test compound words with 3+ parts
+    TestTools.myAssert("haarhalfbergnacht", "haarhalfbergnacht/[null]null", tokenizer, tagger);
+
     // This is not modified, as it's already found in dictionary. If it was, getCompoundPOS would give it postag ZNW:EKV, from "mout".
     TestTools.myAssert("havermout", "havermout/[havermout]ZNW:EKV:DE_", tokenizer, tagger);