X-Git-Url: https://git.opendaylight.org/gerrit/gitweb?a=blobdiff_plain;f=yang%2Fyang-parser-impl%2Fsrc%2Fmain%2Fjava%2Forg%2Fopendaylight%2Fyangtools%2Fyang%2Fparser%2Fstmt%2Frfc6020%2FUtils.java;h=71ae3700a38b3e075a6bbb384b8adffe934de40c;hb=80bcbaac427850f34bcaadf375e94134af42d01f;hp=3123445b478574bee0f9ac12a10eed0f48218abf;hpb=6ecb495f3729e75f8e86ab72ffa68eed3d14cc4c;p=yangtools.git diff --git a/yang/yang-parser-impl/src/main/java/org/opendaylight/yangtools/yang/parser/stmt/rfc6020/Utils.java b/yang/yang-parser-impl/src/main/java/org/opendaylight/yangtools/yang/parser/stmt/rfc6020/Utils.java index 3123445b47..71ae3700a3 100644 --- a/yang/yang-parser-impl/src/main/java/org/opendaylight/yangtools/yang/parser/stmt/rfc6020/Utils.java +++ b/yang/yang-parser-impl/src/main/java/org/opendaylight/yangtools/yang/parser/stmt/rfc6020/Utils.java @@ -14,6 +14,7 @@ import com.google.common.base.Splitter; import com.google.common.base.Strings; import com.google.common.collect.ImmutableMap; import com.google.common.collect.ImmutableMap.Builder; +import com.google.common.collect.ImmutableSet; import com.google.common.collect.Iterables; import java.util.ArrayList; import java.util.Arrays; @@ -23,7 +24,9 @@ import java.util.HashSet; import java.util.List; import java.util.Map; import java.util.Set; +import java.util.regex.Matcher; import java.util.regex.Pattern; +import java.util.regex.PatternSyntaxException; import javax.annotation.Nullable; import javax.xml.xpath.XPath; import javax.xml.xpath.XPathExpressionException; @@ -61,6 +64,7 @@ import org.slf4j.Logger; import org.slf4j.LoggerFactory; public final class Utils { + private static final int UNICODE_SCRIPT_FIX_COUNTER = 30; private static final Logger LOG = LoggerFactory.getLogger(Utils.class); private static final CharMatcher DOUBLE_QUOTE_MATCHER = CharMatcher.is('"'); private static final CharMatcher SINGLE_QUOTE_MATCHER = CharMatcher.is('\''); @@ -71,6 +75,217 @@ public final class Utils { private static final Splitter SLASH_SPLITTER = Splitter.on('/').omitEmptyStrings().trimResults(); private static final Splitter SPACE_SPLITTER = Splitter.on(' ').omitEmptyStrings().trimResults(); private static final Pattern PATH_ABS = Pattern.compile("/[^/].*"); + private static final Pattern BETWEEN_CURLY_BRACES_PATTERN = Pattern.compile("\\{(.+?)\\}"); + private static final Set JAVA_UNICODE_BLOCKS = ImmutableSet.builder() + .add("AegeanNumbers") + .add("AlchemicalSymbols") + .add("AlphabeticPresentationForms") + .add("AncientGreekMusicalNotation") + .add("AncientGreekNumbers") + .add("AncientSymbols") + .add("Arabic") + .add("ArabicPresentationForms-A") + .add("ArabicPresentationForms-B") + .add("ArabicSupplement") + .add("Armenian") + .add("Arrows") + .add("Avestan") + .add("Balinese") + .add("Bamum") + .add("BamumSupplement") + .add("BasicLatin") + .add("Batak") + .add("Bengali") + .add("BlockElements") + .add("Bopomofo") + .add("BopomofoExtended") + .add("BoxDrawing") + .add("Brahmi") + .add("BraillePatterns") + .add("Buginese") + .add("Buhid") + .add("ByzantineMusicalSymbols") + .add("Carian") + .add("Cham") + .add("Cherokee") + .add("CJKCompatibility") + .add("CJKCompatibilityForms") + .add("CJKCompatibilityIdeographs") + .add("CJKCompatibilityIdeographsSupplement") + .add("CJKRadicalsSupplement") + .add("CJKStrokes") + .add("CJKSymbolsandPunctuation") + .add("CJKUnifiedIdeographs") + .add("CJKUnifiedIdeographsExtensionA") + .add("CJKUnifiedIdeographsExtensionB") + .add("CJKUnifiedIdeographsExtensionC") + .add("CJKUnifiedIdeographsExtensionD") + .add("CombiningDiacriticalMarks") + .add("CombiningDiacriticalMarksSupplement") + .add("CombiningHalfMarks") + .add("CombiningDiacriticalMarksforSymbols") + .add("CommonIndicNumberForms") + .add("ControlPictures") + .add("Coptic") + .add("CountingRodNumerals") + .add("Cuneiform") + .add("CuneiformNumbersandPunctuation") + .add("CurrencySymbols") + .add("CypriotSyllabary") + .add("Cyrillic") + .add("CyrillicExtended-A") + .add("CyrillicExtended-B") + .add("CyrillicSupplementary") + .add("Deseret") + .add("Devanagari") + .add("DevanagariExtended") + .add("Dingbats") + .add("DominoTiles") + .add("EgyptianHieroglyphs") + .add("Emoticons") + .add("EnclosedAlphanumericSupplement") + .add("EnclosedAlphanumerics") + .add("EnclosedCJKLettersandMonths") + .add("EnclosedIdeographicSupplement") + .add("Ethiopic") + .add("EthiopicExtended") + .add("EthiopicExtended-A") + .add("EthiopicSupplement") + .add("GeneralPunctuation") + .add("GeometricShapes") + .add("Georgian") + .add("GeorgianSupplement") + .add("Glagolitic") + .add("Gothic") + .add("GreekandCoptic") + .add("GreekExtended") + .add("Gujarati") + .add("Gurmukhi") + .add("HalfwidthandFullwidthForms") + .add("HangulCompatibilityJamo") + .add("HangulJamo") + .add("HangulJamoExtended-A") + .add("HangulJamoExtended-B") + .add("HangulSyllables") + .add("Hanunoo") + .add("Hebrew") + .add("HighPrivateUseSurrogates") + .add("HighSurrogates") + .add("Hiragana") + .add("IdeographicDescriptionCharacters") + .add("ImperialAramaic") + .add("InscriptionalPahlavi") + .add("InscriptionalParthian") + .add("IPAExtensions") + .add("Javanese") + .add("Kaithi") + .add("KanaSupplement") + .add("Kanbun") + .add("Kangxi Radicals") + .add("Kannada") + .add("Katakana") + .add("KatakanaPhoneticExtensions") + .add("KayahLi") + .add("Kharoshthi") + .add("Khmer") + .add("KhmerSymbols") + .add("Lao") + .add("Latin-1Supplement") + .add("LatinExtended-A") + .add("LatinExtendedAdditional") + .add("LatinExtended-B") + .add("LatinExtended-C") + .add("LatinExtended-D") + .add("Lepcha") + .add("LetterlikeSymbols") + .add("Limbu") + .add("LinearBIdeograms") + .add("LinearBSyllabary") + .add("Lisu") + .add("LowSurrogates") + .add("Lycian") + .add("Lydian") + .add("MahjongTiles") + .add("Malayalam") + .add("Mandaic") + .add("MathematicalAlphanumericSymbols") + .add("MathematicalOperators") + .add("MeeteiMayek") + .add("MiscellaneousMathematicalSymbols-A") + .add("MiscellaneousMathematicalSymbols-B") + .add("MiscellaneousSymbols") + .add("MiscellaneousSymbolsandArrows") + .add("MiscellaneousSymbolsAndPictographs") + .add("MiscellaneousTechnical") + .add("ModifierToneLetters") + .add("Mongolian") + .add("MusicalSymbols") + .add("Myanmar") + .add("MyanmarExtended-A") + .add("NewTaiLue") + .add("NKo") + .add("NumberForms") + .add("Ogham") + .add("OlChiki") + .add("OldItalic") + .add("OldPersian") + .add("OldSouthArabian") + .add("OldTurkic") + .add("OpticalCharacterRecognition") + .add("Oriya") + .add("Osmanya") + .add("Phags-pa") + .add("PhaistosDisc") + .add("Phoenician") + .add("PhoneticExtensions") + .add("PhoneticExtensionsSupplement") + .add("PlayingCards") + .add("PrivateUseArea") + .add("Rejang") + .add("RumiNumeralSymbols") + .add("Runic") + .add("Samaritan") + .add("Saurashtra") + .add("Shavian") + .add("Sinhala") + .add("SmallFormVariants") + .add("SpacingModifierLetters") + .add("Specials") + .add("Sundanese") + .add("SuperscriptsandSubscripts") + .add("SupplementalArrows-A") + .add("SupplementalArrows-B") + .add("SupplementalMathematicalOperators") + .add("SupplementalPunctuation") + .add("SupplementaryPrivateUseArea-A") + .add("SupplementaryPrivateUseArea-B") + .add("SylotiNagri") + .add("Syriac") + .add("Tagalog") + .add("Tagbanwa") + .add("Tags") + .add("TaiLe") + .add("TaiTham") + .add("TaiViet") + .add("TaiXuanJingSymbols") + .add("Tamil") + .add("Telugu") + .add("Thaana") + .add("Thai") + .add("Tibetan") + .add("Tifinagh") + .add("TransportAndMapSymbols") + .add("Ugaritic") + .add("UnifiedCanadianAboriginalSyllabics") + .add("UnifiedCanadianAboriginalSyllabicsExtended") + .add("Vai") + .add("VariationSelectors") + .add("VariationSelectorsSupplement") + .add("VedicExtensions") + .add("VerticalForms") + .add("YiRadicals") + .add("YiSyllables") + .add("YijingHexagramSymbols").build(); private static final Map KEYWORD_TO_DEVIATE_MAP; static { @@ -377,4 +592,36 @@ public final class Utils { return string; } + + public static String fixUnicodeScriptPattern(String rawPattern) { + for (int i = 0; i < UNICODE_SCRIPT_FIX_COUNTER; i++) { + try { + Pattern.compile(rawPattern); + return rawPattern; + } catch(PatternSyntaxException ex) { + LOG.debug("Invalid regex pattern syntax in: {}", rawPattern, ex); + if (ex.getMessage().contains("Unknown character script name")) { + rawPattern = fixUnknownScripts(ex.getMessage(), rawPattern); + } else { + return rawPattern; + } + } + } + + LOG.warn("Regex pattern could not be fixed: {}", rawPattern); + return rawPattern; + } + + private static String fixUnknownScripts(final String exMessage, final String rawPattern) { + StringBuilder result = new StringBuilder(rawPattern); + Matcher matcher = BETWEEN_CURLY_BRACES_PATTERN.matcher(exMessage); + if (matcher.find()) { + String capturedGroup = matcher.group(1); + if (JAVA_UNICODE_BLOCKS.contains(capturedGroup)) { + int idx = rawPattern.indexOf("Is" + capturedGroup); + result = result.replace(idx, idx + 2, "In"); + } + } + return result.toString(); + } }