analýza/alt2xml.txt
author František Kučera <franta-hg@frantovo.cz>
Sat, 07 Jun 2014 15:42:48 +0200
changeset 22 23a12c58b57c
parent 12 3770beeed252
child 27 9c587bac6a03
permissions -rw-r--r--
AltInputSource, alt2xml.sh, první fungující verze .properties readeru
     1 Slouží k načítání souborů ve všelijakých syntaxích (json, ini atd.) tak, 
     2 aby s nimi následně šlo pracovat jako s XML.
     3 
     4 SAXParserFactory → SAXParser → XMLReader
     5 
     6 Nejdůležitější je XMLReader, tam se provádí vlastní načítání exotického souboru.
     7 
     8 Aby se použila správná (naše) továrna, je potřeba udělat něco z následujícího:
     9 	– nastavit systémovou vlastnost „javax.xml.parsers.SAXParserFactory“
    10 	– použít Services API… viz JavaDoc k newInstance()
    11 	– předat název třídy továrny jako parametr newInstance(…, …);
    12 
    13 Pak načítáme soubory, jako by to bylo XML:
    14 	SAXParserFactory továrna = SAXParserFactory.newInstance();
    15 	SAXParser parser = továrna.newSAXParser();
    16 	parser.parse(new File("data/vstup.json"), h);
    17 	
    18 Nikde sice nejsou žádné ostré závorky (např. JSON používá {} a []), 
    19 ale používáme stejné API a všechny navazující nástroje jako u opravdového XML.
    20 
    21 Náš SAXParser používá SuperXMLReader, který rozhoduje, který konkrétní parser se použije.
    22 
    23 
    24 Moduly řešit přes Features?
    25 
    26 Vstupní formáty:
    27 	JSON
    28 	INI (sekce + klíč=hodnota)
    29 	CSV (hlavičky → elementy)
    30 	Javovské Properties a podobné (pozor na komentáře)
    31 	HTML (zprasené, atributy bez uvozovek, atd.)
    32 	TXT (co řádek, to element)
    33 	ASN.1
    34 	Linuxové konfiguráky, API a příkazy – /etc, /proc, /sys …
    35 
    36 
    37 Odkazy:
    38 	TagSoup: http://mercury.ccil.org/~cowan/XML/tagsoup/
    39 	HotSAX: http://hotsax.sourceforge.net/ – HotSAX is a small fast SAX2 parser for HTML, XHTML and XML. 
    40 	XOM: http://www.cafeconleche.org/XOM/ – XOM is fairly unique in that it is a dual streaming/tree-based API.
    41 	Jericho: http://jericho.htmlparser.net/docs/javadoc/net/htmlparser/jericho/StreamedSource.html – Iterátor
    42 	SAX → DOM: http://www.java2s.com/Code/Java/XML/SaxtoDOMconverter.htm
    43 	XMLUnit: http://xmlunit.sourceforge.net/api/org/custommonkey/xmlunit/TolerantSaxDocumentBuilder.html
    44 	ASN.1
    45 		http://www.lupa.cz/clanky/asn-1-8211-koncept-abstraktni-syntaxove-notace/
    46 		http://www.root.cz/clanky/analogie-asn1/
    47 		http://www.research.ibm.com/trl/projects/xml/xss4j/samples/asn1/Translator.java
    48 		http://www.bouncycastle.org/  – Pěkná knihovna pro práci s ASN.1 v Javě je součástí Bouncy Castle Crypto APIs
    49 		https://en.wikipedia.org/wiki/XML_Encoding_Rules – XML Encoding Rules (XER)