In informatica XML (eXtensible Markup Language) rappresenta un metalinguaggio per la definizione di sezioni di testo sintatticamente definite al fine di poter controllare, usare ed estrarre i significati del testo al loro interno.
Sostanzialmente ottiene questo obiettivo attraverso l'uso di particolari
TAGS, ovvero parole chiave specifiche, con significati ben delineati e chiari che devono essere interpretati dal software
che li va ad utilizzare per restituire nel modo corretto cio' che il programmatore (o il creatore) del file voleva ottenere.
Su internet si fa largo uso di files XML che vengono usati per immagazzinare e salvare dati di ogni tipologia tanto che possono svolgere la funzione di piccoli database; più spesso sono utilizzati come files di configurazione dove memorizzare le informazioni e le preferenze di base di un software.
E' anche facile dover utilizzare un file in formato XML per estrapolare alcuni dati per noi importanti; è infatti bene far notare che il formato XML non identifica obbligatoriamente un file in formato .xml ma un modello di organizzare i dati... quindi possiamo avere file con ogni tipo di estensione (tutto cio' che sta dopo il puntino nel nome del file) che pur non ricordando per assonanza il formato xml, di fatto poi
ne seguono il costrutto di base.
La problematica nella lettura di un file XML:
Mi è capitato di recente di dove estrarre i dati all'interno di files creati da app per smartphone di tipo NOTA o MEMO... non potevo reinstallare l'applicazione che li ha generati ma aprendoli con un semplice editor di testo ho capito che erano salvati secondo lo standard XML.
Per capire meglio e più chiaramente come si riconosce un file XML vediamo l'esempio seguente.
La prima riga identifica che tutto quello che segue è da interpretare secondo lo standard XML.
A seguire troviamo una serie di parole chiave che sviluppano una struttura ad albero per la memorizzazione dei alcuni dati, in questo caso dati di utenti.
Quello che risulta subito chiaro, specialmente a chi non mastica informatica quotidianamente, è come questi dati siano purtroppo immersi all'interno di questi TAGS o parole chiave, tanto da rendere difficilmente leggibili i dati stessi e ancor più difficile estrarli attraverso una banale copia.
Se è già difficile in un piccolissimo files come questo, figuriamoci cosa sarebbe su di un file con un migliaio di parole che magari dobbiamo estrarre.
Abbiamo trovato una semplice soluzione al problema che vogliamo proporvi.
Usare NOTEPAD++ e le regular expression per eliminare i tags xml e lasciare il testo in chiaro:
La soluzione propone l'utilizzo di uno degli editor di testo open source più belli e funzionali di sempre, Notepad++.
Ecco a voi il link per il download:
https://notepad-plus-plus.org/Una volta scaricato vi consiglio di impostare subito l'utilizzo in lingua italiana... per farlo aprite NOTEPAD++ e andiamo sul menu
CONFIGURAZIONE, quindi
PREFERENZE ed impostiamo la lingua italiana.
Per "ripulire" il nostro file dai tags XML fastidiosi per il nostro scopo, non dovremo fare altro che aprire il nostro file con Notepad++... possiamo farlo semplicemente cliccando con il tasto destro sul file XML e scegliendo la voce "
EDIT WITH NOTEPAD++".
Una volta aperto andiamo sul menu
CERCA, quindi
SOSTITUISCI ed impostiamo la maschera come indicato nello screenshot seguente:
Come è possibile vedere si tratta di scivere una serie di caratteri nella casella del testo da trovare ed esattamente la seguente stringa:
<[^>]+>
Essa rappresenta una "
ESPRESSIONE REGOLARE" utilizzata dal software per cercare particolari combinazioni di caratteri; tutto questo risulterà nella ricerca dei tags XML che vogliamo estromettere dal nostro file in modo da lasciare solo il testo che ci interessa in chiaro.
Nel box
SOSTITUISCI CON impostiamo un testo vuoto...
è importante!Per finire mettiamo la spunta come inficato nella aree contrassegnate in rosso su
ESPRESSIONE REGOLARE e
SIGNIFICA A CAPO.
A questo punto basterà cliccare su
SOSTITUISCI TUTTI per ottenere un testo pulito senza tutti i tags XML .
Conclusioni:
Questa piccola guida sembra piuttosto specifica ma in realtà va a sanare velocemente e senza spendere un centesimo un bisogno che è più frequente di quanto si creda.
L'installazione di Notepad++ tonerà utile in moltissime attività quotidiane per le sue enormi capacità di adattamento alla elaborazione di testi, quindi scommetto che in molti si affezioneranno ben presto a questo splendido software tanto da adottarlo definitivamente.
Stefano Ravagni