TIKA - Formati di file

Formati di file supportati da Tika

La tabella seguente mostra i formati di file supportati da Tika.

Formato del file Libreria dei pacchetti Classe a Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html e utilizza la libreria Tagsoup HtmlParser
Documento composto MS-Office Ole2 fino al 2007 ooxml dal 2007 in poi

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml e utilizza la libreria Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

Formato OpenDocument openoffice org.apache.tika.parser.odf OpenOfficeParser
formato documento portatile (PDF) org.apache.tika.parser.pdf e questo pacchetto utilizza la libreria Apache PdfBox PDFParser
Formato di pubblicazione elettronica (libri digitali) org.apache.tika.parser.epub EpubParser
Formato Rich Text org.apache.tika.parser.rtf RTFParser
Formati di compressione e confezionamento org.apache.tika.parser.pkg e questo pacchetto utilizza la libreria Common compress PackageParser e CompressorParser e le sue sottoclassi
Formato testo org.apache.tika.parser.txt TXTParser
Formati di feed e syndication org.apache.tika.parser.feed FeedParser
Formati audio org.apache.tika.parser.audio e org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- per mp3parser
Imageparsers org.apache.tika.parser.jpeg JpegParser: per immagini jpeg
Videoformati org.apache.tika.parser.mp4 e org.apache.tika.parser.video questo parser utilizza internamente Simple Algorithm per analizzare i formati video flash Mp4parser FlvParser
file di classe java e file jar org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat (messaggi di posta elettronica) org.apache.tika.parser.mbox MobXParser
Formati cad org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
programmi eseguibili e librerie org.apache.tika.parser.executable ExecutableParser