Il 4 ottobre 2008 10.42, Antonio Macchi [EMAIL PROTECTED] ha scritto:
vabbe'... questa e' proprio la versione definitiva...
spero la cosa possa esserti stata utile
buona fortuna
ciao
sicuramente mi sarà utile, e se avete altre idee non esitate a
postarle... non voglio però farvi perdere
magari non ti servira' a niente... ma io mi son molto divertito...
cosi' gli ho fatto un'ultima miglioria...
in pratica ho inserito nello script anche la trasformazione da pdf a txt
quindi e' sufficiente che tu abbia una directory con i file pdf
ci metti dentro questo script (con chmod +x) e lo
vabbe'... questa e' proprio la versione definitiva...
--
#!/bin/bash -e
trap rm elenco; rm contenuto; 0
mkdir newpdf 2/dev/null || :
mkfifo elenco
mkfifo contenuto
IFS=$'\n'
find -maxdepth 1 -iname *pdf -type f elenco
exec 90
while read nomefilepdf
do
dunque, passando da pdf a testo con pdftotext ottengo un file di testo
decente ma non so come spiegare al computer qual'è il titolo, perché
prima ci sono scritte altre cose, per quanto riguarda gli archivi
forse faccio prima a mettere gli indirizzi perché sono un po' diversi
tra loro... gli
brunetto ha scritto:
dunque, passando da pdf a testo con pdftotext ottengo un file di testo
decente ma non so come spiegare al computer qual'è il titolo, perché
prima ci sono scritte altre cose, per quanto riguarda gli archivi
forse faccio prima a mettere gli indirizzi perché sono un po' diversi
brunetto wrote:
dunque, passando da pdf a testo con pdftotext ottengo un file di testo
decente ma non so come spiegare al computer qual'è il titolo, perché
prima ci sono scritte altre cose, per quanto riguarda gli archivi
ciao... ho fatto un po' di prove..
la strada di usare la rete non e'
nel caso volevi provarlo, gli ho dato una aggiustatina...
$ ( IFS=$'\n'; for file in `ls -1d *pdf`; do echo $file; pdftotext
$file; done; )
questa riga ti conviene cambiarla con quest'altra... che trasforma solo
la prima pagina (se hai pdf molto lunghi, aspetteresti tempo per niente)
(
occhio ai file e ai titoli con gli spazi... se ne contengono, devi virgolettare
infatti, ma cosa devo virgolettare?
e poi non e' detto che pdfinfo dia sempre un titolo... alcuni possono non
averne... nel quel caso ti ritrovi con file senza nome...
infatti... la maggior parte non hanno titolo
brunetto wrote:
infatti... la maggior parte non hanno titolo nelle info pdf o il
titolo è nuovamente unna stringa inutile...
se hai tanti file e l'esigenza di ricercarli puoi darlo in pasto
a Google se l'archivio è pubblico, se privato puoi cercare di
implementare un
sistema di ricerca in
Il giorno gio, 02/10/2008 alle 12.07 +0200, brunetto ha scritto:
spiego: faccio una ricerca in diversi archivi con varie parole
chiave, a seconda dei titoli (degli articoli disponibili per il
download) visualizzati nei siti dei vari archivi scarico diciamo 50
articoli. una volta scaricati i
brunetto scrisse:
[...]
gli archivi sono privati, il mio problema è avere modo di gestirli
dopo averli scaricati sul pc...
spiego: faccio una ricerca in diversi archivi con varie parole
chiave, a seconda dei titoli (degli articoli disponibili per il
download) visualizzati nei siti dei vari
se hai tanti file e l'esigenza di ricercarli puoi darlo in pasto
a Google se l'archivio è pubblico, se privato puoi cercare di
implementare un
sistema di ricerca in grado di fare il parsing dei PDF come htdig
gli archivi sono privati, il mio problema è avere modo di gestirli
dopo averli
infatti... la maggior parte non hanno titolo nelle info pdf o il
titolo è nuovamente unna stringa inutile...
una cosa (ultima speranza per le mie competenze) sarebbe questa
porta alcuni di questi file da pdf a ps, e poi dai ps2ascii .. e vedi se
ti vengono fuori nelle prime righe delle
Fabio Natali wrote:
brunetto scrisse:
[...]
gli archivi sono privati, il mio problema è avere modo di gestirli
dopo averli scaricati sul pc...
spiego: faccio una ricerca in diversi archivi con varie parole
chiave, a seconda dei titoli (degli articoli disponibili per il
download) visualizzati
saggissimi... vi ringrazio tutti vista anche la mia mostruosa pochezza
nell'elaborare scripts... appena ho sotto mano un computer decente
(questa sera) posto tutto!!!
grazie!!
brunetto
--
In piedi davanti al mare... meravigliato della meraviglia... io... un
universo di atomi... un atomo
Voglio dire, magari ti ritrovi con una lista di link del tipo:
a href=20081002qwerty.pdfSviluppo di sistemi open source/a
possiamo studiare un semplice script che salvi il file come
sviluppo_di_sistemi_open_source.pdf invece che come
20081002qwerty.pdf.
io avrei scritto una pipe che estrae
io avrei scritto una pipe che estrae da un file html tutti i link, e dai
grazie ancora... purtroppo non sono ancora riuscito a provare tutto...
appena riesco mi metto d'impegno!
grazie della disponibilità, veramente!!
brunetto
--
In piedi davanti al mare... meravigliato della meraviglia...
17 matches
Mail list logo