PDFs automatisiert durchsuchen, idealerweise mit Excel

Eure Spielwiese.


BlackDevil
Forum-Century
Forum-Century
Beiträge: 107
Registriert: Di 23. Jul 2013, 11:38
Wohnort: Deutschland

PDFs automatisiert durchsuchen, idealerweise mit Excel

Beitrag von BlackDevil »

Ahoi :)

ich würde bei office-loesung fragen - aber der Server ist down und aufs Provisorium habe ich keinen Zugriff... die Admins melden sich nicht. Deshalb hoffe ich hier auf eine Antwort, immerhin sind hier viele Wissenschaftler und Ingenieure unterwegs :)

Mein Problem: Ich habe 10.000 Begriffe die ich in ~150 Zeichnungen, teils mit mehreren Blättern, finden muss. Und um ehrlich zu sein ist es mir zu doof mich hier tagelang hinzusetzen und meine geistige Gesundheit zu gefährden :roll:

Idealerweise würde ich ein VBA Skript schreiben. Die Snippets die ich im Netz finde helfen mir allerdings erstmal wenig weiter, ich werde sie mir aber noch mal ansehen. Geht das mit VBA? Es geht nur drum die PDFs nach dem Begriff zu durchsuchen und im Falle das in die Spalte nach dem Begriff eine 1 zu schreiben.

Falls das so nicht geht, gäbe es eine Alternative: Ich kann mit unserem Adobe die PDFs in Textdateien wandeln. Die zu durchsuchen ist mit Excel kein Problem.

Es gibt aber zwei Probleme:
1) Alles was es zu finden gibt muss gefunden werden. Ziel ist es nämlich diejenigen Begriffe zu finden, die auf den Zeichnungen nicht vorkommen. Diese müssen dann gesondert geprüft werden. Und es wäre ärgerliche Mehrarbeit wenn die Begriffe doch existieren. Wie zuverlässig ist die Text Konvertierung? Wird wirklich ALLES was "durchsuchbarer Text" ist konvertiert? Ist das zuverlässig?`
2) Es gibt Begriffe die zweimal vorkommen. Zum Beisepiel XXXYY4711Y und XXXYY4711Y-1. Die Suche muss also erkennen wenn ein Begriff Teil eines Begriffes ist und diesen ignorieren. Klappt das?

Adobe Version:
Adobe Reader XI, Version 11.0.07

Office Version: 2007


Vielleicht kann mir jemand weiterhelfen :)

Grüße


Edit: Alternativ auch mit Windows Batch

Edit 2: Habs mit Windows Batch versucht:
@echo off

FOR /F %%i in (C:\Users\XXX\Desktop\test.txt) do (
	echo %%i
	FINDSTR \C:%%i C:\Users\XXX\Desktop\XXX.pdf
	if %errorlevel%==0 (
		echo Found!
	) else (
		echo No matches found
	)
	echo.
)

pause
In test.txt stehen 4 Strings untereinander, einer davon existiert definitiv nicht. Das Ergebnis ist, dass im Command Window nach jedem Eintrag "Found!" steht, auch nach dem der gar nicht existiert ... kann es sein das ich PDFs so einfach gar nicht durchsuchen muss und ich tatsächlich auf txt umsteigen muss? Dafür müsste ich aber erstmal wissen wie zuverlässig die Konvertierung ist.

Edit 3: Nach etwas hin und her scheint das hier zu funktionieren:
@echo off

set /P tags=Bitte geben sie den Pfad und den Namen des Text Files mit den Tags ein: 
set /P searchtext=Bitte geben sie den Pfad und den Namen der zu durchsuchenden TXT ein: 

FOR /F %%i in (tags) do (
	echo %%i
	FINDSTR /L %%i searchtext > NUL
	IF ErrorLevel 1 (
		echo %%i not found!
		echo %%i not found! > notfound.txt
	) ELSE (
		echo FOUND 
	)
	echo.
)
pause
Ich muss die PDF halt nur vorher in Text wandeln. Ich hoffe, dass das robust genug ist und das wirklich alles konvertiert wird.