Index bei eingefügter pdf, xml, html-Datei

Fragen und Probleme, die nicht den obigen Kategorien zugeordnet werden können


aasaa00
Forum-Fortgeschrittener
Forum-Fortgeschrittener
Beiträge: 99
Registriert: Do 1. Mär 2018, 11:43

Index bei eingefügter pdf, xml, html-Datei

Beitrag von aasaa00 »

Hallo,
ich habe folgende Frage:

Ich habe eine Textedition eines antiken Textes mit dem Programm "Classical Text Editor" erstellt. Auf der einen Seite ist der antike Text abgebildet und auf der gegenüberliegenden Seite die deutsche Übersetzung. Ich kann diese Datei als pdf, xml, rtf, html oder als plain text exportieren.
Mein Problem: In der deutschen Übersetzung tauchen Begriffe auf, die ich in meinem Index aufnehmen muss.
Meine Frage: Gibt es eine Möglichkeit, dass in einem LaTeX-Dokument mit einer externen Datei, die externe Datei - wie z. B. eine eingebaute pdf-Datei - so präpariert werden kann, dass auch die dortigen Begriffe im Index des LaTeX-Gesamt-Dokument aufgenommen werden können?

Ich bin mir nicht sicher, ob ich mich verständlich ausgedrückt habe, daher ein Beispiel:

Ich schreibe eine Arbeit über "Julius Cäsar"; dafür habe ich eine Textausgabe der "Römischen Geschichte" von Cassius Dio mit deutscher Übersetzung im "Classical Text Editor" erstellt. Die Datei wird mir als pdf ausgegeben - sie kann aber auch in xml, rtf, html oder als plain text exportiert werden.
Ich will diese Datei in meiner Gesamtarbeit, die in LaTeX verfasst ist, einbauen. Mein Problem: Ich habe in meiner LaTeX-Datei ein Personenindex und in der externen pdf-Datei taucht mehrfach der Name "Julius Cäsar" auf. Wie schaffe ich es, dass auch diese Begriffe in der externen Datei im LaTeX-Index erfasst werden.


gast

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von gast »

Verstehe die Frage nicht. Du musst auf den entsprechenden Seite doch einfach nur passende \index-Befehle einfügen. Das geht sogar, wenn man zu einer Abbildung Begriffe in den Index einfügen will, also beispielsweise:

\documentclass{article}
\usepackage{mwe}
\usepackage{imakeidx}
\makeindex
\begin{document}
\section{Testbild}
\index{Testbild}\includegraphics{example-image}\index{Datei \texttt{example-image}}\index{Beispiel}
\blinddocument
\printindex
\end{document}

Wenn das nicht die Frage war, dann mach bitte ein ordentliches Minimalbeispiel und erkläre das Problem daran.

Ansonsten sei noch darauf hingewiesen, dass es diverse Pakete gibt, um Texte (beispielsweise in zwei Sprachen) parallel zu setzen.


aasaa00
Forum-Fortgeschrittener
Forum-Fortgeschrittener
Beiträge: 99
Registriert: Do 1. Mär 2018, 11:43

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von aasaa00 »

Danke für die Antwort. Ich bin mir nicht sicher, wie man beim MWE eine pdf einfügt, aber vielleicht geht es auch mit blinddocument: Wenn ich das "Lorem" und das "ipsum", das im blinddocument mehrfach und auf verschiedenen Seiten vorhanden ist, im Index meines Dokumentes aufgelistet haben will, wie müsste ich es machen? Anders formuliert: "Lorem" und "ipsum" tauchen im nachfolgenden Beispiel auf den Seiten 1 und 2 auf; Im unteren MWE wird mir bei "Lorem" und "ipsum" Seite 1 im Index angezeigt - was muss man tun, damit auch Seite 2 im Index genannt wird?

\documentclass{article}
\usepackage{mwe}
\usepackage{imakeidx}
\makeindex
\begin{document}
\section{Testbild}
\index{Testbild}\includegraphics{example-image}\index{Datei \texttt{example-image}}\index{Beispiel}
\index{Lorem} \index{ipsum}
\blinddocument
\printindex
\end{document}

gast

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von gast »

Ein PDF fügt man beispielsweise mit \includegraphics ein. Als Beispiel-PDF kann man die diversen PDFs aus mwe verwenden. Wenn ein Begriff auf mehreren Seiten auftritt, dann fügt man eben auf mehreren Seiten den \index-Befehl ein.

Wie man auf jeder von \blinddocument erzeugten Seite einen Indexeintrag erzeugt, ist ja eigentlich uninteressant. Das ist ja nur Fülltext, um zwischen Demobild und Index noch ein paar belanglose Seiten zu haben. Dazu müsste \blinddocument selbst so definiert werden, dass es auch \index ausführt. Dazu ist es nicht wirklich gedacht. Wenn du darauf bestehst:

\documentclass{article}
\usepackage{mwe}
\usepackage{imakeidx}
\makeindex

\usepackage{xpatch}
\makeatletter
\xpatchcmd{\blindtext@text}
  {Lorem ipsum}
  {\index{Lorem}Lorem \index{ipsum}ipsum}
  {}{\PatchFailure}
\makeatother

\begin{document}
\section{Testbild}
\index{Testbild}\includegraphics{example-image}\index{Datei \texttt{example-image}}\index{Beispiel}
\blinddocument
\printindex
\end{document}

Ich sehe jetzt aber nicht, inwiefern das bei einem realen Problem hilfreich sein soll.

Dein Problem ist noch immer unklar.


aasaa00
Forum-Fortgeschrittener
Forum-Fortgeschrittener
Beiträge: 99
Registriert: Do 1. Mär 2018, 11:43

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von aasaa00 »

gast hat geschrieben:
Mi 9. Dez 2020, 15:57

Wenn ein Begriff auf mehreren Seiten auftritt, dann fügt man eben auf mehreren Seiten den \index-Befehl ein.

Genau das ist mein Problem. Wie schaffe ich es bei einer mehrseitigen, externen pdf-Datei einen Indexeintrag zu erstellen? Die Beispiel-PDFs von MWE sind leider nur einseitig und da ist es mir klar (siehe MWE). Wenn ich aber ein 10-seitiges PDF hätte und auf den Seiten 2, 3 und 7 ich "Lorem" hätte, wie müsste dann die Indexerstellung ablaufen?

\documentclass{article}
\usepackage{mwe}
\usepackage{imakeidx}
\makeindex
\begin{document}
\section{Testbild}
\index{Lorem}\includegraphics{example-image-a4}
\blinddocument
\printindex
\end{document}


gast

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von gast »

Du kannst bei einem mehrseitigen PDF die Seiten auch einzeln laden:

\documentclass[a4paper]{article}
\usepackage{mwe}
\usepackage{imakeidx}
\makeindex
\begin{document}
\includegraphics[page=1,width=\textwidth]{example-image-a4-numbered}\index{Beispiel!Seite 1}

\includegraphics[page=2,width=\textwidth]{example-image-a4-numbered}\index{Beispiel!Seite 2}

\includegraphics[page=3,width=\textwidth]{example-image-a4-numbered}\index{Beispiel!Seite 3}

\printindex
\end{document}

aasaa00
Forum-Fortgeschrittener
Forum-Fortgeschrittener
Beiträge: 99
Registriert: Do 1. Mär 2018, 11:43

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von aasaa00 »

Ja, das Problem ist, dass meine pdf-Datei knapp 300 Seiten umfasst und ich daher nach einer etwas eleganteren Lösung suche. Gibt es eine andere Möglichkeit?


gast

Re: Index bei eingefügter pdf, xml, html-Datei

Beitrag von gast »

Irgendwie müssen die zu indizierenden Wörter erfasst werden. Du kannst das natürlich auch komplett extern tun, beispielsweise ein Programm schreiben, der den Text extrahiert, die Wörter sucht und dann den Index direkt als TeX-Datei erzeugt.

Ich mache aber nochmal darauf aufmerksam, dass man parallel laufende Texte in mehreren Sprachen auch direkt in TeX setzen kann. Dabei kann man dann auch den Index wie gewohnt erzeugen.


Antworten