LuaLaTeX -Geringer Zeichenabstand sorgt für falsches OCR

Schriftbild, Absätze und Auflistungen einstellen
TimoG
Forum-Newbie
Forum-Newbie
Beiträge: 3
Registriert: So 25. Nov 2018, 18:04

LuaLaTeX -Geringer Zeichenabstand sorgt für falsches OCR

Beitrag von TimoG »

Hallo liebe Forengemeinde,
Mein Name ist Timo und ich bin neu hier. Ich stehe kurz vor Abgabe meiner BA und stehe jetzt vor einem scheinbar unlösbaren Problem. Vorab - Ich arbeite in Overleaf. Als Schriftart wurde Arial oder Calibri vorgegeben. Ich habe mich für Calibri entschieden und die ttf über

Code: Alles auswählen

\setmainfont
eingebunden. Jetzt habe ich alles fertig und formatiert und bin auf folgendes Problem gestoßen:

Die Zeichenkombination "ti" wird vom Compiler offensichtlich nicht als zwei Zeichen wahrgenommen. Im Text sind die Buchstaben durch den Querbalken des "t" verbunden. Ich erhalte beim markieren des Textes "lobortis" beispielsweise "loborƟs". Dies ist natürlich schlecht für eventuelle Plagiatsscans und könnte mir im schlimmsten Fall als Sabotage oder Betrug ausgelegt werden.

Hier mein Minimalbeispiel:

Code: Alles auswählen

%%%%%%%% Beginn Präambel %%%%%%%%%%%%
\documentclass[]{article}
\usepackage{blindtext}

\usepackage{fontspec}
%\setmainfont[Ligatures=TeX] {Calibri.ttf}
\setmainfont{[Calibri.ttf]}

%%%%%%%%% Beginn Dokument %%%%%%%%%%%
\begin{document}
\blindtext
\end{document}
Bei meiner Recherche bin ich auf das Stichwort "Kerning" und Frickel-Lösungen wie "FeatureFile" gestoßen, welche mittlerweile nicht mehr von fontspec unterstützt wird. Weiterhin habe ich ein Beispiel mittels "directlua" entdeckt, welches keine Wirkung mit LuaLaTeX zeigte. Dokumente, die ich zuvor mit dem gleichen Template in ShareLaTeX erstellt habe, weisen dieses Problem nicht auf.
Ich bin verzweifelt und genervt.
Weiß jemand Rat?

Danke und Gruß
Timo

Rolli
Forum-Guru
Forum-Guru
Beiträge: 345
Registriert: Mi 15. Feb 2017, 08:50
Wohnort: Mittelfranken

Beitrag von Rolli »

Hallo TimoG,

Willkommen im Forum.

Das Zusammenziehen von Buchstaben nennt man "Ligatur". Wenn Du das nicht willst, schau mal hier:
https://texwelt.de/wissen/fragen/52/wie ... verhindern

Übrigens: Dein Minimalbeispiel funktioniert nicht, wie Du siehst, wenn Du auf "Öffne im Overleaf" klickst. Was ich nicht verstehe, weil Du schreibst:
Vorab - Ich arbeite in Overleaf.
Vielleicht erklärst Du mal, wie man eine ganze BA in Overleaf (und nicht in einem Editor-System wie TexWorks, TexMaker und Co.) erstellt?

Gruß vom Rolli

Benutzeravatar
u_fischer
Forum-Meister
Forum-Meister
Beiträge: 4014
Registriert: Do 22. Nov 2012, 11:09
Kontaktdaten:

Beitrag von u_fischer »

ich wüsste zwar nicht, warum eine Ligatur so problematisch sein sollte, aber du kannst sie abstellen mit

Code: Alles auswählen

\setmainfont{Calibri.ttf}[Ligatures = CommonOff]

Rolli
Forum-Guru
Forum-Guru
Beiträge: 345
Registriert: Mi 15. Feb 2017, 08:50
Wohnort: Mittelfranken

Beitrag von Rolli »

Noch ein Nachtrag von mir (bin selber Hochschullehrer):

Wieso befürchtest Du, Ligaturen könnten zum Betrugsvorwurf führen???
Das erschließt sich mir in keiner Weise.
Selbst dann, wenn PlagScan und Konsorten mehr als z.B. 3% Übereinstimmungen mit in der Datenbank existierenden Dokumenten ausweisen sollten (wobei ich einfach nicht glaube, dass die eine oder andere ungewünschte Ligatur in Deiner Thesis hierauf überhaupt einen Einfluss hat): Deine Gutachter sind verpflichtet, es sich einzeln anzuschauen, und nicht etwa einer abstrakten "Plagiatsquote" blindlings zu vertrauen.

Es gibt hier keine Beweislastumkehr, sondern es gilt "in dubio pro reo".

Gruß vom Rolli

P.S.: Bevor Ihr mich wieder haut ... off-topic, ich weiß: Aber ich möchte TimoG's Gedankengänge gerne verstehen.

TimoG
Forum-Newbie
Forum-Newbie
Beiträge: 3
Registriert: So 25. Nov 2018, 18:04

Beitrag von TimoG »

Hallo Rolli und u_fischer,

Vielen Dank für eure Antworten. Die Calibri.ttf wurde extern in mein Projekt eingebunden. Daher funktioniert das Code-Snippet allein nicht (Das habe ich hier nur reinkopiert).

Danke für den Hinweis zu den Ligaturen. Rein optisch finde ich diese auch nicht problematisch. Wenn dadurch jedoch der Textlayer im PDF zum markieren und durchsuchen verfälscht wird stimmt damit irgendwas nicht.

@u_fischer: Die von Dir genannte Option wirft in Overleaf einen Fehler:

Code: Alles auswählen

| The key 'fontspec/Ligatures' only accepts predefined values, and 'CommonOff'
| is not one of these.
@Rolli: Das von Dir verlinkte Beispiel wirft zwar keinen Fehler, ändert jedoch nichts am Output :-(

Code: Alles auswählen

\usepackage{microtype}
\DisableLigatures{}

Ich habe mich für sämtliche Hausarbeiten auf ShareLaTeX/Overleaf eingelassen, weil die Umgebung perfekt vorkonfiguriert war und mir dadurch eine manuelle Einarbeitung und Einrichtung erspart geblieben ist - ich wollte also schnell Ergebnisse. Eine 60-seitige BA mit diversen Abbildungen und diversen Quellen hat bisher gut funktioniert. @Rolli: Siehst Du noch andere Probleme bei der Nutzung von Overleaf für umfangreiche Arbeiten? Oder worauf möchstest Du mit der Frage hinaus?

Mein Gedankengang zum Plagiatsscan war, dass man mir unterstellen könnte, dass ich das PDF bewusst "nicht maschinenlesbar" gemacht habe, um diesen Vorgang zu erschweren. Danke auf jeden Fall für Deine Rückversicherung aus Lehrkraft-Sicht :-).

Rolli
Forum-Guru
Forum-Guru
Beiträge: 345
Registriert: Mi 15. Feb 2017, 08:50
Wohnort: Mittelfranken

Beitrag von Rolli »

Hi,

leider gibt es (wenige) Kolleg(inn)en, die Studierende als Eindringlinge und böse, latent zum Betrug, Ungehorsam, Renitenz ... neigende Menschen wahrnehmen - nach dem Motto "Die Arbeit wäre ja so angenehm, wenn es da nicht diese blöden Kund(inn)en gäbe ...".

Denen würde ich so eine Unterstellung zutrauen:
Mein Gedankengang zum Plagiatsscan war, dass man mir unterstellen könnte, dass ich das PDF bewusst "nicht maschinenlesbar" gemacht habe, um diesen Vorgang zu erschweren.
Aber glaube mir: An meiner Hochschule kenne ich aktuell niemanden, der so denkt.

Denke einfach mal positiv, beschäftige Dich mit den inhaltlichen Dingen, und liefere eine inhaltlich perfekte Thesis ab, die auch den Formvorschriften Deiner Fakultät entspricht (dazu: Ich kann mir wirklich nicht vorstellen, dass auch nur ein einziger Gestaltungsleitfaden einer in Deutschland ansässigen Universität oder Hochschule etwas zu "Ligaturen" aussagt - die beschäftigen sich alle mit wesentlich "profaneren" Dingen, wie bsp. dem unsäglichen "anderthalbfachem Zeilenabstand" - was immer das auch sein mag (die hier mitlesenden gelernten Schriftsetzer können diesen Begriff bestimmt erklären; ich kann es nicht)).

Gruß vom Rolli

TimoG
Forum-Newbie
Forum-Newbie
Beiträge: 3
Registriert: So 25. Nov 2018, 18:04

Beitrag von TimoG »

Es läuft!

Code: Alles auswählen

\setmainfont{Calibri.ttf}[Ligatures = NoCommon]
brachte die Lösung. Eventuell sind die Optionen in der fontspec-Version in Overleaf eingeschränkt, so dass CommonOff nicht verfügbar ist.

Danke euch nochmals für die Hinweise und die bestärkenden Worte.

Gruß und einen schönen Abend
Timo

Rolli
Forum-Guru
Forum-Guru
Beiträge: 345
Registriert: Mi 15. Feb 2017, 08:50
Wohnort: Mittelfranken

Beitrag von Rolli »

Super!
Dann ändere bitte noch den Status auf "beantwortet".
Gruß vom Rolli

Benutzeravatar
u_fischer
Forum-Meister
Forum-Meister
Beiträge: 4014
Registriert: Do 22. Nov 2012, 11:09
Kontaktdaten:

Beitrag von u_fischer »

TimoG hat geschrieben:
Eventuell sind die Optionen in der fontspec-Version in Overleaf eingeschränkt, so dass CommonOff nicht verfügbar ist.
Deine fontspec-Version ist älter (overleaf hat m.E. texlive 2016, ich habe 2018).

Gast

Beitrag von Gast »

TimoG hat geschrieben:@u_fischer: Die von Dir genannte Option wirft in Overleaf einen Fehler:

Code: Alles auswählen

| The key 'fontspec/Ligatures' only accepts predefined values, and 'CommonOff'
| is not one of these.
Siehe auch viewtopic,p,103633.html#103633.
TimoG hat geschrieben:Ich erhalte beim markieren des Textes "lobortis" beispielsweise "loborƟs".
Kann es sein, dass das Kopierziel nicht den kompletten Unicode-Zeichenumfang unterstützt?

Ich bekomme beim Kopieren aus Okular heraus in emacs hinein einwandfrei "lobortis".

Verwendet habe ich exakt dein Beispiel und ein aktuelles TeX Live.

Antworten