6 |
Dating and Stratifying a Historical Corpus with a Bayesian Mixture Model
|
|
|
|
In: Hellwig, Oliver (2020). Dating and Stratifying a Historical Corpus with a Bayesian Mixture Model. In: LT4HALA, online, 2020 - 2020, 1-9. (2020)
|
|
BASE
|
|
Show details
|
|
8 |
Sprachwandel im Sanskrit? Eine Corpusstudie zum Einfluss Pāṇinis auf die Lexik des Sanskrit ...
|
|
|
|
BASE
|
|
Show details
|
|
9 |
Sprachwandel im Sanskrit? Eine Corpusstudie zum Einfluss Pāṇinis auf die Lexik des Sanskrit ...
|
|
|
|
BASE
|
|
Show details
|
|
16 |
SanskritTagger : a stochastic lexical and pos tagger for Sanskrit
|
|
|
|
In: First International Sanskrit Computational Linguistics Symposium ; https://hal.inria.fr/inria-00203467 ; First International Sanskrit Computational Linguistics Symposium, INRIA Paris-Rocquencourt, Oct 2007, Rocquencourt, France (2007)
|
|
BASE
|
|
Show details
|
|
18 |
Sanskrit und Computer ... : Ein Programm zur Sprachanalyse von indischen Texten mit integriertem OCR-Modul ...
|
|
|
|
Abstract:
Titelblatt Einführung Das OCR-Modul Die Sprachanalyse Ausblick Benutzerhandbuch Literatur ... : Thema der Arbeit ist die digitale Verarbeitung von Sanskrit-Texten. Dazu wurden ein Programm zur Digitalisierung in Devanagari gedruckter Texte (OCR) und ein Programm zum lexikalischen und morphologischen Tagging digitalisierter Texte entworfen und in C++ implementiert. Die Digitalisierung wird mithilfe von Gruppen neuronaler Backpropagation-Netze durchgeführt, die auf Formbeschreibungen der Nagari-Zeichen trainiert werden. Zusätzlich zu fest installierten Klassifikatoren können trainierbare Klassifikatoren auf Basis des k-Nearest-Neighbours-Algorithmus aktiviert werden. Das OCR-Modul erreicht eine fontabhängige Erkennungsgenauigkeit von ca. 93-98%, wobei ein Grossteil der Fehler im Rahmen der Zeilensegmentierung verursacht wird. Die Möglichkeiten eines sprachbasierten Postprocessings der Daten werden diskutiert und seine Grenzen einer Nachbehandlung aufgrund sprachimmanenter Probleme (Sandhi, Homonymie) aufgezeigt. Im Rahmen des lexikalischen und morphologischen Taggings werden die Hauptprobleme ? Sandhi, ...
|
|
Keyword:
000 Informatik, Informationswissenschaft, allgemeine Werke000 Informatik, Wissen, Systeme004 Datenverarbeitung; Informatik; Sanskrit digitalization ocr tagging
|
|
URL: https://refubium.fu-berlin.de/handle/fub188/5429 https://dx.doi.org/10.17169/refubium-9628
|
|
BASE
|
|
Hide details
|
|
|
|