DE eng

Search in the Catalogues and Directories

Page: 1 2 3
Hits 1 – 20 of 42

1
Enjeux philologiques, linguistiques et informatiques de la philologie numérique : l’exemple de la segmentation des mots
In: ISSN: 2118-2698 ; Diachroniques. Revue de Linguistique française diachronique ; https://halshs.archives-ouvertes.fr/halshs-03243774 ; Diachroniques. Revue de Linguistique française diachronique, Presses de l'Université Paris-Sorbonne (PUPS), 2021, pp.77-102 ; https://sup.sorbonne-universite.fr/catalogue/revues/diachroniques/diachroniques-ndeg8 (2021)
BASE
Show details
2
Approche quantitative des marques graphiques et lexicales de l’oral représenté à travers les corpus BFM et BVH
In: ISSN: 1699-4949 ; Çedille ; https://halshs.archives-ouvertes.fr/halshs-03248597 ; Çedille, La Laguna Santa Cruz de Tenerife: Asociación de Profesores de Francés de la Universidad Española, 2021, pp.319-345. ⟨10.25145/j.cedille.2021.19.13⟩ (2021)
BASE
Show details
3
Language Processing in Digital Editions of Russian 18 th Century Texts ; Лингвистическая обработка цифровых изданий русских текстов XVIII века
In: Corpora 2021 International Conference ; https://halshs.archives-ouvertes.fr/halshs-03285725 ; Corpora 2021 International Conference, Saint-Petersburg State University, Jul 2021, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2021 (2021)
BASE
Show details
4
Using TXM Platform for Research on Language Changes over Time: the Dynamics of Vocabulary and Punctuation in Russian Literary Texts
In: ISSN: 2310-5046 ; Tomsk State University Journal of Philology ; https://halshs.archives-ouvertes.fr/halshs-03243725 ; Tomsk State University Journal of Philology, Tomsk State University, 2021, pp.69-89. ⟨10.17223/19986645/70/5⟩ ; http://journals.tsu.ru/philology/en/&journal_page=archive&id=2066&article_id=47351 (2021)
BASE
Show details
5
Décrire les textes dans le cadre d’une édition numérique. ; Décrire les textes dans le cadre d’une édition numérique.: Le thésaurus “Typologie textuelle” du Consortium CAHIER
In: https://halshs.archives-ouvertes.fr/halshs-03402679 ; 2021 (2021)
BASE
Show details
6
La Base de français médiéval et le consortium CAHIER : dix ans d'échanges et de collaborations
In: 10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique ; https://halshs.archives-ouvertes.fr/halshs-03363517 ; 10 ans avec CAHIER. Des corpus d'auteurs pour les humanités à leur exploitation numérique, Jun 2021, Bordeaux, France ; https://cahier10.sciencesconf.org/344494 (2021)
Abstract: International audience ; Le projet de la Base de français médiéval (BFM, http://txm.bfm-corpus.org) fait partie des membres fondateurs du Consortium CAHIER. Les origines du projet remontent à la fin des années 1980 et son évolution a suivi, et parfois anticipé, les grandes tendances du développement des humanités numériques. L'expérience de la BFM a permis de contribuer à plusieurs chantiers du consortium CAHIER : l'accès libre aux données, les normes d'encodage (et notamment l'usage de la TEI), la typologie textuelle, la mise en place de chaînes éditoriales ouvertes. Les échanges qui se sont produits dans les groupes de travail et lors des ateliers du consortium permettent à leur tour d'améliorer les pratiques d'encodage et les outils proposés aux utilisateurs de la BFM et d'assurer une plus grande interopérabilité et pérennité des données.La constitution de la BFM a commencé par la numérisation de l'édition de la Queste del saint Graal d'A. Pauphilet (1923) et la base a été enrichie au fil des ans grâce à des vacations, aux contributions de doctorants de Ch. Marchello-Nizia, aux échanges avec des collègues et, plus récemment, grâce à des financements ANR. A ce jour, la BFM comprend 170 textes composés entre le 9e et le 15e siècle, soit près de 4,7 millions de mots. Pour la Queste del saint Graal l'édition de Pauphilet a d'ailleurs été remplacée dans le corpus par une édition numérique originale (Marchello-Nizia et Lavrentiev 2019). Une augmentation importante du corpus est prévue en 2021. Les textes de la BFM sont étiquetés en morphosyntaxe et lemmatisés (avec ou sans vérification) et bénéficient du balisage XML-TEI enrichi. En particulier, le discours direct est balisé dans l'ensemble du corpus, ce qui permet de mener des recherches sur l'oral représenté (Guillot-Barbance et al. 2018). De nombreuses thèses et travaux de recherche ont été réalisés grâce aux données de la BFM. Notamment, la partie médiévale du corpus de la Grande grammaire historique du français (Marchello-Nizia et al. 2020) est entièrement issue de la Base de français médiéval. La BFM est accessible en ligne grâce au logiciel « portail TXM » (http://textometrie.org), les textes peuvent être consultés librement et l'accès au moteur de recherche et d'analyse est donné gratuitement sur simple inscription (Guillot-Barbance et al. 2017).Quand la TGIR Corpus (prédécesseur d'Huma-num) lance en 2010 l'appel à la création de consortiums de corpus, la BFM faisait déjà, depuis 2004, partie du Consortium international pour les corpus de français médiéval (CCFM, http://ccfm.ens-lyon.fr). Cette organisation informelle, n'ayant jamais bénéficié d'un financement spécifique et dont l'activité s'est estompée après 2008, a néanmoins permis d'entamer la réflexion et de publier des documents de travail sur les normes communes d'encodage et de description des textes, ainsi que sur les conditions d'accès aux corpus et d'échange de données. L'expérience du CCFM a sans doute inspiré l'initiative de la TGIR Corpus et a servi de point de départ pour certaines activités de CAHIER (notamment pour l'organisation de groupes de travail et pour la rédaction de guides de bonnes pratiques).L'un des premiers groupes de travail de CAHIER visait à traiter les questions juridiques liées aux droits d'auteurs (et d'éditeurs) et à la mise à disposition de corpus. La BFM avait commencé comme un ensemble de concordanciers échangés dans un cadre privé entre chercheurs sous la forme de CD-ROM ou de tirages papier, puis elle avait progressivement ouvert l'accès à l'interrogation et au téléchargement du corpus sur Internet. Elle avait une longue histoire de relations complexes avec les éditeurs commerciaux. Denise Pierrot, qui s'est occupée des questions juridiques pour la BFM, a également joué un rôle important dans le groupe de travail correspondant de CAHIER et a contribué à la rédaction du Guide des bonnes pratiques. La situation juridique a évolué suite aux décisions de justice dans le procès Droz contre Garnier numérique (2014 et 2017), ce qui a rendu possible la mise à disposition libre de textes historiques (hors apparat critique).La pérennisation des données, grâce notamment à l'usage de l'encodage XML-TEI pour les textes et les annotations, a été la priorité pour la BFM depuis le début des années 2000 (Guillot et Heiden 2002). Le consortium CAHIER a pu bénéficier de la documentation de la BFM relative à l'encodage TEI du corps du texte et de l'entête (teiHeader) des documents. La BFM a été l'un des premiers projets à se conformer au modèle élaboré pour l'outil Weboai de CAHIER permettant le moissonnage des métadonnées (http://weboai.cahier.huma-num.fr). Toujours dans le domaine des métadonnées, les descripteurs typologiques de BFM, tels que le genre ou le domaine du texte, ont servi de base au thésaurus élaboré par le groupe de travail « Typologie textuelle » de CAHIER. Ce thésaurus, très riche et soigneusement structuré, permettra à son tour de préciser les métadonnées des futurs corpus de la BFM et de faciliter l'analyse de données de corpus agrégés à partir de plusieurs sources.La pérennisation des données de recherche conformément aux principes FAIR (Findability, Accessibility, Interoperability and Reusability) est l'activité du Consortium CAHIER fortement encouragée par la TGIR Huma-Num. Même si la vision qui semble se dégager des recommandations du conseil scientifique d'Huma-Num et qui consiste à exiger avant tout le dépôt des données dans l'outil Nakala nous paraît un peu réductrice, il est certain que l'archivage pérenne et l'accessibilité des données sont extrêmement importants. Le soutien que CAHIER assure pour le dépôt des textes et des images dans NAKALA est très précieux pour la BFM.La formation aux outils d'édition, d'analyse et de publication de corpus ouverts, ainsi que l'échange de bonnes pratiques éditoriales, a toujours été l'une des principales activités de CAHIER. La BFM, qui se développe en étroite collaboration avec la plateforme de préparation, d'analyse et de préparation de corpus TXM (Heiden et al. 2010) a pu partager son expérience, et des membres de l'équipe BFM ont animé de nombreuses séances de formation lors des ateliers CAHIER.Le consortium CAHIER a également favorisé les échanges entre l'équipe TXM et le Pôle document numérique de la MSH de Caen qui développe la chaîne éditoriale Métopes (grâce notamment au financement d'un stage en 2017). La BFM bénéficie actuellement de certains éléments de Métopes pour la mise en page de ses éditions au format PDF et des scripts de traitement automatique permettant d'importer dans TXM des documents XML-TEI créés avec Métopes ont été élaborés.La BFM est un projet qui a commencé bien avant la création du Consortium CAHIER et qui va sans doute continuer à se développer après la disparition de CAHIER dans sa forme actuelle de consortium de la TGIR Huma-Num. Quel que soit l'avenir du Consortium, nous sommes convaincus que les ressources numériques, les méthodes et les outils de travail élaborés grâce ou avec le soutien de CAHIER ainsi que les relations humaines et les partenariats de recherche qui se sont tissés au cours des dix ans de ses activités continueront à jouer un rôle important dans la communauté des humanités numériques.
Keyword: [INFO]Computer Science [cs]; [SHS.LANGUE]Humanities and Social Sciences/Linguistics; [SHS.LITT]Humanities and Social Sciences/Literature; Philologie numérique; TEI; TXM
URL: https://halshs.archives-ouvertes.fr/halshs-03363517
BASE
Hide details
7
Universal Dependencies 2.9
Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell. - : Universal Dependencies Consortium, 2021
BASE
Show details
8
Universal Dependencies 2.8.1
Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell. - : Universal Dependencies Consortium, 2021
BASE
Show details
9
Universal Dependencies 2.8
Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell. - : Universal Dependencies Consortium, 2021
BASE
Show details
10
Universal Dependencies 2.7
Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell. - : Universal Dependencies Consortium, 2020
BASE
Show details
11
Universal Dependencies 2.6
Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell. - : Universal Dependencies Consortium, 2020
BASE
Show details
12
Analysis of corpus of extremist and unlawful texts ; Анализ корпусов текстов террористической и антиправовой направленности
In: ISSN: 2311-3456 ; Voprosy kiberbezopasnosti ; https://halshs.archives-ouvertes.fr/halshs-02266136 ; Voprosy kiberbezopasnosti, NPO Eshelon, 2019, pp.54-60. ⟨10.21681/2311-3456-2019-4-54-60⟩ (2019)
BASE
Show details
13
Implementation in the txm platform of additional instruments of automatic text processing ; Внедрение в TXM дополнительных инструментов автоматической обработки текста
In: Corpus linguistics - 2019 ; https://halshs.archives-ouvertes.fr/halshs-02266174 ; Corpus linguistics - 2019, Jun 2019, Saint-Petersbourg, Russia ; https://events.spbu.ru/events/corpora-2019 (2019)
BASE
Show details
14
Digital editions and corpora of francophone diaries by Alexandre Chicherin and Olga Orlova-Davydova
In: Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018 ; https://halshs.archives-ouvertes.fr/halshs-03271314 ; Anisava Miltenova; Victor Baranov; Heniz Miklas; Kevin Hawkins; Jürgen Fuchsbauer. Digital and Analytical Approaches to the Written Heritage. Proceedings of the 7th international conference El‘Manuscript “Textual Heritage and Information Technologies”, 2018, Gutenberg Publishing House, pp.129-142, 2019, 978-619-176-155-5 ; https://www.obshtezhitie.net/texts/Approaches.pdf (2019)
BASE
Show details
15
Traitement de la ponctuation. Normes, introductions, pratiques
In: Les Introductions linguistiques aux éditions de textes ; https://halshs.archives-ouvertes.fr/halshs-01318870 ; Duval, Frédéric; Guillot-Barbance, Céline; Zinelli, Fabio. Les Introductions linguistiques aux éditions de textes, Classiques Garnier, pp.275-294, 2019, Les introductions aux éditions de textes, 978-2-406-08578-2. ⟨10.15122/isbn.978-2-406-08580-5.p.0275⟩ (2019)
BASE
Show details
16
Universal Dependencies 2.5
Zeman, Daniel; Nivre, Joakim; Abrams, Mitchell. - : Universal Dependencies Consortium, 2019
BASE
Show details
17
Universal Dependencies 2.4
Nivre, Joakim; Abrams, Mitchell; Agić, Željko. - : Universal Dependencies Consortium, 2019
BASE
Show details
18
Diachronie de l'oral représenté ; Diachronie de l'oral représenté: délimitation et segmentation interne du dialogue (IXe-XVe siècle)
In: Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF ; https://halshs.archives-ouvertes.fr/halshs-01313822 ; Wendy Ayres-Benett; Anne Carlier; Julie Glikman; Thomas Rainsford; Gilles Siouffi; Carine Skupien Dekens. Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, Classiques Garnier, pp.279-296, 2018, Nouvelles voies d’accès au changement linguistique. Actes du colloque de la SIDF, ⟨10.15122/isbn.978-2-406-06946-1.p.0279⟩ ; http://diachronie.org/colloques/colloque-cambridge-2014 (2018)
BASE
Show details
19
Universal Dependencies 2.2
In: https://hal.archives-ouvertes.fr/hal-01930733 ; 2018 (2018)
BASE
Show details
20
Creating text corpora for special purposes on the basis of extended TXM platform ; Создание специальных корпусов текстов на основе расширенной платформы TXM
In: ISSN: 2072-9472 ; Systemy vysokoj dostupnosti ; https://halshs.archives-ouvertes.fr/halshs-01880719 ; Systemy vysokoj dostupnosti, Radiotekhnika, 2018, 14 (3), pp.76-81. ⟨10.18127/j20729472-201803-13⟩ (2018)
BASE
Show details

Page: 1 2 3

Catalogues
3
0
0
0
2
0
0
Bibliographies
5
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
35
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern