Identification automatique des sources des notices zoologiques du Speculum naturale de Vincent de Beauvais
Revue Ouverte d'Intelligence Artificielle, Volume 1 (2020) no. 1, pp. 19-42.

Avec son encyclopédie intitulée Speculum maius, le dominicain du xiiie siècle Vincent de Beauvais tente de constituer une synthèse générale du savoir. Pour ce faire, il rassemble des renseignements provenant d’une multitude de sources différentes, chrétiennes et païennes, antiques et médiévales. La plupart des notices de son œuvre contiennent une mention explicite des sources dont elles sont inspirées, à la différence de beaucoup des encyclopédies médiévales. Cette caractéristique permet d’utiliser le Speculum maius comme base d’expérimentation, et de lui appliquer des techniques d’apprentissage supervisé et de fouille de textes dans le but de relier automatiquement les notices encyclopédiques à leurs sources. Dans cet article, nous nous livrons à cet exercice pour les livres zoologiques de cette encyclopédie et nous analysons ensuite les apports, les limites et les perspectives des résultats obtenus dans l’optique d’une application future à d’autres encyclopédies dont les notices ne mentionnent pas leurs sources.

With his encyclopaedia Speculum maius, the xiiith century Dominican Vincent de Beauvais tries to form a general knowledge synthesis. To do so, he gathers information coming from a multitude of different sources, christian as well as pagan, from classical Antiquity as well as from Middles Ages. Most of his work’s notices contain an explicit mention of the sources from which they were drawn, unlike many other medieval encyclopaedias. This feature allows using the Speculum maius as an experimentation dataset, and applying supervised learning and text mining techniques in order to automatically link the encyclopaedic notices to their sources. In this paper, we undertake such an exercise for the zoological books of the encyclopaedia, and we analyze the contributions, limitations and perspectives of the results we have obtained, having in mind to apply our methods to encyclopaedias which do not mention their sources in the future.

Con su enciclopedia llamada Speculum maius, el dominicano del siglo xiii Vincent de Beauvais intenta constituir una síntesis general del conocimiento. Para ello, reúne información de una multitud de fuentes diferentes, cristianas y paganas, antiguas y medievales. La mayoría de las fichas de su obra contienen una mención explícita de las fuentes en las que se inspiran, a diferencia de muchas enciclopedias medievales. Esta característica permite utilizar el Speculum maius como base para la experimentación, y aplicarle técnicas de aprendizaje supervisado y de minería de textos con el objetivo de vincular automáticamente los registros enciclopédicos con sus fuentes. En el presente artículo nos dedicamos a este ejercicio para los libros de zoología de esta enciclopedia y analizamos posteriormente los aportes, límites y perspectivas de los resultados obtenidos con miras a su futura aplicación a otras enciclopedias cuyos registros no mencionan sus fuentes.

Reçu le :
Accepté le :
Publié le :
DOI : 10.5802/roia.2
Mots clés : Fouille de textes, Apprentissage supervisé, Encyclopédie médiévale.
Étienne Cuvelier 1 ; Sébastien de Valeriola 1 ; Céline Engelbeen 1

1 ICHEC - Brussels Management School, Laboratoire Quaresmi, Boulevard Brand Whitlock, 2, 1150 Bruxelles.
@article{ROIA_2020__1_1_19_0,
     author = {\'Etienne Cuvelier and S\'ebastien de Valeriola and C\'eline Engelbeen},
     title = {Identification automatique des sources des notices zoologiques du {Speculum} naturale de {Vincent} de {Beauvais}},
     journal = {Revue Ouverte d'Intelligence Artificielle},
     pages = {19--42},
     publisher = {Association pour la diffusion de la recherche francophone en intelligence artificielle},
     volume = {1},
     number = {1},
     year = {2020},
     doi = {10.5802/roia.2},
     language = {fr},
     url = {https://roia.centre-mersenne.org/articles/10.5802/roia.2/}
}
TY  - JOUR
TI  - Identification automatique des sources des notices zoologiques du Speculum naturale de Vincent de Beauvais
JO  - Revue Ouverte d'Intelligence Artificielle
PY  - 2020
DA  - 2020///
SP  - 19
EP  - 42
VL  - 1
IS  - 1
PB  - Association pour la diffusion de la recherche francophone en intelligence artificielle
UR  - https://roia.centre-mersenne.org/articles/10.5802/roia.2/
UR  - https://doi.org/10.5802/roia.2
DO  - 10.5802/roia.2
LA  - fr
ID  - ROIA_2020__1_1_19_0
ER  - 
%0 Journal Article
%T Identification automatique des sources des notices zoologiques du Speculum naturale de Vincent de Beauvais
%J Revue Ouverte d'Intelligence Artificielle
%D 2020
%P 19-42
%V 1
%N 1
%I Association pour la diffusion de la recherche francophone en intelligence artificielle
%U https://doi.org/10.5802/roia.2
%R 10.5802/roia.2
%G fr
%F ROIA_2020__1_1_19_0
Étienne Cuvelier; Sébastien de Valeriola; Céline Engelbeen. Identification automatique des sources des notices zoologiques du Speculum naturale de Vincent de Beauvais. Revue Ouverte d'Intelligence Artificielle, Volume 1 (2020) no. 1, pp. 19-42. doi : 10.5802/roia.2. https://roia.centre-mersenne.org/articles/10.5802/roia.2/

[1] Dimitri Abramov “Liber de naturis rerum” von Pseudo-John Folsham - Eine moralisierende lateinische Enzyklopädie aus dem 13. Jahrhundert (2003) (http://ediss.sub.uni-hamburg.de/volltexte/2011/5030/) (phdthesis)

[2] Isidorus Hispalensis, Etymologiae XII (Jacques André, ed.), Les Belles Lettres, Paris, 1986

[3] Benoît Beyer de Ryke Le miroir du monde  : un parcours dans l’encyclopédisme médiéval, Revue belge de philologie et d’histoire, Volume 81 (2003) no. 4, pp. 23-40

[4] Thomas Cantimpratensis, Liber de natura rerum (Helmut Boese, ed.), De Gruyter, Berlin et New York, 1973

[5] Onno Boonstra; Leen Breure; Peter Doorn Historische Informatiekunde, Verloren, Hilversum, 1990

[6] Andrei Z. Broder Identifying and Filtering Near-Duplicate Documents, Annual Symposium on Combinatorial Pattern Matching (2000), pp. 1-10 | Article | Zbl: 0964.68556

[7] Peter F. Brown; Jennifer C. Lai; Robert L. Mercer Aligning sentences in parallel corpora, Proceedings of the 29th annual meeting on Association for Computational Linguistics (1991), pp. 169-176 | Article

[8] Marco Büchler; Gregory Crane; Maria Moritz; Alison Babeu Increasing recall for text re-use in historical documents to support research in the humanities, International Conference on Theory and Practice of Digital Libraries (2012), pp. 95-100 | Article

[9] Marco Büchler; Annette Geßner; Thomas Eckart; Gerhard Heyer Unsupervised detection and visualisation of textual reuse on ancient Greek texts, Journal of the Chicago Colloquium on Digital Humanities and Computer Science, Volume 1 (2010) no. 2, pp. 1-17

[10] Grégory Clesse Thomas de Cantimpré et l’Orient. Les sources arabes dans les chapitres zoologiques du Liber de natura rerum, Reinardus. Yearbook of the International Reynard Society, Volume 25 (2013), pp. 53-77 | Article

[11] Paul Clough; Robert Gaizauskas; Scott S. L. Piao; Yorick Wilks Meter : Measuring text reuse, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (2002), pp. 152-159 | Article

[12] De civitate Dei [édition non identifiée] (http://www.thelatinlibrary.com/august.html)

[13] De trinitate [édition non identifiée] (http://www.thelatinlibrary.com/august.html)

[14] Isabelle Draelants La question ou le débat scolastique comme formes du discours scientifique dans les encyclopédies naturelles du xiiie siècle : Thomas de Cantimpré et Vincent de Beauvais, Scientiarum Historia : Tijdschrift voor de Geschiedenis van de Wetenschappen en de Geneeskunde, Volume 31 (2005) no. 1, pp. 125-153

[15] Isabelle Draelants La science naturelle et ses sources chez Barthélémy l’Anglais et les encyclopédistes contemporains, Bartholomeus Anglicus, De proprietatibus rerum. (...) Lateinischer Text und volkssprachige Rezeption (Baudouin Van den Abeele; Heinz Meyer, eds.), Brepols, Turnhout, 2006, pp. 43-99

[16] Dirk Eddelbuettel; Romain François Rcpp : Seamless R and C++ Integration, Journal of Statistical Software, Volume 40 (2011) no. 8, pp. 1-18 | Article

[17] William A. Gale; Kenneth W. Church A program for aligning sentences in bilingual corpora, Computational linguistics, Volume 19 (1993) no. 1, pp. 75-102

[18] Mia J. Gerhardt Zoologie médiévale. Préoccupations et procédés, Methoden in Wissenschaft und Kunst des Mittelalters (Albert Zimmermann; Rudolf Hoffmann, eds.) (Miscellanea Medievalia), De Gruyter, Berlin, 1973 no. 7

[19] Wickham Hadley stringr : Simple, Consistent Wrappers for Common String Operations, 2017 (R package version 1.2.0, https://CRAN.R-project.org/package=stringr)

[20] Charles Homer Haskins The Renaissance of the Twelfth Century, Harvard University Press, Cambridge, 1927

[21] Confessionum libri XIII (Pius Knöll, ed.), Corpus Scriptorum Ecclesiasticorum Latinorum, Tempsky et Freytag, Vienne et Leipzig, 1896 no. 33

[22] Jacques Le Goff Pourquoi le xiiie siècle a-t-il été plus particulièrement un siècle d’encyclopédisme ?, L’enciclopedismo medievale (Michelangelo Picone, ed.), Longo, Ravenna, 1994, pp. 23-40

[23] John Lee A computational model of text reuse in ancient literary texts, Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (2007), pp. 472-479

[24] Serge Lusignan; Monique Paulmier-Foucart Vincent de Beauvais et l’histoire du Speculum maius, Journal des Savants, Volume 1-2 (1990) no. 1, pp. 97-124

[25] Caroline Lyon; James Malcolm; Bob Dickerson Detecting short passages of similar text in large document collections, Proceedings of the 2001 Conference on Empirical Methods in Natural Language Processing (2001)

[26] Hermann A. Maurer; Frank Kappe; Bilal Zaka Plagiarism-a survey, J. UCS, Volume 12 (2006) no. 8, pp. 1050-1084 | Article

[27] Plini Secundi Naturalis historiae libri XXXVII (Carolus Mayhoff, ed.), Teubner, Leipzig, 1875

[28] Petrus Comestor, Historia scholastica (Jacques-Paul Migne, ed.), Migne, Paris, 1855, pp. col. 1049-1722

[29] Caii Julii Solini Collectanea rerum memorabilium (Théodore Mommsen, ed.), Weidmann, Berlin, 1895

[30] Sébastien Moureau Les sources alchimiques de Vincent de Beauvais, Spicae, Cahiers de l’Atelier Vincent de Beauvais, Volume 2 (2012), pp. 5-118

[31] Monique Paulmier-Foucart L’actor et les auctores : Vincent de Beauvais et l’écriture du Speculum majus, Auctor et auctoritas : invention et conformisme dans l’écriture médiévale. Actes du colloque tenu à l’Université de Versailles-Saint-Quentin-en-Yvelines, 14-16 juin 1999 (Michel Zimmermann, ed.) (Mémoires et documents), École des chartes, Paris, 2001 no. 59, pp. 145-160

[32] Monique Paulmier-Foucart; Marie-Christine Duchenne Vincent de Beauvais et le Grand miroir du monde, Brepols, Turnhout, 2004 | Article

[33] Martin Potthast; Matthias Hagen; Tim Gollub; Martin Tippmann; Johannes Kiesel; Paolo Rosso; Efstathios Stamatatos; Benno Stein Overview of the 5th international competition on plagiarism detection, CLEF Conference on Multilingual and Multimodal Information Access Evaluation (2013), pp. 301-331

[34] R Core Team R : A Language and Environment for Statistical Computing, 2017 (R Foundation for Statistical Computing, Vienna, Austria https://www.R-project.org/)

[35] Gerard Salton; Michael J. McGill Introduction to Modern Information Retrieval, McGraw-Hill, Inc., New York, 1986 | Zbl: 0523.68084

[36] Miguel A. Sanchez-Perez; Grigori Sidorov; Alexander F. Gelbukh A Winning Approach to Text Alignment for Text Reuse Detection at PAN 2014, CLEF (Working Notes) (2014), pp. 1004-1011

[37] Sancti Ambrosii opera (Karl Schenkl, ed.), Corpus Scriptorum Ecclesiasticorum Latinorum, Temsky, Vienne, 1896 no. 32

[38] Helmut Schmid Probabilistic Part-of-Speech Tagging Using Decision Trees, International Conference on New Methods in Language Processing (1994), pp. 44-49

[39] Palladii Rutilii Tauri Aemiliani uiri inlustris Opus agriculturae (Johann Schmitt, ed.), Teubner, Leipzig, 1898

[40] Christine Silvi Citer Pline dans les encyclopédies médiévales : l’exemple des notices zoologiques chez Thomas de Cantimpré et Vincent de Beauvais, Archives Internationales d’Histoire des Sciences, Volume 61 (2011) no. 166-167, pp. 27-55 | Article

[41] Michel Simard; George F. Foster; Pierre Isabelle Using cognates to align sentences in bilingual corpora, Proceedings of the 1993 conference of the Centre for Advanced Studies on Collaborative research : distributed computing-Volume 2 (1993), pp. 1071-1082

[42] SourcEncyMe (Sources des Encyclopédies Médiévales), 2007 (http://sourcencyme.irht.cnrs.fr)

[43] Baudouin Van den Abeele Bestiaires encyclopédiques moralisés. Quelques succédanés de Thomas de Cantimpré et de Barthélemy l’Anglais, Reinardus Yearbook of the International Reynard Society, Volume 7 (1994) no. 1, pp. 209-228 | Article

[44] Baudouin Van den Abeele Vincent de Beauvais naturaliste : les sources des livres d’animaux du Speculum naturale, Lector et compilator : Vincent de Beauvais, frère prêcheur : un intellectuel et son milieu au xiiie siècle (Serge Lusignan; Monique Paulmier-Foucart; Marie-Christine Duchenne, eds.), Créaphis, Grâne, 1997, pp. 127-151

[45] Aristotle De Animalibus, Michael Scot’s Arabic-Latin Translation, Part Three : Books XV-XIX : Generation of Animals (Aafke Van Oppenraaij, ed.), Brill, Leiden, Boston et Cologne, 1992

[46] Aristotle De Animalibus, Michael Scot’s Arabic-Latin Translation, Part Two : Books XI-XIV : Parts of Animals (Aafke Van Oppenraaij, ed.), Brill, Leiden, Boston et Cologne, 1998

[47] Transcription de la traduction de l’Historia animalium d’Aristote par Michel Scot

[48] Michael J. Wise YAP3 : Improved detection of similarities in computer program and other texts, ACM SIGCSE Bulletin, Volume 28 (1996) no. 1, pp. 130-134 | Article

[49] Pauli Orosii historiarum adversum paganos libri VII (Karl Zangemeister, ed.), Bibliotheca scriptorum Graecorum et Romanorum Teubneriana, Teubner, Leipzig, 1889

Cité par Sources :