Skipp a écrit :
C'est une bonne nouvelle... mais en ces temps de disettes économiques le projet va-t-il aboutir ? Cela fait déjà un moment que l'on trouve sur les différents sites d'archives départementales un lien vers ces matricules... lorsque l'on clique dessus on a la réponse comme quoi ce sera à venir. Il y'a quelques années, il y'avait un lien sur Mémoiredeshommes vers les fiches des grognards de Napoléon Ier. Les fiches n'ont jamais pu être mise à disposition car le travail s'avérait en fait colossal. Il manque malheureusement de budget, de moyens humains, pour aboutir.
J'espère me tromper.
Il y a des outils qui permettent de voir l'avenir en rose. Par exemple, je suis abonné au flux RSS des partitions de Galica. Chaque semaine le nombre de partitions scannées augmente et la qualité des fichiers s'améliore. Ils ne pratiquent pas encore la reconnaissance des partitions, mais il y a des programmes qui le font, bien que les résultats correspondent à ce qu'on avait il y a 15 ans avec les programmes d'OCR.
Il y a actuellement des scanners qui permettent de numériser assez vite des documents. Ils suppriment automatiquement les artefacts créés par le livre. Dans certains cas, les conservateurs préfèrent d'ailleurs démonter le livre et le refaire ensuite. La lumière utilisée pour réaliser le scan a diminué d'intensité, ce qui diminue le risque de voir virer les encres. On peut donc numériser plus vite et mieux la plupart des documents sans les abimer.
Ensuite, les programmes d'OCR s'étant modifiés, on peut souvent reconnaitre le texte et le transformer facilement en un document indésable et où l'on peut chercher des mots et des phrases. Du coup, la recherche en devient plus facile. Pour terminer, le prix des instruments de stockage (serveurs, disques durs) à diminué : on n'est plus obligé de faire un choix entre qualité et quantité.
Bref, de nombreux documents, mêmes manuscrits, peuvent être numérisés, interprétés et stockés pour permettre une recherche facile. Certains pays le font en masse. Il est vrai qu'en France, c'est souvent une variable d'ajustement des budgets.
Pour exemple, avec un programme d'OCR d'il y a 15 ans, il fallait au moins intervenir manuellement sur 1 mot par ligne sur des documents récents. Actuellement, j'arrive à scanner des anciens documents qui datent de ma formation en n'intervenant que pour une dizaines de mots en 80-100 pages.