О стенограмме «Дела Бейлиса»

В ImWerden около года назад появилась оцифрованная стенограмма «Дела Бейлиса» и теперь можно читать ее в хорошем качестве!
это подарок для всех, кто в теме т.к. раньше были доступны только скверные сканы.
Теперь можно открыть в Акробате и легко читать.
Однако есть ложка дегтя — оцифровка!!
Общая проблема оцифровки (особенно дорев. текстов) — если не править текст. слой, то сложно вести поиск, для чего собственно и нужна оцифровка — скажем невозможно найти все выступления защитников итд; кроме того при копировании текст содержит ошибки; это не страшно, если надо скопировать несколько строк, но проблема если копировать придется много, так ка надо будет вычитывать текст.
Ликбез: при оцифровке под графический текст «подкрадывается» распознанный текст- при чтении видна графика, а поиск и копирование выполняются по невидимому текстовому слою. Ошибки оцифровки сразу видны, если сохранить в текстовом виде (скажем в Word).
Ошибки эти нескольких видов- первая это неверно распознанные слова, вторая — что не вина распознавалок — это разрывы слов и допев. орфография.
В Worde ошибки можно частично исправить (скажем убрать переносы и разрывы слов и привести орфографию к современной), только для этого надо иметь специальные программы — одно время я много возился с этим, работая с дневниками Толстого и, сразу скажу, универсального решения не нашел (правда «Дело …» устроено проще поскольку нет сносок и таблиц,  однако для «Дела …» имеются и специфические трудности — имена участников пишутся сокращенно и часто по разному, в идеале надо бы ввести единообразие, но это и технически сложно и нарушит аутотентичность).
Кроме того для работы с дорев. текстами нужно привести текст к соврем. орфографии — словом, возни хватает.
Я бы предпочел иметь файл с совр. орфографии с расшифровкой сокращений и полными именами действующих лиц, а если бы по щелчку, то и с комментариями, как традиционно издаются научные издания и древние (см. Лебовскую серию).

Для чего это нужно см. мою работу «ВОКРУГ ДЕЛА БЕЙЛИСА:
СОКРАЩЕННАЯ СТЕНОГРАММА В «ПАТРИОТИЧЕСКИХ» ИЗДАНИЯХ» https://z.berkovich-zametki.com/y2020/nomer1/brushajlo/  — то не единственное применение поиска, просто про другие долго объяснять, но особо выделю проверку цитат — не буду перечислять случаи обрезанных и перевранных цитат,  скажу только «множество»!

И в заключение — была у меня идея собрать пул из энтузиастов и привести стеногр. в читабельный вид, но похоже это глас вопиющего в пустыне.
Но — если найдутся энтузиасты-свяжитесь со мной через редакцию.

дополнение от 19.07.23

Вот пример того, как выглядит OCR текста (Т. 2 с. 338) — жирным выделены слова кот. надо исправлять для публикации или поиска

Грузенб. Теперь другое: если вы чи тали саратовское дѣло, то извѣстно-ли вамъ, есть ли въ этомъ дѣлѣ Высочайшее поівѣ- леніе 1855 г., отъ 20 декабря, Государя Императора, о томъ, чтобы, не останавли вая саратовское дѣло, выдѣлить особую ко миссію о томъ, чтобы узнать, употребляютъ ли евреи кровь, или нѣтъ? Праи. Особая комиссія была. Груз. Хвольсонъ и Левин сонъ участвовали въ комиссіи. Пран. Да, участвовали.

Особо неприятны неверно оцифр.  имена и яти в словах, которые стандартно не набрать  и, кстати, Грузенберг сокращен в стенограмме как Грузенб/Груз — это не касаемо ocr-щиков, но для работы или издания надо поправить!

Добавить комментарий