Имеется собственноручно отсканированная в Ворд книга. Визуально текст в ворде выглядит вполне читабельным, но при попытке его подредактировать (убрать нумерацию страниц, подтянуть ненужные пробелы и т.д.) оказывается, что текст сплошь состоит из блоков, нераспознаваемых символов, буквицы начала абзаца - тоже оформлены как отдельный блок и т.д. Т.е. банальную копи-пасту сделать почти невозможно, нужно чуть ли не каждый абзац копировать вручную. О том, чтобы переконвертировать текст в fb2 вообще и речи нет. Места разрывов страниц вообще писец.
В тексте много цитат (выделены более мелким штифтом и чуть иным форматированием) - в ворде они тоже стали блоками.
И так все 600 с лишним страниц. Вручную копи-пастить каждый абзац (а иногда и каждую вторую строку, потому что блок внезапно может быть на каждую строку) можно до пенсии.
Вопрос: существует ли способ разом вычистить из файла всю эту гадость, оставив только сам текст? Готов даже пожертвовать начертаниями шрифтов - выделением цитат более мелким шрифтом.
Блоки выглядят как-то так.
читать дальше
В тексте много цитат (выделены более мелким штифтом и чуть иным форматированием) - в ворде они тоже стали блоками.
И так все 600 с лишним страниц. Вручную копи-пастить каждый абзац (а иногда и каждую вторую строку, потому что блок внезапно может быть на каждую строку) можно до пенсии.
Вопрос: существует ли способ разом вычистить из файла всю эту гадость, оставив только сам текст? Готов даже пожертвовать начертаниями шрифтов - выделением цитат более мелким шрифтом.
Блоки выглядят как-то так.
читать дальше




-
-
07.07.2013 в 01:30Сохранить в txt какой даёт результат?
-
-
07.07.2013 в 01:44Книга сканировалась второпях, т.к. надо было отдавать владельцу обратно "уже вчера". Но параллельно с вордом сохранялись и PDF-файлы аналогичных страниц (с возможностью распознавания). Но в PDF полно теней от корешка и переплета, некоторые лежали на сканере не ровно, т.е. тоже не идеал.
Если вставить в TXT. Текст действительно становится "почище", но пропадает выделение цитат (а их в данной книге почти 40% текста) и часто сливаются вместе абзацы.
Вылезают все знаки переноса, но как от них избавиться всем скопом я в принципе знаю.
Т.е. как один из вариантов такой способ (в ТХТ) сработает, но хотелось бы сначала как-то попытаться вычистить именно Ворд - там как раз максимально правильное и аккуратное форматирование.
Т.е. с ТХТ тоже придется вручную вдумчиво вычитывать каждую строку, делать разбивку на абзацы.
-
-
07.07.2013 в 01:57в картинки, лучше в tiff.
Затем эти tiff обрабатываете специальным образом (поворот, изменение контрастности, Бинаризация), используя Book Restorer или Сканкромсатор.
Только затем следует распознавание, т.к. обработанные сканы лучше поддаются распознаванию.
Но в PDF полно теней от корешка и переплета
Указанные выше программы удаляют этот мусор автоматически.
PDF можно сохранить в картинки (правда, они пережаты уже будут и результат обработки хуже, чем с оригинальными сканами)
-
-
07.07.2013 в 02:06то, что в ворде - это жесть, а не "максимально правильное и аккуратное форматирование".
максимально правильное и аккуратное форматирование - это в pdf с картинками с оригинала.
А аккуратно обработанную книгу не отличишь от оригинала. Пример хорошей обработки: s2.ipicture.ru/Gallery/Viewfull/27896724.html
-
-
07.07.2013 в 03:301) "причёсывать" сохранённые картинки для последующего правильного распознавания
2) сохранить в txt, потом опять открыть в ворде и руками внедрять нужное форматирование
для очистки переносов, например, совершенно точно есть скрипты для ворда, сам когда-то находил и пользовался
выделение цитат - руками, сличением с оригиналом/сканом
оба пути трудоёмки
но если второй - просто тупая и монотонная работа, то первый требует некоторого опыта, с первого раза не всё будет получаться