01:27

Имеется собственноручно отсканированная в Ворд книга. Визуально текст в ворде выглядит вполне читабельным, но при попытке его подредактировать (убрать нумерацию страниц, подтянуть ненужные пробелы и т.д.) оказывается, что текст сплошь состоит из блоков, нераспознаваемых символов, буквицы начала абзаца - тоже оформлены как отдельный блок и т.д. Т.е. банальную копи-пасту сделать почти невозможно, нужно чуть ли не каждый абзац копировать вручную. О том, чтобы переконвертировать текст в fb2 вообще и речи нет. Места разрывов страниц вообще писец.
В тексте много цитат (выделены более мелким штифтом и чуть иным форматированием) - в ворде они тоже стали блоками.
И так все 600 с лишним страниц. Вручную копи-пастить каждый абзац (а иногда и каждую вторую строку, потому что блок внезапно может быть на каждую строку) можно до пенсии.

Вопрос: существует ли способ разом вычистить из файла всю эту гадость, оставив только сам текст? Готов даже пожертвовать начертаниями шрифтов - выделением цитат более мелким шрифтом.

Блоки выглядят как-то так.
читать дальше

@темы: MS Office

Комментарии
07.07.2013 в 01:30

Другого исходника нет совсем? Это вы неудачный формат для сохранения выбрали.
Сохранить в txt какой даёт результат?
07.07.2013 в 01:44

А в какой формат лучше всего сканировать книгу, чтобы потом было удобно вычищать лишее?

Книга сканировалась второпях, т.к. надо было отдавать владельцу обратно "уже вчера". Но параллельно с вордом сохранялись и PDF-файлы аналогичных страниц (с возможностью распознавания). Но в PDF полно теней от корешка и переплета, некоторые лежали на сканере не ровно, т.е. тоже не идеал.

Если вставить в TXT. Текст действительно становится "почище", но пропадает выделение цитат (а их в данной книге почти 40% текста) и часто сливаются вместе абзацы.
Вылезают все знаки переноса, но как от них избавиться всем скопом я в принципе знаю.
Т.е. как один из вариантов такой способ (в ТХТ) сработает, но хотелось бы сначала как-то попытаться вычистить именно Ворд - там как раз максимально правильное и аккуратное форматирование.
Т.е. с ТХТ тоже придется вручную вдумчиво вычитывать каждую строку, делать разбивку на абзацы.
07.07.2013 в 01:57

А в какой формат лучше всего сканировать книгу, чтобы потом было удобно вычищать лишее?

в картинки, лучше в tiff.
Затем эти tiff обрабатываете специальным образом (поворот, изменение контрастности, Бинаризация), используя Book Restorer или Сканкромсатор.
Только затем следует распознавание, т.к. обработанные сканы лучше поддаются распознаванию.

Но в PDF полно теней от корешка и переплета
Указанные выше программы удаляют этот мусор автоматически.
PDF можно сохранить в картинки (правда, они пережаты уже будут и результат обработки хуже, чем с оригинальными сканами)
07.07.2013 в 02:06

там как раз максимально правильное и аккуратное форматирование.

то, что в ворде - это жесть, а не "максимально правильное и аккуратное форматирование".
максимально правильное и аккуратное форматирование - это в pdf с картинками с оригинала.
А аккуратно обработанную книгу не отличишь от оригинала. Пример хорошей обработки: s2.ipicture.ru/Gallery/Viewfull/27896724.html
07.07.2013 в 03:30

blah-blah-blah
пути собссно два:
1) "причёсывать" сохранённые картинки для последующего правильного распознавания
2) сохранить в txt, потом опять открыть в ворде и руками внедрять нужное форматирование
для очистки переносов, например, совершенно точно есть скрипты для ворда, сам когда-то находил и пользовался
выделение цитат - руками, сличением с оригиналом/сканом

оба пути трудоёмки
но если второй - просто тупая и монотонная работа, то первый требует некоторого опыта, с первого раза не всё будет получаться