Имеется собственноручно отсканированная в Ворд книга. Визуально текст в ворде выглядит вполне читабельным, но при попытке его подредактировать (убрать нумера...

воскресенье, 07 июля 2013

01:27

все записи пользователя в сообществе *Fifi*

Имеется собственноручно отсканированная в Ворд книга. Визуально текст в ворде выглядит вполне читабельным, но при попытке его подредактировать (убрать нумерацию страниц, подтянуть ненужные пробелы и т.д.) оказывается, что текст сплошь состоит из блоков, нераспознаваемых символов, буквицы начала абзаца - тоже оформлены как отдельный блок и т.д. Т.е. банальную копи-пасту сделать почти невозможно, нужно чуть ли не каждый абзац копировать вручную. О том, чтобы переконвертировать текст в fb2 вообще и речи нет. Места разрывов страниц вообще писец.
В тексте много цитат (выделены более мелким штифтом и чуть иным форматированием) - в ворде они тоже стали блоками.
И так все 600 с лишним страниц. Вручную копи-пастить каждый абзац (а иногда и каждую вторую строку, потому что блок внезапно может быть на каждую строку) можно до пенсии.

Вопрос: существует ли способ разом вычистить из файла всю эту гадость, оставив только сам текст? Готов даже пожертвовать начертаниями шрифтов - выделением цитат более мелким шрифтом.

Блоки выглядят как-то так.
читать дальше

@темы: MS Office

URL

Корейцы молодцы!!! буду за них болеть! [*]www.yestoall.com/flashAPI/index.html Линк может оказ... Артист: Дельфин Альбом: Глубина резкости Сонга: Надеж...

Сегодня по статистике на Rax.Ru увидел, что ко мне на htt... отрыла сегодня в недрах своего компа старую папку с музык... сегодня с утра отвратительно болит голова, после завтрака...

Комментарии

07.07.2013 в 01:30

Trotil

Другого исходника нет совсем? Это вы неудачный формат для сохранения выбрали.
Сохранить в txt какой даёт результат?

URL

07.07.2013 в 01:44

*Fifi*

А в какой формат лучше всего сканировать книгу, чтобы потом было удобно вычищать лишее?

Книга сканировалась второпях, т.к. надо было отдавать владельцу обратно "уже вчера". Но параллельно с вордом сохранялись и PDF-файлы аналогичных страниц (с возможностью распознавания). Но в PDF полно теней от корешка и переплета, некоторые лежали на сканере не ровно, т.е. тоже не идеал.

Если вставить в TXT. Текст действительно становится "почище", но пропадает выделение цитат (а их в данной книге почти 40% текста) и часто сливаются вместе абзацы.
Вылезают все знаки переноса, но как от них избавиться всем скопом я в принципе знаю.
Т.е. как один из вариантов такой способ (в ТХТ) сработает, но хотелось бы сначала как-то попытаться вычистить именно Ворд - там как раз максимально правильное и аккуратное форматирование.
Т.е. с ТХТ тоже придется вручную вдумчиво вычитывать каждую строку, делать разбивку на абзацы.

URL

07.07.2013 в 01:57

Trotil

А в какой формат лучше всего сканировать книгу, чтобы потом было удобно вычищать лишее?

в картинки, лучше в tiff.
Затем эти tiff обрабатываете специальным образом (поворот, изменение контрастности, Бинаризация), используя Book Restorer или Сканкромсатор.
Только затем следует распознавание, т.к. обработанные сканы лучше поддаются распознаванию.

Но в PDF полно теней от корешка и переплета
Указанные выше программы удаляют этот мусор автоматически.
PDF можно сохранить в картинки (правда, они пережаты уже будут и результат обработки хуже, чем с оригинальными сканами)

URL

07.07.2013 в 02:06

Trotil

там как раз максимально правильное и аккуратное форматирование.

то, что в ворде - это жесть, а не "максимально правильное и аккуратное форматирование".
максимально правильное и аккуратное форматирование - это в pdf с картинками с оригинала.
А аккуратно обработанную книгу не отличишь от оригинала. Пример хорошей обработки: s2.ipicture.ru/Gallery/Viewfull/27896724.html

URL

07.07.2013 в 03:30

Lennonenko

blah-blah-blah

пути собссно два:
1) "причёсывать" сохранённые картинки для последующего правильного распознавания
2) сохранить в txt, потом опять открыть в ворде и руками внедрять нужное форматирование
для очистки переносов, например, совершенно точно есть скрипты для ворда, сам когда-то находил и пользовался
выделение цитат - руками, сличением с оригиналом/сканом

оба пути трудоёмки
но если второй - просто тупая и монотонная работа, то первый требует некоторого опыта, с первого раза не всё будет получаться

URL


Запомнить

Помощь @экспертов – Хард и софт