Ako oskenova knihu

Zpráva

SMITH · #1 Příspěvek od **SMITH** » 25 čer 2008, 00:19

Koneène som sa dopracoval k scaneru a chcel by som zoskenova zopár kních . Po zapár pokusoch som neprišiel na vhodný postup, preto sa pýtam ako na to ?

Chcel by som aby výsledok vyzeral profesionálne a bol v PDF.
Robí sa to cez OCR nejakým špecial postupom ?

Crifodo · #2 Příspěvek od **Crifodo** » 25 čer 2008, 06:34

Když ses konečně dopracoval ke scanneru, tak asi brzo zjistíš, že přefocení digitálem poskytne při kvalitním světle prakticky stejně dobrý výsledek a je 10x rychlejší. Focení navíc líp vyřeší problémy s vazbou tlustších knih, kdy skener dělá optickou deformaci, šedivý pruh u hřbetu atd.
OCR je určitá pomůcka, ale neřeší: jiné než dobře OCR-čitelné typy písma, linky, nadpisy, sazbu do bloků, obtékání ilustrací textem, grafiku v textu, záhlaví a patičky, sazbu jiným než černým písmem (bez zdlouhavé ruční korekce)... obyčejně taky kvalitní OCR nemá češtinu/slovenčinu, to je jen za citelný příplatek k profi verzi. Takže s OCR leda tak jednosloupcovou hladkou sazbu bez obrázků, jako bývaly třeba detektivky nebo střídmá beletrie. Na odborné publikace s vzorci, grafy to už moc není, časově vychází pak líp tu knihu buď kopírovat jako bitmapu nebo přepsat a přesázet. OCR ti stejně poskytne plain text který musíš znova formátovat do bloků s odstavci, nadpisy atd.
Každopádně je to šílená piplačka, když to má vypadat aspoň jako originál.

vicious · #3 Příspěvek od **vicious** » 25 čer 2008, 14:27

Pdf sa dá vyrobiť v programe OpenOffice

souba · #4 Příspěvek od **souba** » 25 čer 2008, 15:07

Přesně jak píše Crifodo .
Foťák je na knihy lepší než skener.
Práce ale hrozná.Pokud chceš aby to vypadalo solidně.

Trochu trpělivosti neuškodí .
Pokud nejde o život není kam spěchat.

Devo70 · #5 Příspěvek od **Devo70** » 25 čer 2008, 15:21

Najjednoduchšie je oskenovať stránky ako obrázky a následne ich vložiť do PDF formátu. Pri OCR treba všetko pracne kontrolovať, aj tak tam budú stále chyby.

kevin_mitnick · #6 Příspěvek od **kevin_mitnick** » 25 čer 2008, 16:21

Na knizky je perfektni tohle:

http://www.ecommerce.cz/cze/article.asp ... f_cat=6515

jen ta cena

Zirafka · #7 Příspěvek od **Zirafka** » 25 čer 2008, 20:10

Dobrý OCR program si poradí i s obrázky, tabulkami, sazbou a dalšími věcmi. Potíž je v ceně, ale pokud těch knih je více, asi by to stálo za hřích.

Jinak foťák ti tedy moc nedoporučuji, a nebo jedině tak, že budeš fotit z veliké dáááááááááááááálky, protože jinak z toho budeš mít soudky (tedy obrázek bude deformován do tvaru soudku).

Nejlepší by na to měl být CCD skener, i když oni dneska všechny jsou CCD, nebo se snad ještě prodávají CIS jako má doma já?

Důležité však je, aby uměl zaostřovat a také měl dobrou lampu, čili to chce skener trošku vyšší třídy než jsou ty nejlacinější na trhu. Můj Mustek stál před asi deseti lety skoro 5kKč, ale šlape do dneška. Na knihy však není, je to CISka a ne CCDčko.

Vkládat do PDFka celé stránky jako obrázek je smrtelný hřích a měl by se trestat vhozením do blízké řeky

Artaban001 · #8 Příspěvek od **Artaban001** » 25 čer 2008, 21:06

Pár knih jsem naskenoval pomocí Finereaderu, nebo Photosopu.
Nepoužívám rozpoznávání OCR, neboť mi jde o zachování originality. Po OCR se musí text projít a opravit případné chyby. Po naskenování jen oříznu kraje, zostřím obraz a uložím jako PDF

Crifodo · #9 Příspěvek od **Crifodo** » 26 čer 2008, 07:55

Variola: z jakého důvodu by měl digi foťák deformovat obrázky do soudků? Opticky korigované objektivy jsou známé asi tak 150 let. Nevšiml jsem si, že by během těch let všichni pracovníci v makrofotografii nebo i amatéři fotili desk-top z veliké dáááááááááááálky.

Nemělas na mysli čínský "objektiv" ze dvou plastových členů? Ten se ale neosazuje do foťáků. Dávají ho do hraček za 2000 nebo do mobilů.
Určité zkreslení (efekt rybí oko) můžou způsobovat i kvalitní objektivy širokoúhlé s kraťoučkou ohniskovou vzdáleností (pod 20 mm eq.), ale ty snad na makro nikdo nebere

Normální ohnisko odpovídající cca 60° zornému úhlu žádné vyklenutí neudělá, to si může každý ověřit. Spíš bude problém s přeostřením, čili předsádku na přírubu, nebo levnější foťáky které nemají objektiv opatřený závitem do režimu makro. Ověřeno že to jde i s miniaturními kompakty tl. 12mm s objektivem typu periskop, kdy žádný objektiv z těla aparátu nevystupuje a objektiv vidí ven jen okénkem v rovině přední stěny. Přesto fotí geometricky přesné makro jako víno.
Dobrý program i hodně dobrý program (Recognita, Character Eyes) má vždycky nějakou úspěšnost rozpoznávání, opravdu silně záleží na typu rozpoznávaného dokumentu. Vyzkoušel jsem jich v minulosti několik a nakonec jsem uznal, že zaplacení rychlé písařky je pro občasnou práci výhodnější než pořízení super dobrého programu s adaptivním učením (je problém, že obyčejně je demo jen ve verzi bez češtiny takže jak to dopadne v praxi je trochu hádanka). Ono totiž i tak zůstane spousta ruční práce než je výsledek použitelný, a sice kvalifikované typografie - sazbu je prakticky vždycky potřeba dělat znovu. Předtím je potřeba ručně vymezovat bloky textu, v případě nečerného písma dolaďovat úrovně č/b, opravy špatně rozpoznaných znaků, no a jestli chci převést original s grafy a tabulkami, tak tyto naskenovat v dobrém rozlišení a opět vysázet a obtékat mnou získaným textem. Nakonec z toho udělat pdf. Je to grandiozní práce, než vznikne z dobré knihy dobrá elektronická kniha...
Shrnuto: pro občasnou práci se kvalitní OCR nezaplatí, pro masovou produkci asi jo, ale něco budou stát autorské poplatky (nebo stažená (_._), kdy na mě autor podá žalobu), a navíc požadavky na vysokou kvalifikaci typografa, jestli to nemá být pro smích. U knih vydaných již v éře DTP se vyplatí získat elektronickou sazbu, beztak se knihy a časopisy nosí do tiskárny už častěji v pdf než v postscriptu...
"Publikování" dokumentů pdf kde je strana jen oskenovanou bitmapou fláknutou do souboru, nemá s e-knihou nebo časopisem nic společného, s tím souhlas

Takhle někdo vydal stará AR, může si někdo zkusit v takové bitmapě vyhledat řetězec znaků

#10 Příspěvek od **rnbw** » 26 čer 2008, 08:38

CIS scannery sa stale robia - Canon LiDE. Maju jedinu vyhodu - daju sa napajat priamo z USB, netreba dalsi zdroj (takze sa da scanovat aj z notebooku niekde vonku).

Dobry OCR program = FineReader. Samozrejme je s tym potom kopa roboty, ak chces perfektny vysledok. Ma to jednu velmi podstatnu vyhodu - text mas ako text, takze sa v nom da vyhladavat.

#11 Příspěvek od **jandu** » 26 čer 2008, 16:09

FineReader 7.0 PE má aj češtinu, slovenčinu a "milion" iných jazykov. Ale na OCR treba veľké rozlíšenie a to je zase pri mnohostránkovej knihe "obrovský" súbor. /pri doporučenom minimálnom rozlíšení 300 dpi treba veľa opravovať/.

Všetko je o tom, nájsť vhodný kompromis - koľko stranová kniha, aké rozlíšenie, či OCR alebo bez - a ja osobne som za prefocovanie. Skúšal som prefotený dokument zrekognostikovať /OCR/- a šlo to pomerne dobre. A je pravda, pri fotení s makro /FUJI Finepix 5600/ je znatelná súdkovitosť, ale rozhodne nie je treba fotiť z veľkej dialky.

A nakoniec- PDF či JPG alebo bmp? Som za PDF, lepšie sa to potom číta, aj veľkosť súboru sa dá nastaviť. Iba pri listovaní vo viacstránkovom PDF súbore mi to "zaberá" mnoho pamäti a to spomaluje stránkovanie.

Zirafka · #12 Příspěvek od **Zirafka** » 26 čer 2008, 16:09

Já používám program FineReader který jsem dostala ke svému skeneru a je docela dobrý. Není dokonalý, to ne, ale je to fakt dobrý pomocník. Jen je potřeba, aby snímek měl relativně vysoké rozlišení, ideální je 600DPI.

To šílené zkreslení není výmysl, ale zkušenost. Dělám občas přepisy z časopisů pro jeden web (pochopitelně legálně, redakce a provozovatel webu jsou dohodnuti). Většinou to skenuje, ale tuhle to poslal vyfocené. Totálně nepoužitelné. Nevím čím to fotit, ale fakt to nešlo. S dobrý foťákem by to neměl být problém, souhlasím. Ale ono je také otázka, kdo fotí. Většina lidí si myslí, že fotiti umí. Jak je to ve skutečnosti...

Já mám skener připojený přes ECP port

#13 Příspěvek od **jandu** » 26 čer 2008, 16:18

Mám skener Mustek 600GP. Je to starec, ale slúži poctivo. Iba je POMALÝ!. Na pár strán, na časopisy áno, tam čas nehraje úlohu, ale kniha cca 300 strán - to radšej fotím dvojstrany a prípadne ich v grafickom programe rozstrihám a zkonvertujem. Mám Adobe Acrobat 8 Prof., s ktorým sa dobre dá pracovať a zlučovať jednotlivé pdf dokumenty do jedného.

Ako oskenova￾ knihu

Ako oskenova￾ knihu

Ako oskenova knihu

Ako oskenova knihu