೨೦೧೩ ಗಣರಾಜ್ಯೋತ್ಸವ – ಅಲೆ ೮ – ಕನ್ನಡಕ್ಕೆ ಓ.ಸಿ.ಅರ್

ಮುಖ್ಯವಾಗಿ ಗಣಕದಲ್ಲಿ ಇರುವ ಕಡತಗಳಲ್ಲಿ ಈ ವಿಧಗಳು ಹೆಚ್ಚು: ಪಠ್ಯ, ಚಿತ್ರ, ವಿಡಿಯೋ. ಪುಸ್ತಕಗಳಲ್ಲಿ ಅಚ್ಚಾಗಿರುವ ಪುಟಗಳಿಂದ ಪಠ್ಯಗಳನ್ನು ಗಣಕ ಕಡತವಾಗಿ ಉಳಿಸಿ ಉಪಯೋಗಿಸಬೇಕಾದರೆ ಆ ಪುಟಗಳನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಿ ಬರಬಹುದಾದ ಚಿತ್ರಗಳನ್ನು ಹಾಗೆಯೇ ಉಪಯೋಗಿಸಬಹುದು, ಅಥವಾ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸಬಹುದು. ಎರಡನೇ ಆಯ್ಕೆಯಲ್ಲಿ ಒಂದು ಹೆಚ್ಚಿನ ಅನುಕೂಲವಿದೆ. ಏನೆಂದರೆ ಪಠ್ಯ ಕಡತದ byte ಗಾತ್ರ ಚಿತ್ರದ್ದಕ್ಕಿಂತ ಬಹಳ ಬಹಳ ಸಣ್ಣದು. ಇನ್ನೊಂದು ಮುಖ್ಯವಾದದ್ದು ಏನೆಂದರೆ ಪಠ್ಯದಲ್ಲಿ ಬಹಳ ಸುಲಭವಾಗಿ ಅದರಲ್ಲಿನ ಅಕ್ಷರಗಳನ್ನು ತೆಗೆಯಬಹುದು, ತಿದ್ದಬಹುದು ಮತ್ತು ಹೊಸದಾಗಿ ಏನನ್ನು ಬೇಕಾದರೂ ಸೇರಿಸಬಹುದು. ಅಂದರೆ ಯಾವಭಾಗನ್ನು ಬೇಕಾದರೂ ಸಂಪಾದಿಸಬಹುದು (Editable).

ಇನ್ನೂ ಒಂದು ಉಪಯೋಗವೆಂದರೆ ಪಠ್ಯ ಭಾಗದಲ್ಲಿ ಹುಡುಕುವ (search) ಸೌಲಭ್ಯವಿದೆ. ಸ್ಕ್ಯಾನ್ ಮಾಡಿ ಬರಬಹುದಾದ ಚಿತ್ರಗಳನ್ನು ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುವ ಕಾರ್ಯವನ್ನು OCR ಅನ್ನುತ್ತಾರೆ. ಇದರ ಪೂರ್ಣ ಹೆಸರು Optical Character Recognition. ಚಿತ್ರದಲ್ಲಿ ಹುದುಗಿರುವ ಬಿಳಿ-ಕರಿ ಇತ್ಯಾದಿ ಬಣ್ಣಗಳಲ್ಲಿರುವ ಅಕ್ಷರಗಳನ್ನು ಗುರುತುಹಿಡಿದು ಅದನ್ನು ಪಠ್ಯದ ನಿಯಮಾನುಸಾರ ಕಡತದಲ್ಲಿ ಶೇಖರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುವುದೇ ಆಗಿದೆ.

ಇನ್ನೊಂದು ವಿಷಯ ಏನೆಂದರೆ ಈಗ scan ಮಾಡುವ ಉಪಕರಣಗಳಲ್ಲಿಯೇ ಇಂಗ್ಲೀಷ್ ಅಂತಹ ಭಾಷೆಗಳನ್ನು OCR ಮಾಡಿಯೇ ಪಠ್ಯವನ್ನು ಉತ್ಪಾದಿಸುವ ಅನುಕೂಲಗಳಿವೆ. ಏಕೆಂದರೆ ಇಂಗ್ಲಿಷ್ ಅಂತಹ ಭಾಷೆಗಳಿಗೆ OCR ತಂತ್ರಜ್ಞಾನ ಇದೆ ಮತ್ತು ಅದು ಹೆಚ್ಚಿನ ತೊಡಕಿನವು ಅಲ್ಲ. ಕಾರಣ ಇಂಗ್ಲಿಷ್ ಅಂತಹ ಭಾಷೆಗಲ್ಲಿ ಕಡಿಮೆ ಅಕ್ಷರಗಳಿವೆ. ಕನ್ನಡದಲ್ಲಿ ಹೆಚ್ಚು ಅಕ್ಷರಗಳಿವೆ ಎನ್ನುವುದಕ್ಕಿಂಥ ಅಕ್ಷರಗಳು ಕ್ಲಿಷ್ಟವಾದವು. ಕಾಗುಣಿತ, ವೊತ್ತಕ್ಷರಗಳು ಮತ್ತು ಒಂದಕ್ಕೊಂದು ಹೋಲುವ ಅಕ್ಷರಗಳು ಗಣಕಯಂತ್ರಕ್ಕೆ ಬಹಳಷ್ಟು ಸಮಸ್ಯೆಗಳನ್ನು ಒಡ್ಡಿವೆ. ಸಾಮಾನ್ಯವಾಗಿ ಭಾರತೀಯ ಭಾಷೆಗಳೆಲ್ಲವೂ ಇದೇ ಮಟ್ಟದಲ್ಲಿವೆ. ಹಾಗಾಗಿ ಇವುಗಳಿಗೆ ಗುಣಮಟ್ಟದOCR ಇಲ್ಲ. ಹೀಗೆಂದು ಏನೂ ಶೋಧ ನಡೆದಿಲ್ಲವೆಂದಿಲ್ಲ. Tesseract ಎನ್ನುವ ತತ್ರಾಂಶ ಒಂದು ಬಹುಮುಖವಾದದ್ದು. ಇದರ ಬಹು ಮುಖ್ಯತ್ವ ಏನೆಂದರೆ ಅದರ ಕಾರ್ಯ ಸಾಧನವನ್ನು ಯಾವ ಭಾಷೆಗೆ ಬೇಕಾದರೂ ಅಳವಡಿಸಬಹುದು. ನಿಮ್ಮ ಗುರಿಯ ಭಾಷೆಯನ್ನು ಪರಿಶೀಲಿಸುವಂತಹ ತರಬೇತಿ ಮಾಡಿದ ಉಪತತ್ರಾಂಶವನ್ನು ಅದರ ಜೊತೆ ಅಳವಡಿಸಬೇಕಷ್ಟೆ. ಅಲ್ಲದೆ ಅದು ಮುಕ್ತ ತತ್ರಾಂಶ. ಅದರ ತರಬೇತಿ ಕೆಲಸವನ್ನು ಬಾಷೆಯ ವೈವಿಧ್ಯತೆ ಮತ್ತು Tesseract ತಿಳಿದವರು ಮಾಡಿ ಕನ್ನಡಕ್ಕೆ ಸೇವೆ ಸಲ್ಲಿಸಬಹುದು. ಇದರಿಂದ ಕನ್ನಡ ಅಂತರ್ಜಾಲದಲ್ಲಿ ಹೆಚ್ಚು ಪ್ರಸರಿಸಲು ಅನುಕೂಲವಾಗುತ್ತದೆ. ಈಗ ನಡೆಯಬೇಕಾಗಿರುವ ಕೆಲಸವೆಂದರೆ ಕನ್ನಡವನ್ನು Tesseract ನೊಳಗೆ ಹೊಂದಿಸುವ ಉಪ ತತ್ರಾಂಶವನ್ನು ಸಿದ್ಧಪಡಿಸುವುದು. ಇದಕ್ಕೆ ಆಗಬೇಕಾಗಿರಿರುವ ಕೆಲಸವನ್ನು ತಿಳಿಯಬೇಕಾದರೆ Tesseractನ ಮೂಲ ತತ್ರಾಂಶದ ರೂಪವನ್ನು ತಿಳಿಯಬೇಕು.

ಇದನ್ನು ವಿವರಿಸುವ ತಾಣ: http://code.google.com/p/tesseract-ocr/

ಅದರ ಲಾಭಪಡೆಯಲು ಮುಖ್ಯವಾಗಿ ಕನ್ನಡದ ಪಠ್ಯವನ್ನು ಅಥವಾ ಪ್ರತಿಬಿಂಬ (Scanned/image)ಚಿತ್ರವನ್ನು ಉಪಯೋಗಿಸಿ ಉಪ ತಂತ್ರಾಂಶವನ್ನು ಸಿದ್ಧಪಡಿಸಬೇಕು. ಇದರ ಕೆಲವು ಪ್ರಮುಖ ಘಟ್ಟಗಳನ್ನು ಇಲ್ಲಿ ತಿಳಿಸಲು ಪ್ರಯತ್ನಿಸಲಾಗಿದೆ.

೧. ಪಠ್ಯ ಅಥವಾ ಚಿತ್ರದಲ್ಲಿ ಕನ್ನಡದಲ್ಲಿ ಸಾಮಾನ್ಯವಾಗಿ ಬಳಕೆಗೆ ಬರುವ ಅಕ್ಷರಗಳ ಸೇರಿಕೆ ಇರಬೇಕು.
೨. ಪ್ರತಿ ಅಕ್ಷರದ ಆಕಾರವನ್ನು ಒಂದು ಚೌಕಟ್ಟಿನಲ್ಲಿ ಹಿಡಿದು ಆ ಆಕಾರವು ಯಾವ ಅಕ್ಷರವೆಂದು ನಿಗಧಿಪಡಿಸುವುದು ಮತ್ತು ತತ್ರಾಂಶವು ಅದನ್ನು ತನ್ನ ನಿಯಮಾವಳಿಗೆ ಸೇರಿಸಿಕೊಳ್ಳುವುದೇ ತರಬೇತಿಯ ಪ್ರಮುಖ ಉದ್ದೇಶ.
೩. ಪಠ್ಯ/ಚಿತ್ರ ಮತ್ತು ಅಕ್ಷರಗಳ ಸುತ್ತ ಚೌಕಟ್ಟನ್ನು ಮತ್ತು ಅದರ ಸರಹದ್ದನ್ನು ಸರಿಹೊಂದಿಸುವ ತತ್ರಾಂಶಗಳಿವೆ. ಇದನ್ನು ಉಪಯೋಗಿಸಿಕೊಂಡು ಚೌಕಟ್ಟಿನ ಒಳಪಟ್ಟು ಇರುವ ಕರಿ-ಬಿಳಿ ಆಕಾರಕ್ಕೆ ಯಾವ ಅಕ್ಷರವೆಂದು ನಾವು ನಿಯೋಜಿಸ ಬೇಕು.
೪. ಚಿತ್ರ ಮತ್ತು ಈ ನಿಯೋಜಿಸಿದ ಕಡತವನ್ನು ಮುಂದೆ ಉಪತತ್ರಾಂಶ ತಯಾರಿಸಲು ಉಪಯೋಗಿಸಬೇಕು. ಅದಕ್ಕೆ tesseract ನಲ್ಲಿ ಕೊಟ್ಟಿರುವ ಮೆಟ್ಟಲುಗಳನ್ನು ಅನುಸರಿಸಬೇಕು
೫. ಈ ಉಪತತ್ರಾಂಶವನ್ನು ಅದರ ತಪ್ಪು-ಒಪ್ಪುಗಳಿಗಾಗಿ ಪರೀಕ್ಷಿಸಬೇಕು ಮತ್ತು ಅದನ್ನು ಉತ್ತಮ ಪಡಿಸಬೇಕು.

ಮೇಲೆ ಹೇಳಿರುವುದು ಯಾವುದರೂ ಭಾಷೆಯ ಉಪತತ್ರಾಂಶವನ್ನು ತಯಾರಿಸುವ ವಿಧಾನ.

ಇತ್ತೀಚೆಗೆ ಕನ್ನಡದ ಉಪತತ್ರಾಂಶವನ್ನು ತಯಾರಿಸಿ ವೆಬ್ ತಾಣದಲ್ಲಿ ಸೇರಿಸಿದ್ದಾರೆ.
http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.kan.tar.gz&can=2&q=
ಆದರೆ ಅದು ಅಷ್ಟು ಸಮರ್ಪಕವಾಗಿಲ್ಲ. ಅದನ್ನು ಉತ್ತಮ ಪಡಿಸಬೇಕು.

ಓಸಿಆರ್ ಮಾಡಲು ವಿಂಡೋಸ್ ನಲ್ಲಿ ಉಪಯೋಗಿಸಬಹುದಾದ GUI ಇಲ್ಲಿದೆ:
http://sourceforge.net/projects/vietocr/

ಕನ್ನಡದ ಉಪತ್ರಾಂಶವನ್ನು vietocr/tessdata ಫೋಲ್ಡರ್ ನಲ್ಲೂ
C:Program FilesTesseract-OCRtessdata ಸೇರಿಸಿದರೆ ಅದು ಕೆಲಸಮಾಡುತ್ತದೆ.

ನೀವೇ ಕನ್ನಡದ ಉಪತತ್ರಾಂಶವನ್ನು ತಯಾರಿಸಿಕೊಳ್ಳಲು ಅನುಸರಿಸಬೇಕಾದ ವಿಧಾನವನ್ನು ಈ ಮೆಟ್ಟಲುಗಳನ್ನು ಅನುಸರಿಸಿ tesseractಅರಿವು ಮಾಡಿಕೊಳ್ಳಿ; (ಇದು ಸುಮ್ಮನೆ ಪುಳಕಗೊಳ್ಳಲು ಅಷ್ಟೆ – ಪೂರ್ಣಪ್ರಮಾಣದಲ್ಲಿ ಕೆಲಸಮಾಡುವ ತತ್ರಾಂಶ ಇನ್ನೂ ತಯಾರಿಕಾ ಹಂತದಲ್ಲಿದೆ).

೧. Notepad ಉಪಯೋಗಿಸಿ (ನಿಮ್ಮ ಗಣಕಯಂತ್ರದಲ್ಲಿ ಕನ್ನಡ ಬರುವಂತೆ ಇದ್ದರೆ) Tunga font ನಲ್ಲಿ ಒಂದು ಕನ್ನಡದ text ಕಡತ ತಯಾರು ಮಾಡಿ.
೨. http://code.google.com/p/txt2img/downloads/list ಗೆ ಹೋಗಿ txt2img ಗೆ ಹೋಗಿ txt2img ತತ್ರಾಂಶವನ್ನು ನಿಮ್ಮ ಗಣಕ್ಕೆ ಇಳಿಸಿಕೊಂಡು ನೀವು ಕನ್ನಡದ ಕಡತದ image ಮತ್ತು box ತಯಾರಿಸಿ, http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/ ಉಪಯೋಗಿಸಿ ಒಪ್ಪುತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸಿ (ಇದಕ್ಕೆ Cowler box editor ಎನ್ನುವ ಇನ್ನೊಂದು ಸಾಧನವನ್ನೂ ಉಪಯೋಗಿಸಬಹುದು).
೩. ವಿಂಡೋಸ್‌ನಲ್ಲಿ ಉಪಯೋಗಿಸಬಹುದಾದ tesseract ತತ್ರಾಂಶವನ್ನು http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.02.02.exe&can=2&q= ನಿಮ್ಮ ಗಣಕದಲ್ಲಿ install ಮಾಡಿ, ಮೂಲ tesseract ವಿಕಿ ಪುಟದಲ್ಲಿ ಹೇಳಿರುವಂತೆ ಒಂದು ಕನ್ನಡಕ್ಕೆ ಉಪತತ್ರಾಂಶವನ್ನು ತಯಾರುಮಾಡಿ ಪರೀಕ್ಷಿಸಿ.

ಲೇಖಕ: ಸತ್ಯನಾರಾಯಣರಾವ್ ಎಂ.ಎನ್

ಬೆಂಗಳೂರಿನ ಸೆಂಟ್ರಲ್ ಕಾಲೇಜಿನಲ್ಲಿ ಬಿಎಸ್ಸಿ ಮಾಡಿರುವ ಇವರು, ಐ.ಇ.‌ಟಿ.ಇ ಪದವೀದರರು. ಡಿ.ಒ.ಟಿ ಡೆಪ್ಯುಟಿ ಜನರಲ್ ಮ್ಯಾನೇಜರ್ ಆಗಿ ನಿವೃತ್ತಿಹೊಂದಿದ್ದಾರೆ. ಕಂಪ್ಯೂಟರ್‌ಗಳಲ್ಲಿ ಕನ್ನಡದ ಸುತ್ತ ಕೆಲಸ ಮಾಡಲು ಆಸಕ್ತಿ. ೫೦೦೦ ಕ್ಕೂ ಹೆಚ್ಚು ಪುಟಗಳನ್ನು ಕನ್ನಡದ ಅನೇಕ ಪುಸ್ತಕಗಳಿಂದ ಕೀಲಿಸಿದ್ದಾರೆ. ಟೆಸ್ಸೆರಾಕ್ಟ್ ಓಸಿಆರ್ ಎಂಜಿನ್ ಮೇಲೆ ಕನ್ನಡಕ್ಕಾಗಿ ಸಮುದಾಯದೊಂದಿಗೆ ತಮ್ಮನ್ನು ತಾವು ತೊಡಗಿಸಿಕೊಂಡಿದ್ದಾರೆ.

೨೦೧೩ ಗಣರಾಜ್ಯೋತ್ಸವ – ಅಲೆ ೮ – ಕನ್ನಡಕ್ಕೆ ಓ.ಸಿ.ಅರ್

ಸಂಚಯದ ಕೆಲಸಗಳಿಗೆ ಸಮುದಾಯದ ಕಾಣಿಕೆಗಳೇ ಬಲ. ‍

[email protected]