اسکین اور متن کی پہچان

Send

سہ پہر

شائد ، ہم میں سے ہر ایک کو اس کام کا سامنا کرنا پڑا جب کسی کاغذی دستاویز کو الیکٹرانک شکل میں ترجمہ کرنا ضروری تھا۔ یہ خاص طور پر ان لوگوں کے لئے ضروری ہوتا ہے جو مطالعہ کرتے ہیں ، دستاویزات کے ساتھ کام کرتے ہیں ، الیکٹرانک لغات کا استعمال کرتے ہوئے متن کا ترجمہ کرتے ہیں وغیرہ۔

اس مضمون میں ، میں اس عمل کی کچھ بنیادی باتیں بتانا چاہتا ہوں۔ عام طور پر ، متن کو اسکین کرنا اور اس کو تسلیم کرنا کافی وقت لگتا ہے ، کیونکہ زیادہ تر کاروائیاں دستی طور پر ہی کرنا ہوں گی۔ ہم یہ جاننے کی کوشش کریں گے کہ کیا ، کیسے اور کیوں؟

ہر ایک کو فوری طور پر ایک چیز سمجھ نہیں آتی ہے۔ اسکیننگ کے بعد (اسکینر پر تمام شیٹس کو فٹ کرنا) آپ کے پاس BMP ، JPG ، PNG ، GIF فارمیٹ میں تصاویر ہوں گی (ہوسکتا ہے کہ دیگر فارمیٹس بھی ہو)۔ لہذا ، اس تصویر سے آپ کو متن حاصل کرنے کی ضرورت ہے - اس طریقہ کار کو شناخت کہا جاتا ہے۔ اس حکم میں نیچے بیان ہوگا۔

مشمولات

1. اسکیننگ اور شناخت کے ل What کیا ضرورت ہے؟
2. ٹیکسٹ اسکین کے اختیارات
3. دستاویز کے متن کی پہچان
- 3.1 متن
- 3.2 تصاویر
- 3.3 میزیں
- 3.4 غیر ضروری اشیاء
4. پی ڈی ایف / DJVU فائلوں کی شناخت
5. غلطیوں کو جانچنا اور کام کے نتائج کو بچانا

1. اسکیننگ اور شناخت کے ل What کیا ضرورت ہے؟

1) سکینر

طباعت شدہ دستاویزات کو متن میں تبدیل کرنے کے ل you ، آپ کو پہلے اسکینر کی ضرورت ہوگی اور اسی کے مطابق ، "دیسی" پروگرام اور ڈرائیور جو اس کے ساتھ آئے تھے۔ ان کا استعمال کرتے ہوئے ، آپ کسی دستاویز کو اسکین کرسکتے ہیں اور اسے مزید کارروائی کے ل for محفوظ کرسکتے ہیں۔

آپ دوسرے ینالاگوں کو استعمال کرسکتے ہیں ، لیکن کٹ میں اسکینر کے ساتھ آنے والا سافٹ ویئر عام طور پر تیز رفتار سے کام کرتا ہے اور اس میں مزید اختیارات ہوتے ہیں۔

آپ کے پاس کس قسم کا سکینر ہے اس پر انحصار کرتے ہوئے ، کام کی رفتار نمایاں طور پر مختلف ہوسکتی ہے۔ ایسے سکینر موجود ہیں جو 10 سیکنڈ میں شیٹ سے تصویر وصول کرسکتے ہیں ، ایسے بھی ہیں جو 30 سیکنڈ میں وصول کریں گے۔ اگر آپ 200 سے 300 شیٹ کے لئے کوئی کتاب اسکین کرتے ہیں تو - میرے خیال میں اس بات کا حساب لگانا مشکل نہیں ہے کہ ایک وقت میں کتنی بار فرق ہوگا؟

2) پہچان پروگرام

ہمارے آرٹیکل میں میں آپ کو کسی بھی دستاویزات کی جانچ پڑتال کے لئے بہترین پروگراموں میں سے ایک میں کام دکھاؤں گا - ABBYY FineReader۔ کیونکہ چونکہ پروگرام کی ادائیگی ہوچکی ہے ، میں فوری طور پر کسی اور کو ایک لنک دے دوں گا - اس کا کیونی فارم کا مفت ینالاگ۔ سچ ہے ، میں ان کا موازنہ نہیں کروں گا ، اس حقیقت کی وجہ سے کہ فائن ریڈر ہر لحاظ سے جیت جاتا ہے ، اس کے باوجود میں اسے آزمانے کی سفارش کرتا ہوں۔

ABBYY فائن ریڈر 11

سرکاری ویب سائٹ: //www.abbyy.ru/

اپنی نوعیت کا ایک بہترین پروگرام۔ یہ تصویر میں موجود متن کو پہچاننے کے لئے ڈیزائن کیا گیا ہے۔ بہت سے اختیارات اور افعال میں بلٹ ان۔ یہ فونٹ کے ایک گروپ کا تجزیہ کرسکتا ہے ، یہاں تک کہ یہ ہاتھ سے لکھے گئے اختیارات کی بھی حمایت کرتا ہے (اگرچہ میں نے ذاتی طور پر اس کی کوشش نہیں کی ہے ، مجھے لگتا ہے کہ اس کا خطرہ نسخہ تسلیم کرنے کے قابل نہیں ہے ، جب تک کہ آپ کے پاس خطاطی کے لئے کامل خطاطی موجود نہ ہو)۔ اس کے ساتھ کام کرنے کے بارے میں مزید تفصیلات ذیل میں بیان کی جائیں گی۔ یہاں ہم یہ بھی نوٹ کرتے ہیں کہ مضمون ورژن 11 کے پروگرام میں کام کرنے کے بارے میں بات کرے گا۔

ایک اصول کے طور پر ، ABBYY فائن ریڈر کے مختلف ورژن ایک دوسرے سے بہت مختلف نہیں ہیں۔ آپ آسانی سے دوسرے میں بھی ایسا کرسکتے ہیں۔ اہم اختلافات پروگرام کی سہولت ، رفتار اور اس کی صلاحیتوں میں ہوسکتے ہیں۔ مثال کے طور پر ، پہلے والے ورژن پی ڈی ایف اور ڈی جے وی یو کھولنے سے انکار کرتے ہیں ...

3) اسکیننگ کے لئے دستاویزات

ہاں ، اسی طرح ، میں نے دستاویزات کو الگ کالم بنانے کا فیصلہ کیا۔ زیادہ تر معاملات میں ، کچھ درسی کتابیں ، اخبارات ، مضامین ، رسالے وغیرہ اسکین کیے جاتے ہیں۔ وہ کتابیں اور ادب جس کا مطالبہ ہے۔ میں کیا لے جا رہا ہوں؟ ذاتی تجربے سے ، میں یہ کہہ سکتا ہوں کہ آپ جو اسکین کرنا چاہتے ہیں وہ شاید پہلے ہی نیٹ ورک پر موجود ہے! جب میں نے کسی خاص کتاب کو پہلے ہی نیٹ ورک پر اسکین کیا ہوا پایا تو میں نے ذاتی طور پر کتنی بار وقت بچایا ہے۔ مجھے صرف متن کو دستاویز میں کاپی کرنا تھا اور اس کے ساتھ کام کرنا جاری رکھنا تھا۔

اس سے ، ایک آسان ٹپ - اس سے پہلے کہ آپ کسی چیز کو اسکین کریں ، چیک کریں کہ آیا پہلے سے ہی کوئی اسکین کرچکا ہے اور آپ کو اپنا وقت ضائع کرنے کی ضرورت نہیں ہے۔

2. ٹیکسٹ اسکین کے اختیارات

یہاں میں اسکینر کے ل for آپ کے ڈرائیوروں ، اس کے ساتھ چلنے والے پروگراموں کے بارے میں بات نہیں کروں گا ، کیونکہ سکینرز کے تمام ماڈلز مختلف ہیں ، سافٹ ویئر بھی ہر جگہ مختلف ہے ، اور اس کا اندازہ لگانا غیر حقیقی ہے کہ آپریشن کیسے انجام دیا جائے۔

لیکن تمام اسکینرز کی سیٹنگیں ایک جیسی ہوتی ہیں ، جو آپ کے کام کی رفتار اور معیار کو بہت متاثر کرسکتی ہیں۔ ہم یہاں ان کے بارے میں صرف بات کریں گے۔ میں ترتیب میں لسٹ کروں گا۔

1) اسکین کا معیار - DPI

پہلے ، اختیارات میں اسکین کے معیار کو کم از کم 300 DPI پر مقرر کریں۔ یہاں تک کہ اگر ممکن ہو تو زیادہ سے زیادہ مقرر کرنے کا بھی مشورہ دیا جاتا ہے۔ DPI کے اشارے جتنے زیادہ ہوں گے ، آپ کی تصویر واضح ہوگی ، اور اس طرح ، مزید کارروائی تیز تر ہوگی۔ اس کے علاوہ ، اسکین کا معیار جتنا اونچا ہوگا ، غلطیاں آپ کو بعد میں درست کرنی پڑیں گی۔

بہترین آپشن عام طور پر 300-400 DPI فراہم کرتا ہے۔

2) رنگین

یہ پیرامیٹر سکیننگ کے وقت کو بہت مضبوطی سے متاثر کرتا ہے (ویسے ، DPI بھی متاثر کرتا ہے ، لیکن یہ اتنے مضبوط ہیں ، اور جب صارف اعلی اقدار کا تعین کرتا ہے)۔

عام طور پر یہاں تین طریقے ہیں:

- سیاہ اور سفید (سادہ متن کے لئے بہترین)؛

- بھوری رنگ (ٹیبلز اور تصاویر کے ساتھ متن کے ل suitable موزوں)؛

- رنگ (عام طور پر رنگین رسائل ، کتابیں ، دستاویزات جہاں رنگ اہم ہے)۔

عام طور پر ، اسکین کا وقت رنگ کے انتخاب پر منحصر ہوتا ہے۔ درحقیقت ، اگر آپ کے پاس کوئی بڑی دستاویز ہے تو ، پھر بھی صفحہ پر مجموعی طور پر 5-10 سیکنڈ تک کی اضافی باتیں مہذب وقت پر پیش آئیں گی ...

3) فوٹو

آپ نہ صرف اسکین کرکے ، بلکہ اس کی تصویر کشی کرکے بھی ایک دستاویز حاصل کرسکتے ہیں۔ ایک اصول کے طور پر ، اس معاملے میں آپ کو کچھ اور پریشانیوں کا سامنا کرنا پڑے گا: تصویر کی مسخ ، دھندلاہٹ۔ اس کی وجہ سے ، موصولہ متن کی مزید طویل ترمیم اور کارروائی کی ضرورت ہوسکتی ہے۔ ذاتی طور پر ، میں اس کاروبار کے لئے کیمرے استعمال کرنے کی سفارش نہیں کرتا ہوں۔

یہ نوٹ کرنا ضروری ہے کہ ایسی ہر دستاویز کو تسلیم نہیں کیا جاسکتا ، کیونکہ اسکین کا معیار انتہائی کم ہوسکتا ہے ...

3. دستاویز کے متن کی پہچان

ہم فرض کرتے ہیں کہ آپ نے اسکرین شدہ صفحات کو حاصل کیا ہے۔ زیادہ تر اکثر وہ فارمیٹ ہوتے ہیں: tif، bmb، jpg، png. عام طور پر ، ABBYY فائن ریڈر کے لئے - یہ بہت اہم نہیں ہے ...

اے بی بی وائی فائن ریڈر میں تصویر کھولنے کے بعد ، پروگرام ، بطور اصول ، خود بخود علاقوں کا انتخاب کرتا ہے اور انہیں مشین پر پہچانتا ہے۔ لیکن کبھی کبھی وہ غلط کام کرتی ہے۔ اس کے ل we ، ہم دستی طور پر ضروری علاقوں کے انتخاب پر غور کریں گے۔

اہم! ہر ایک کو فوری طور پر یہ نہیں سمجھا جاتا ہے کہ پروگرام میں کسی دستاویز کو کھولنے کے بعد ، ماخذ کی دستاویز کو بائیں ونڈو میں ظاہر کیا جاتا ہے ، جس میں آپ مختلف علاقوں کا انتخاب کرتے ہیں۔ "پہچان" کے بٹن پر کلک کرنے کے بعد ، دائیں طرف کی ونڈو میں موجود پروگرام آپ کو تیار شدہ متن دکھائے گا۔ پہچاننے کے بعد ، ویسے بھی ، اسی FineReader میں غلطیوں کے ل text متن کی جانچ پڑتال کرنے کا مشورہ دیا جاتا ہے۔

3.1 متن

یہ علاقہ متن کو اجاگر کرنے کے لئے استعمال ہوتا ہے۔ تصویروں اور میزوں کو اس سے خارج کرنا چاہئے۔ نایاب اور غیر معمولی فونٹس کو دستی طور پر درج کرنا ہوگا ...

کسی ٹیکسٹ ایریا کو منتخب کرنے کے لئے ، فائن ریڈر کے اوپر والے پینل پر دھیان دیں۔ ایک بٹن "T" ہے (نیچے اسکرین شاٹ ملاحظہ کریں ، ماؤس پوائنٹر صرف اس بٹن پر ہے)۔ اس پر کلک کریں ، پھر نیچے کی شبیہہ میں ، صاف ستھرا آئتاکار علاقہ منتخب کریں جہاں متن موجود ہے۔ ویسے ، کچھ معاملات میں آپ کو 2-3 کے ٹیکسٹ بلاکس بنانے کی ضرورت ہے ، اور بعض اوقات 10-12 فی صفحہ ، کیونکہ متن کی شکل مختلف ہوسکتی ہے اور ایک مستطیل پورے علاقے کا انتخاب نہیں کرتا ہے۔

یہ نوٹ کرنا ضروری ہے کہ تصاویر کو ٹیکسٹ ایریا میں نہیں آنا چاہئے! مستقبل میں ، اس سے آپ کا بہت وقت بچ جائے گا ...

3.2 تصاویر

ایسی تصاویر اور علاقوں کو اجاگر کرنے کے لئے استعمال کیا جاتا ہے جن کی خرابی یا غیرمعمولی فونٹ کی وجہ سے پہچاننا مشکل ہے۔

ذیل میں اسکرین شاٹ میں ، ماؤس پوائنٹر بٹن پر واقع ہے جس میں "تصویر" کے علاقے کو منتخب کرنے کے لئے استعمال کیا جاتا ہے۔ ویسے ، اس علاقے میں آپ صفحہ کے قطعی کسی بھی حصے کو منتخب کرسکتے ہیں ، اور فائن ریڈر پھر اسے عام تصویر کے طور پر دستاویز میں داخل کرتا ہے۔ یعنی صرف "بیوقوف" کاپی ...

عام طور پر اس علاقے کو ناقص اسکین شدہ جدولوں کو اجاگر کرنے ، غیر معیاری متن اور فونٹ کو اجاگر کرنے کے لئے استعمال کیا جاتا ہے۔

3.3 میزیں

ذیل میں اسکرین شاٹ میزیں اجاگر کرنے کے لئے ایک بٹن دکھاتا ہے۔ عام طور پر ، میں ذاتی طور پر اس کا استعمال انتہائی کم ہی کرتا ہوں۔ حقیقت یہ ہے کہ آپ کو میز پر ہر لائن کو معمول کے مطابق (حقیقت میں) کھینچنا ہوگا اور یہ بتانا پڑے گا کہ پروگرام کو کیا اور کیسے۔ اگر ٹیبل چھوٹا ہے اور بہت اچھے معیار میں نہیں ہے تو ، میں ان مقاصد کے ل "" تصویر "کے علاقے کو استعمال کرنے کی تجویز کرتا ہوں۔ اس طرح ، بہت زیادہ وقت بچائیں ، اور پھر تصویر کے مطابق ٹیبل کو ورڈ میں جلدی سے بنایا جاسکتا ہے۔

3.4 غیر ضروری اشیاء

یہ نوٹ کرنا ضروری ہے۔ بعض اوقات صفحے پر ایسے غیر ضروری عنصر پائے جاتے ہیں جو متن کی پہچان میں مداخلت کرتے ہیں ، یا مطلوبہ علاقے کو اجاگر کرنے سے بھی روکتے ہیں۔ صافی کا استعمال کرکے انہیں مکمل طور پر ختم کیا جاسکتا ہے۔

ایسا کرنے کے لئے ، تصویری ترمیم کے وضع پر جائیں۔

صافی کا آلہ منتخب کریں اور غیر ضروری علاقے کا انتخاب کریں۔ اسے مٹا دیا جائے گا اور اس کی جگہ کاغذ کی سفید چادر ہوگی۔

ویسے ، میں تجویز کرتا ہوں کہ آپ اس اختیار کو ہر ممکن حد تک استعمال کریں۔ ان تمام ٹیکسٹ ایریاز کو آزمائیں جن کو آپ نے منتخب کیا ہے ، جہاں آپ کو کسی ٹیکسٹ کے ٹکڑے کی ضرورت نہیں ہے ، یا کوئی غیرضروری نقطوں ، دھندلاپن ، مسخ موجود ہے۔ ایک صافی کے ساتھ حذف کریں۔ اس کی بدولت ، پہچان تیز تر ہوگی!

4. پی ڈی ایف / DJVU فائلوں کی شناخت

عام طور پر ، یہ پہچان کی شکل باقی سے مختلف نہیں ہوگی - یعنی۔ آپ تصویروں کی طرح اس کے ساتھ بھی کام کرسکتے ہیں۔ صرف ایک ہی بات یہ ہے کہ اگر آپ کے لئے پی ڈی ایف / ڈی جے وی یو فائلیں نہیں کھلتی ہیں تو - پروگرام زیادہ پرانا نہیں ہونا چاہئے - ورژن 11 میں اپ گریڈ کریں۔

تھوڑی سی نوک۔ فائن ریڈر میں دستاویز کھولنے کے بعد - یہ خود بخود دستاویز کو پہچاننا شروع کردے گی۔ اکثر پی ڈی ایف / ڈی جے وی یو فائلوں میں ، پورے دستاویز میں پیج کے مخصوص علاقے کی ضرورت نہیں ہوتی ہے۔ تمام صفحات پر اس طرح کے علاقے کو ختم کرنے کے لئے ، درج ذیل کام کریں:

1. تصویری ترمیم کے سیکشن پر جائیں۔

2. "فصل" آپشن کو آن کریں۔

3. وہ خطہ منتخب کریں جس میں آپ تمام صفحات پر چاہتے ہیں۔

all. تمام صفحات اور فصل پر لاگو کریں پر کلک کریں۔

5. غلطیوں کو جانچنا اور کام کے نتائج کو بچانا

ایسا لگتا ہے کہ جب بھی تمام علاقوں کو اجاگر کیا گیا تھا ، پھر پہچان لیا گیا ہو گا تو پھر بھی پریشانی ہوسکتی ہے - لے لو اور اسے بچا لو ... یہ وہاں تھا!

پہلے ، آپ کو دستاویزات کی جانچ کی ضرورت ہے!

اس کو اہل بنانے کے ل recognition ، پہچاننے کے بعد ، دائیں طرف کی ونڈو میں ، "چیک" بٹن ہوگا ، نیچے اسکرین شاٹ دیکھیں۔ اس پر کلک کرنے کے بعد ، فائن ریڈر پروگرام خود بخود آپ کو وہ مقامات دکھائے گا جہاں پروگرام میں غلطیاں ہیں اور وہ کسی خاص کردار کی معتبر طور پر شناخت کرنے کے قابل نہیں تھا۔ آپ کو صرف منتخب کرنا ہوگا ، یا تو آپ پروگرام کی رائے سے متفق ہوں ، یا اپنا کردار درج کریں۔

ویسے ، نصف معاملات میں ، تقریبا ، پروگرام آپ کو ایک ریڈی میڈ درست لفظ پیش کرے گا - آپ کو ماؤس کے ساتھ ضروری آپشن کو منتخب کرنا ہوگا۔

دوم ، جانچ پڑتال کے بعد ، آپ کو وہ فارمیٹ منتخب کرنے کی ضرورت ہے جس میں آپ اپنے کام کا نتیجہ بچاتے ہیں۔

یہاں فائن ریڈر آپ کو اس کی مکمل تکمیل کرنے کی اجازت دیتا ہے: آپ صرف ورڈ ون کو ایک میں معلومات منتقل کرسکتے ہیں ، یا آپ اسے درجنوں فارمیٹس میں سے ایک میں محفوظ کرسکتے ہیں۔ لیکن میں ایک اور اہم پہلو کو اجاگر کرنا چاہتا ہوں۔ آپ جو بھی فارمیٹ منتخب کرتے ہیں ، اس کی نقل کا انتخاب کرنا زیادہ ضروری ہے! انتہائی دلچسپ آپشنز پر غور کریں ...

عین نقل

وہ تمام شعبوں جنہیں آپ نے شناختی دستاویز میں صفحہ پر روشنی ڈالی وہ بالکل اصل دستاویز سے مماثل ہوگا۔ ایک بہت ہی آسان آپشن جب آپ کے ل important ضروری ہے کہ آپ ٹیکسٹ کی فارمیٹنگ سے محروم نہ ہوں۔ ویسے ، فونٹس بھی اصلی سے بہت ملتے جلتے ہوں گے۔ اس اختیار کے ساتھ ، میں دستاویز کو ورڈ میں منتقل کرنے کی سفارش کرتا ہوں تاکہ وہاں مزید کام جاری رکھا جاسکے۔

قابل تدوین کاپی

اس آپشن میں اچھا ہے کہ آپ کو متن کا پہلے سے ہی فارمیٹڈ ورژن مل گیا ہے۔ یعنی "کلومیٹر" والا انڈینٹیشن ، جو ماخذ دستاویز میں ہوسکتا ہے - آپ سے ملاقات نہیں ہوگی۔ مفید آپشن جب آپ معلومات میں نمایاں ترمیم کریں گے۔

سچ ہے ، آپ کو منتخب نہیں کرنا چاہئے اگر آپ کے ڈیزائن ، فونٹ ، انڈنٹ کے انداز کو محفوظ رکھنا ضروری ہے۔ کبھی کبھی ، اگر پہچان بہت کامیاب نہیں ہے تو ، تبدیل شدہ فارمیٹنگ کی وجہ سے آپ کی دستاویز "اسکیو" ہوسکتی ہے۔ اس معاملے میں ، مناسب کاپی کا انتخاب کرنے کا مشورہ دیا جاتا ہے۔

سادہ متن

ان لوگوں کے لئے ایک آپشن جنہیں کسی صفحے سے ہر چیز کے بغیر صرف متن کی ضرورت ہوتی ہے۔ تصویروں اور میزوں کے بغیر دستاویزات کے لئے موزوں ہے۔

اس مضمون پر کسی دستاویز کی اسکیننگ اور شناخت سے متعلق اختتام پزیر ہوا۔ مجھے امید ہے کہ ان آسان ٹپس سے آپ اپنی پریشانیوں کو حل کر سکتے ہو ...

گڈ لک

Send