الاثنين، 25 أكتوبر 2010

أستخراج الروابط من ملف "html" في لينكس بأستخدام الأمر "grep"

تستطيع بكل بساطة أستخراج جميع الروابط من أي ملف نصي (txt,html,info) بأستخدام regular expression في الأمر grep , فقط قم بكتابة الأمر كالتالي :
 grep -o 'http://[^"]*' page1.html

سيقوم هذا بطباعة الروابط في الملف "page1.html" , و تستطيع أن تحفظ قائمة الروابط بأستخدام التعليمة "<<" لحفظ المخرجات في ملف من أختيارك كالمثال التالي :

 grep -o 'http://[^"]*' page1.html >> list.txt

هذا الأمر سيكون مفيدا عن تعامل برنامج مع محركات البحث حيث تستطيع أن تظهر نتائج البحث في مترجم الأوامر في لينكس من دون الحاجة للتعامل مع لغة "html" .


ليست هناك تعليقات:

إرسال تعليق