เนื้อหาเดียวกันในหน้าต่างๆ เนื้อหาที่ซ้ำกันคือข้อผิดพลาดในการเพิ่มประสิทธิภาพภายในที่พบบ่อยที่สุด โปรแกรมและบริการออนไลน์สำหรับค้นหาเนื้อหาที่ซ้ำกันภายในและภายนอกด้วยส่วนข้อความ

06.02.2019

เจ้าของไซต์จำนวนมากมุ่งเน้นที่การสร้างเนื้อหาที่ไม่เหมือนใครเป็นหลักเมื่อเทียบกับไซต์อื่นๆ อย่างไรก็ตาม อย่าละเลยการมีอยู่ของเนื้อหาที่ซ้ำกันในไซต์เดียวกัน สิ่งนี้มีผลกระทบอย่างมากต่อการจัดอันดับ

เนื้อหาที่ซ้ำกันคืออะไร

เนื้อหาที่ซ้ำหรือซ้ำกันคือบล็อกปริมาตรของข้อความที่ตรงกันภายในไซต์บน หน้าที่แตกต่างกัน. สิ่งนี้ไม่จำเป็นต้องทำด้วยเจตนาร้าย - บ่อยครั้งเกิดขึ้นเนื่องจาก เหตุผลทางเทคนิครายละเอียดด้านล่าง.

อันตรายอยู่ที่ความจริงที่ว่าเนื้อหาที่ซ้ำกันมักไม่สามารถมองเห็นได้ด้วยตาเปล่า แต่เครื่องมือค้นหามองเห็นได้อย่างสมบูรณ์และตอบสนองตามนั้น

เนื้อหาที่ซ้ำกันมาจากไหนและพบบ่อยที่สุดที่ใด

สาเหตุหลักของปรากฏการณ์นี้:

การเปลี่ยนโครงสร้างของไซต์
การใช้งานโดยเจตนาใน วัตถุประสงค์เฉพาะ(พูดรุ่นที่พิมพ์ได้);
การกระทำที่ผิดพลาดของโปรแกรมเมอร์และเว็บมาสเตอร์
ปัญหาเกี่ยวกับ CMS

ตัวอย่างเช่น สถานการณ์ทั่วไปคือ replytocom (ตอบกลับความคิดเห็น) ใน WordPress สร้างหน้าใหม่โดยอัตโนมัติด้วย URL ที่แตกต่างกัน แต่ไม่มีเนื้อหา

โดยปกติแล้วจะสังเกตเห็นเนื้อหาที่ซ้ำกันเมื่อสร้างประกาศบทความในหน้าอื่น ๆ ของเว็บไซต์ โพสต์บทวิจารณ์ ตลอดจนคำอธิบายผลิตภัณฑ์ หมวดหมู่ หัวเรื่องเดียวกัน

เหตุใดเนื้อหาที่ซ้ำกันจึงไม่ดี

เนื้อหาซ้ำมีคู่ในด้านเศรษฐศาสตร์ - เงินเบิกเกินบัญชีธนาคาร ใช้งบประมาณการรวบรวมข้อมูลที่เรียกว่าที่นี่เท่านั้น นี่คือจำนวนหน้าทรัพยากรที่เครื่องมือค้นหาสามารถรวบรวมข้อมูลในช่วงเวลาที่กำหนด ทรัพยากรมีค่ามากและควรใช้กับหน้าที่สำคัญและเกี่ยวข้องจริงๆ มากกว่าใช้กับข้อความที่เหมือนกันซ้ำกันหลายสิบหน้า

เนื้อหาที่ซ้ำกันจึงแย่ลง การส่งเสริมการค้นหา. นอกจากนี้ ลิงก์ธรรมชาติจะสูญหายและน้ำหนักลิงก์กระจายอย่างไม่ถูกต้องภายในไซต์ นอกจากนี้ยังแทนที่หน้าที่เกี่ยวข้องจริงๆ

วิธีค้นหาเนื้อหาที่ซ้ำกันบนเว็บไซต์ (ด้วยตนเอง โปรแกรมและบริการ)

มีอยู่ โปรแกรมพิเศษเพื่อการวิเคราะห์ทรัพยากร ในจำนวนนี้ ผู้ใช้เน้น Netpeak Spider โดยเฉพาะ เธอกำลังค้นหา สำเนาเต็มหน้า จับคู่ตามชื่อเรื่องหรือคำอธิบาย หัวเรื่อง อีกทางเลือกหนึ่งคือ Screaming Frog ซึ่งมีฟังก์ชันการทำงานที่คล้ายกันและต่างกันที่อินเทอร์เฟซเท่านั้น นอกจากนี้ยังมีแอปพลิเคชัน Link Sleuth ของ Xenu ซึ่งทำงานในลักษณะเดียวกับเครื่องมือค้นหาและสามารถรวมเว็บไซต์เพื่อหารายการที่ซ้ำกันได้ค่อนข้างดี

น่าเสียดายที่ไม่มีเครื่องมือใดที่สามารถติดตามข้อความที่ซ้ำกันได้ทั้งหมด ดังนั้นจึงมีแนวโน้มว่าคุณจะต้อง ตรวจสอบด้วยตนเอง. นี่คือรายการปัจจัยที่เป็นไปได้ที่ทำให้เกิดปัญหา:

หาวิธีค้นหาเนื้อหาที่ซ้ำกัน ก ตัวช่วยที่ดีที่สุดในการต่อสู้กับการเปลี่ยนเส้นทาง 301, แท็ก Canonical URL, คำแนะนำใน robots.txt และพารามิเตอร์ Nofollow และ Noindex ซึ่งเป็นส่วนหนึ่งของเมตาแท็ก "robots"

หนึ่งในวิธีการ อย่างเร่งรีบตรวจสอบว่าไซต์มีเนื้อหาที่ซ้ำกันหรือไม่ เป็นการค้นหาขั้นสูงใน Yandex หรือ Google คุณต้องป้อนที่อยู่ไซต์และข้อความจากหน้าที่คุณต้องการตรวจสอบ คุณยังสามารถใช้โปรแกรมมากมายเพื่อตรวจสอบความเป็นเอกลักษณ์ของข้อความ:

Text.ru;
eTXT การต่อต้านการคัดลอกผลงาน;
Advego Plagiatus;
ดูเนื้อหา

วิธีจัดการและล้างเนื้อหาที่ซ้ำกัน

เหมือนกันทั้งหมด ระบบอ้างอิง Google ให้คำแนะนำหลายประการเพื่อป้องกันไม่ให้ปัญหานี้เกิดขึ้น

301 เมื่อทำการเปลี่ยนแปลงโครงสร้างทรัพยากร คุณต้องระบุการเปลี่ยนเส้นทาง 301 ในไฟล์ htaccess
ใช้มาตรฐานการเชื่อมโยงเดียว
เนื้อหาสำหรับภูมิภาคใดภูมิภาคหนึ่งจะดีที่สุดในโดเมน ระดับสูงมากกว่าในโดเมนย่อยหรือไดเร็กทอรีย่อย
กำหนดวิธีการจัดทำดัชนีที่ต้องการโดยใช้ Search Console
อย่าใช้เทมเพลต แทนที่จะวางข้อความลิขสิทธิ์ไว้ในแต่ละหน้า จะเป็นการดีกว่าหากสร้างลิงก์ที่จะนำไปยังหน้าอื่นด้วยข้อความนี้
เมื่อพัฒนาหน้าใหม่ ตรวจสอบให้แน่ใจว่าหน้าเหล่านั้นถูกปิดจากการจัดทำดัชนีจนกว่าจะพร้อม
ทำความเข้าใจว่าเนื้อหาของคุณแสดงอย่างไร - การแสดงผลในบล็อกและฟอรัมอาจมีความแตกต่างกัน
หากมีบทความที่คล้ายกันหลายบทความในไซต์ จะเป็นการดีกว่าที่จะรวมเนื้อหาทั้งหมดเป็นบทความเดียวหรือไม่ซ้ำกันในแต่ละบทความ

เสิร์ชเอ็นจิ้นไม่ได้ให้การลงโทษใดๆ กับไซต์ที่มีเนื้อหาซ้ำกันด้วยเหตุผลทางเทคนิค (ตรงข้ามกับผู้ที่จงใจทำเพื่อบิดเบือนผลการค้นหาหรือทำให้ผู้เข้าชมเข้าใจผิด)

หลังจากนำรายการที่ซ้ำกันออกแล้ว จะยังคงต้องลบออกจากผลการค้นหา ยานเดกซ์ทำสิ่งนี้ด้วยตัวเอง โดยมีเงื่อนไขว่าไฟล์ robots.txt ได้รับการตั้งค่าอย่างถูกต้อง สำหรับ Google: คุณต้องเขียนกฎด้วยตนเองใน Webmaster บนแท็บ "พารามิเตอร์ URL"

บทสรุป

ต่อสู้กับเนื้อหาที่ซ้ำกันบนเว็บไซต์ - ด้านที่สำคัญกิจกรรมของเจ้าของไซต์ใด ๆ มีเหตุผลสองสามประการในการเกิดขึ้น และวิธีกำจัดมันก็มีมากมายพอๆ กัน

อย่างไรก็ตาม กฎหลักยังคงอยู่: โพสต์เนื้อหาต้นฉบับเท่านั้น โดยไม่คำนึงถึงประเภทของไซต์ แม้ว่าจะเป็นร้านค้าออนไลน์ขนาดใหญ่ที่มีหลายพันหน้าก็ตาม

รับประกาศของโพสต์ที่คล้ายกันในอีเมลของคุณ

สมัครสมาชิกและรับไม่เกินสัปดาห์ละครั้งสิ่งที่น่าสนใจจากโลกของการตลาดทางอินเทอร์เน็ต, SEO, การโปรโมตเว็บไซต์, ร้านค้าออนไลน์, การสร้างรายได้บนเว็บไซต์

1. บทนำสู่ปัญหา

ปัจจุบันปัญหาข้อมูลซ้ำซ้อนบนอินเทอร์เน็ตทวีความรุนแรงมากขึ้นเรื่อยๆ บ่อยครั้งที่การทำซ้ำดังกล่าวกระทำโดยเจตนาโดยละเมิดลิขสิทธิ์ ผู้โจมตีใช้เนื้อหาที่มีลิขสิทธิ์เพื่อเติมเต็มไซต์ของตนเองเพื่อผลประโยชน์ของตนเอง

การทำซ้ำของข้อมูลดังกล่าวทำให้การออกเสิร์ชเอ็นจิ้นแย่ลงซึ่งเป็นผลมาจากการที่สิ่งหลังกำลังต่อสู้กับปรากฏการณ์นี้อย่างแข็งขัน หากผู้ใช้ได้รับ 10 ตามคำขอ เอกสารเหมือนกัน(“ความเหมือนกัน” ถูกกำหนดโดยผู้ใช้โดย ) สิ่งนี้แทบจะไม่เพิ่มความนิยมให้กับเครื่องมือค้นหา ไม่กี่ปีที่ผ่านมาสถานการณ์นี้ถูกพบใน Rambler อันเป็นผลมาจากการที่เครื่องมือค้นหาสูญเสียคะแนนส่วนหนึ่งไป อย่างไรก็ตาม ตอนนี้ Rambler จะกรองและซ่อนรายการที่ซ้ำกัน

ควรสังเกตว่าการทำซ้ำของเนื้อหาอุดตันดัชนีเครื่องมือค้นหาทำให้ยากขึ้นที่จะให้คำตอบอย่างรวดเร็วแก่ผู้ใช้ ในขณะเดียวกัน เอกสารทั้งหมดจำเป็นต้องได้รับการจัดทำดัชนีอย่างสม่ำเสมอ และการปรากฏของเอกสารใหม่ที่มีเนื้อหาที่ไม่ใช่ต้นฉบับจะส่งผลเสียต่อความเร็วในการจัดทำดัชนีอย่างชัดเจน

2. ทฤษฎีสำหรับคำจำกัดความของ "ซ้ำซ้อนเลือน"

ก. "ฟัซซี่ดับเบิล" คืออะไร

ก่อนอื่นคุณต้องตัดสินใจเกี่ยวกับคำศัพท์ ยังไม่มีมติเป็นเอกฉันท์ในเรื่องนี้ ดังนั้นคำศัพท์นี้จึงถูกปัดทิ้งจากสามัญสำนึก

ทำซ้ำ (ซ้ำ) ของเอกสารเว็บ – สำเนาถูกต้องเอกสารเว็บ "สำเนาเลือน" ของเอกสารบนเว็บ– เอกสารเว็บที่ได้รับการแก้ไขบางส่วนในแง่ของเนื้อหาและ/หรือการจัดรูปแบบ (ใช้ other แท็ก htmlสำหรับการจัดหน้า)

เราจะตีความ "เอกสารเว็บที่ซ้ำกัน" จากมุมมองของเครื่องมือค้นหาเท่านั้น ไม่ใช่ผู้ใช้ ดังนั้นเราจะไม่พิจารณาปรากฏการณ์เช่น "การเขียนคำโฆษณา" เช่น เขียนข้อความใหม่โดยเฉพาะสำหรับเครื่องมือค้นหาโดยใช้คำอื่น แต่คงไว้ การใช้ความคิดเบื้องต้น. ข้อความดังกล่าวสำหรับเครื่องมือค้นหาจะเป็นต้นฉบับเสมอเพราะ คอมพิวเตอร์ยังไม่สามารถแยกแยะความหมายของข้อความได้

มีวิธีการพื้นฐานหลายวิธีในการพิจารณารายการที่ซ้ำกัน

ข. วิธีการของ "คำอธิบาย"

วิธีนี้ทำงานตามหลักการดังต่อไปนี้

ขั้นแรกให้สร้างตัวอย่างขนาดเล็ก (ประมาณ 2,000-3,000 คำ) ตัวอย่างต้องเป็นไปตาม เงื่อนไขดังต่อไปนี้:

ด้วยความช่วยเหลือคุณสามารถอธิบายเอกสารเกือบทั้งหมดในเครือข่ายได้อย่างสมบูรณ์
- รายละเอียดของเอกสารไม่ควรซ้ำซ้อน

ดังนั้น ในการสร้างตัวอย่าง จึงจำเป็นต้องละทิ้งคำที่พบบ่อยที่สุดและน้อยที่สุด เช่น ไม่คำนึงถึงคำหยุดและคำศัพท์ใจความแคบต่างๆ นอกจากนี้ คำคุณศัพท์ไม่ตกอยู่ในกลุ่มตัวอย่าง เนื่องจากไม่มีภาระทางความหมายในภาษารัสเซีย

จากนั้นเอกสารแต่ละฉบับจะถูกเปรียบเทียบกับตัวอย่างและคำนวณเวกเตอร์ซึ่งมีขนาดเท่ากับจำนวนคำในตัวอย่าง ส่วนประกอบเวกเตอร์สามารถรับได้สองค่า - 0 หรือ 1 0 - หากคำจากตัวอย่างไม่อยู่ในเอกสาร 1 - หากพบคำในเอกสาร จากนั้น เอกสารจะถูกตรวจสอบสำหรับการทำซ้ำโดยการจับคู่เวกเตอร์

เมื่อใช้อัลกอริทึมนี้ Yandex จะพิจารณารายการที่ซ้ำกันแบบคลุมเครือ

ค. วิธีงูสวัด

วิธีการมุงหลังคามีดังนี้ สำหรับสตริงย่อยทั้งหมดของข้อความที่วิเคราะห์ จะมีการคำนวณ "ผลรวมตรวจสอบ" เช็คซัม (หรือ "ลายเซ็น") เป็นตัวเลขเฉพาะที่กำหนดให้กับข้อความและ/หรือฟังก์ชันในการคำนวณ ฟังก์ชันการคำนวณ เช็คซัมสามารถบรรลุเป้าหมายหลายประการ: ตัวอย่างเช่น "ความสามารถในการถอดรหัส" (ลดโอกาสที่คุณจะรับค่าตรวจสอบได้ ข้อความต้นฉบับ) หรือ "ไม่สามารถทำซ้ำได้" (ลดความน่าจะเป็นที่สองครั้ง ข้อความที่แตกต่างกันอาจมีหนึ่งการตรวจสอบ) - วารสารอิเล็กทรอนิกส์"สแปมทดสอบ" ไม่ใช่ 27.

ใช้กันทั่วไป อัลกอริทึมต่อไปนี้การคำนวณเช็คซัม: fnv, md5, crc หลังจากคำนวณเช็คซัมแล้ว จะมีการสร้างตัวอย่างแบบสุ่มจากชุดผลลัพธ์ จากตัวอย่างนี้ สามารถเปรียบเทียบเอกสารกับเอกสารอื่นๆ ที่มีการคำนวณตัวอย่างไว้ล่วงหน้าได้เช่นกัน

วิธีการคำนวณนี้ค่อนข้างใช้ทรัพยากรมากและสามารถข้ามได้โดยการเปลี่ยนข้อความเล็กน้อย เนื่องจากประการแรก โรคงูสวัดจะขึ้นอยู่กับระยะห่างระหว่างคำ

ตอนนี้วิธีการมุงหลังคาได้พัฒนาเป็นอัลกอริทึม "supershingles" ซึ่งมีค่าใช้จ่าย ชุดจำกัดเช็คซัม การทดลองที่ ROMIP นำไปสู่ผลลัพธ์ต่อไปนี้ - งูสวัด 84 ตัว, งูสวัด 6 ตัวเหนืองูสวัด 14 ตัว ข้อความจะถือว่าตรงกันหากมี supershingle อย่างน้อย 2 ใน 6 รายการที่ตรงกัน

เจ้าหน้าที่ได้กล่าวซ้ำ ๆ ว่ายานเดกซ์ไม่ใช่ผู้ตรวจสอบและจะไม่ต่อสู้ ปัญหาการขโมยเนื้อหาออนไลน์.

นี่คือคำตอบอย่างเป็นทางการของ A. Sadovsky:

... การค้นหายานเดกซ์พยายามระบุเอกสารต้นฉบับเมื่อตรวจพบเอกสารที่ซ้ำกัน อัลกอริทึมที่มีอยู่แน่นอนว่าไม่สมบูรณ์และเรากำลังดำเนินการปรับปรุง ในแง่ของข้อบังคับทางกฎหมาย เครื่องมือค้นหายังไม่สามารถระบุผู้เขียนข้อความได้ ในกรณีที่เนื้อหาที่ปลอมแปลงถูกลบออกจากเครือข่าย (เช่น อันเป็นผลมาจากการกระทำของเจ้าของลิขสิทธิ์) ยานเดกซ์จะลบเนื้อหานั้นออกจากฐานข้อมูลด้วยเมื่อโรบ็อตข้ามผ่าน กระบวนการนี้สามารถเร่งความเร็วได้โดยใช้แบบฟอร์ม http://webmaster.yandex.ru/delurl.xml

ลองพิจารณาดูว่า "เอกสารซ้ำ" สำหรับยานเดกซ์คืออะไร ผู้เขียนเสนอการตีความดังต่อไปนี้ (หากข้อความด้านล่างดูคุ้นๆ สำหรับคุณ ก็อย่าเพิ่งคิดไปเอง ไม่นานมานี้ ผู้เขียนได้พยายามพูดคุยอย่างแข็งขัน ปัญหานี้บนฟอรัม

การทำซ้ำมีสองประเภท: "การทำซ้ำแบบคลุมเครือ" และ "การทำซ้ำแบบเต็ม"

"Fuzzy Duplicates" ขึ้นอยู่กับตัวอย่าง เช่น กำหนดโดยคำขอจริงของผู้ใช้ มันเกิดขึ้นด้วยวิธีต่อไปนี้

1. ผู้ใช้ตั้งคำขอ
2. Yandex คำนวณความเกี่ยวข้องของไซต์กับข้อความค้นหาและจัดอันดับไซต์ แต่ยังไม่แสดงให้ผู้ใช้เห็น
3. ถัดไป ยานเดกซ์จะเปรียบเทียบตัวอย่างข้อมูลของเอกสารที่เลือกเพื่อระบุรายการที่ซ้ำกัน (อาจเปรียบเทียบตัวอย่างข้อมูลโดยใช้วิธีงูสวัด)
4. สุดท้าย สร้างเอาต์พุตที่กรองแล้ว ลบสำเนาบางส่วนออก (ไม่ชัดเจนว่าเอกสารบางรายการเหลืออยู่บนพื้นฐานใด บางทีอาจเลือกเอกสารที่เกี่ยวข้องมากที่สุด และเอกสารที่คล้ายกันน้อยที่สุดจะเข้าสู่เอาต์พุตด้วย บางทีอาจเท่านั้น การอ้างอิงมีบทบาท) สภาพแวดล้อมของไซต์)

การมีอยู่ของตัวกรองประเภทนี้ได้รับการพิสูจน์ทางอ้อมโดยคำพูดของ Sadovsky (โพสต์ # 9) และข้อเท็จจริงที่ว่าการออก การตั้งค่าต่างๆการค้นหา (โดยเฉพาะอย่างยิ่ง จำนวนของส่วนย่อยที่แสดงด้วยคำค้นหา) จะแตกต่างกัน

ด้วยการตั้งค่า "แสดงไม่เกิน 5 ส่วน" มีไซต์ในผลการค้นหามากกว่าการตั้งค่า "แสดงไม่เกิน 1 ส่วน" ลองใช้ข้อความค้นหา "ใน & บทที่สอง & ของบทคัดย่อ & อุทิศให้กับ & การปฏิบัติ & การตลาด & กิจกรรม & องค์กร & บน & ตัวอย่าง & เซิร์ฟเวอร์ & dux" (ระบุข้อความค้นหาโดยไม่มีเครื่องหมายอัญประกาศ!) - ในกรณีแรก (แสดง 1 ส่วนย่อยในตัวอย่าง) ในไซต์เอาต์พุต 21 ในไซต์ที่สอง (5 ส่วน) - 27 ไซต์

ทุกอย่างที่นี่มีเหตุผล - เมื่อแสดงหนึ่งข้อความในตัวอย่าง ตัวอย่างจะคล้ายกันมากกว่าเมื่อแสดง 5 ข้อความในตัวอย่าง ตัวอย่างเช่น ในกรณีที่สอง ข้อมูลโค้ดของไซต์ที่สองแตกต่างจากข้อมูลโค้ดของไซต์แรกและไซต์ที่สาม

ตอนนี้มาจัดการกับ "รายการที่ซ้ำกันทั้งหมด" ผู้เขียนเชื่อว่ารายการที่ซ้ำกันนั้นถูกกำหนด ณ เวลาที่จัดทำดัชนีหน้า สะดวกเนื่องจากช่วยให้คุณสามารถตัดขยะได้ทันทีและไม่เพิ่มข้อมูลที่ซ้ำกันในฐานข้อมูลของเครื่องมือค้นหา

วิธีการตรวจหาคำซ้ำคือ "วิธีการอธิบาย" (ซึ่งได้กล่าวถึงข้างต้น)

หน้าที่ระบุว่าซ้ำกันทั้งหมดจะถูกละทิ้งจากฐานข้อมูล สิ่งนี้มักจะเกิดขึ้นกับหน้าของไซต์หนึ่ง (เช่น แค็ตตาล็อกผลิตภัณฑ์ เมื่อ ข้อมูลที่มีความหมายน้อยกว่าคำในส่วนนำทางมาก) หลักการใดที่ยานเดกซ์โยนสิ่งที่ซ้ำกันเหล่านี้ไม่เป็นที่รู้จัก เป็นไปได้มากว่าเกิดจากการรวมกันของสัญญาณต่างๆ เช่น ปัจจัยชั่วคราว "การให้คะแนนทรัพยากร" ความไว้วางใจในทรัพยากร และอื่น ๆ

ยานเดกซ์ระบุแหล่งที่มาดั้งเดิมอย่างไรในกรณีที่ตรวจพบ "รายการซ้ำแบบคลุมเครือ" และระบุแหล่งที่มาได้อย่างไร ลองคิดดูสิ ...

อันดับแรก เราเน้นปัจจัยที่อาจบ่งบอกถึงแหล่งที่มาดั้งเดิมของเนื้อหา ...

วันที่สร้างเอกสาร
- ความเกี่ยวข้องของเอกสารกับแบบสอบถาม
- "ไว้วางใจในทรัพยากร" (ตัวอย่างเช่น คุณสามารถไว้วางใจทรัพยากรส่วนใหญ่ที่มีตำแหน่งที่ดีใน Yandex Catalog และปริมาณการใช้งานสูง)
- การเชื่อมโยงระหว่างสำเนา (เช่น หากสำเนาทั้งหมดอ้างถึงเอกสารเดียวกัน แสดงว่าเป็นต้นฉบับ)

มาลองทดลองกันสักหน่อย มาดูหน้า href=http://zoom.cnews.ru/ru/publication/index.php?art_id80=1523 และวลี "การออกแบบของ Lumix FZ50 นั้นคล้ายคลึงกับ FZ30 รุ่นก่อนที่มีความละเอียด 8 ล้านพิกเซล" เห็นได้ชัดว่านี่คือต้นฉบับ ทีนี้มาดูกันว่าใครใช้ข้อความของบทความบ้าง: เรามาตั้งค่าการสืบค้นโดยใช้พารามิเตอร์ rd=0 หากไม่มี rd ในปัญหา จะมีเพียงไซต์หมายเลข 1 และหมายเลข 5 เท่านั้น

ลักษณะของเว็บไซต์มีดังนี้ (โปรดทราบว่าลิงก์ไปยังหน้าแรกเท่านั้น ส่วนที่เหลือไม่มีลิงก์ย้อนกลับ):

หมู่บ้าน	ทีซีไอ	หมวดหมู่แคตตาล็อก	ประชาสัมพันธ์	เพจประชาสัมพันธ์
zoom.cnews.ru/ru/publication/index.php?art_id80=1523	3800	ใช่	6	4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50	170	ใช่	5	0
www.apitcomp.ru/analytic/genre3/page637	700	ใช่	4	0
www.toplist.ru/card/35859	110	เลขที่	3	0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316	0	เลขที่	1	0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323	0	เลขที่	0	0
www.media.nrd.ru/index.php?showtopic=3323&st=100	40	เลขที่	0	0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523	0	เลขที่	0	0

โปรดทราบว่าข้อมูลโค้ดสำหรับทุกไซต์จะเหมือนกัน

เมื่อมองแวบแรก มันไม่ชัดเจนเลยว่าทำไมยานเดกซ์จึงกรองไซต์ทั้งหมดออก ยกเว้นไซต์ที่ห้า ไซต์นี้ไม่น่าเชื่อถือในสายตาของยานเดกซ์ การออกจากหน้าจากไซต์ www.apitcomp.ru ในผลการค้นหาจะมีเหตุผลมากกว่า - ไซต์นี้มีสิทธิ์มากกว่าหรือออกจากหน้าฟอรัม (ตำแหน่ง 6 และ 7)

ในทำนองเดียวกัน เราจะตรวจสอบหน้า http://www.3dnews.ru/digital/lumix_fz50/ และวลี "ในยุคของเรา เมื่อผู้ซื้อที่กระหายน้ำ ประสิทธิภาพที่ดี". ตัวหนาคือไซต์ที่แสดงโดยไม่มี rd=0 สีแดงคือแหล่งที่มาดั้งเดิมซึ่งยังไงก็ตามถูกกรอง!

หน้าหนังสือ	ทีซีไอ	ยาคา	ลส	หจก	ประชาสัมพันธ์	เพจPR
ดาวเสาร์-plus.ru/	70	ใช่	54	20349	3	3
saturn.24online.ru/	0	เลขที่	1	1	0	0
www.3dnews.ru/digital/lumix_fz50/print	11000	ใช่	0	0	6	2
www.fotomag.com.ua/handbook14.html	400	ใช่	0	0	4	0
deshevshe.net.ua/ua/review-73/4.html	80	เลขที่	0	0	4	0
ephotolink.ru/?mod=articles&act=show&sort=date&page=9	1400	ใช่	0	0	4	1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html	0	เลขที่	0	0	0	0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&...	4300	ใช่	0	0	6	0
www.velc.ru/podderjka/stati/lumix_fz50/	120	ใช่	0	0	3	0
ephotolink.tkat.ru/?mod=articles&id_article=21007	10	เลขที่	0	0	3	0
www.ru-coding.com/rss.php?p=501	130	ใช่	0	0	3	0
www.toprunet.com/article.php?id=6388	200	เลขที่	0	0	3	0
www.dphotographer.com.ua/camera/from/2/	90	เลขที่	0	0	4	0
www.asmedia.ru/news/id8242.html	400	เลขที่	0	0	3	0
www.mega-bit.ru/obzor/read/?id=70	40	เลขที่	0	0	3	0
www.audiovideophoto.ru/panasonic1.html	0	เลขที่	0	0	0	0
www.foto-piter.ru/news/2006/12/01/127/	10	เลขที่	0	0	2	0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html	20	เลขที่	0	0	1	0
www.novoe.nnov.ru/articles/?parent_id=33	0	เลขที่	0	0	0	0
iwy.com.ua/top.php?p=326	0	เลขที่	0	0	0	0
www.5-uglov.ru/articles_view.php?id_news=1222	90	ใช่	0	0	3	0
www.techhome.ru/catalog/photo/article_17112.html	950	ใช่	0	0	5	3
www.panasonic-spb.ru/articles_view.php?id_news=1222	0	เลขที่	0	0	1	0
new-articles.ru/page_215.html	40	เลขที่	0	0	3	0
www.ekvator-hifi.ru/articles_view.php?id_news=1222	10	เลขที่	0	0	1	0
shop.key.ru/shop/goods/36608/	230	เลขที่	3	18	4	0
www.pc-shop.kz/index.php?g_id=1711		เลขที่	0	0	3	0
Portalink.ru/portal/camera/infoat_15269.htm	110	เลขที่	0	0	3	3
www.rusdoc.ru/articles/13085/	1100	ใช่	3	13	5	1
www.docs.com.ru/articles.php?p=509	220	เลขที่	0	0	4	0
e-libed.ru/a31/	0	เลขที่	1	17	0	0
dvdlink.ru/portal/Ecamera/infoat_15269.htm	140	เลขที่	0	0	3	0
www.articlesearch.ru/a3b856d85.html	0	เลขที่	0	0	0	0
www.bestarticles.ru/a31/	0	เลขที่	1	5	2	0
www.temu.ru/a31/	0	เลขที่	0	0	2	0

LP - หน้าอ้างอิง, LS - เว็บไซต์อ้างอิง, หน้า PR - หน้า PR, PR - PR ของหน้าหลักของเว็บไซต์

รูปภาพที่คล้ายกัน - เกณฑ์สำหรับการกรองไม่ชัดเจนอย่างสมบูรณ์ อย่างไรก็ตาม หากเราดูตัวอย่างข้อมูล เราจะเห็นว่าหน้าต่างๆ ของเว็บไซต์ uaport.net, www.megastoke.ru, portalink.ru มีตัวอย่างข้อมูลที่ค่อนข้างแตกต่างจากตัวอย่างข้อมูลของไซต์อื่น ดังนั้นไซต์แรกและไซต์ที่สามจึงเป็น ไม่ถูกกรอง

จะพูดอะไรในตอนท้าย? ก่อนอื่น แน่นอน คุณยังต้องทดลองและวิเคราะห์อีกมาก แต่เป็นที่แน่ชัดแล้วว่าการตัดสินใจกรอง "รายการที่ซ้ำกันแบบคลุมเครือ" นั้นขึ้นอยู่กับการวิเคราะห์ปัจจัยหลายอย่าง ซึ่งปัจจัยหลักคือความคิดริเริ่มของตัวอย่างข้อมูล .

4. Google และเนื้อหาที่ซ้ำกัน

Google พยายามที่จะออกไซต์ตามคำขอของผู้ใช้ด้วยเนื้อหาที่สดใหม่และไม่ซ้ำใครเท่านั้น

Google คิดว่าผู้ใช้ไม่ต้องการเห็นรายการที่ซ้ำกันในผลการค้นหา ดังนั้นเอกสารเหล่านี้จึงถูกซ่อนอยู่ในผลลัพธ์คำแนะนำ หากผู้ใช้ยังคงต้องการดูข้อมูลที่ซ้ำกัน (เช่น ผู้ดูแลเว็บรายนี้ต้องการทราบว่าใครขโมยเนื้อหาจากไซต์ของตน) ผู้ใช้ควรเพิ่มพารามิเตอร์ "&filter=0" ต่อท้าย URL

Google เชื่อว่าการระบุผู้เขียนเนื้อหาจะช่วยปรับปรุงการค้นหา อย่างไรก็ตาม เขาตั้งข้อสังเกตว่าวิธีการดังกล่าวในการกำหนดแหล่งที่มาเป็นการกำหนดวันที่สร้างเอกสารหรือลงทะเบียนเนื้อหาโดยผู้เขียนใน บริการพิเศษไม่ได้ผล จนถึงตอนนี้ Google มุ่งเน้นที่อำนาจของทรัพยากรและจำนวนลิงก์ขาเข้าเป็นส่วนใหญ่ ดังนั้น สถานการณ์จึงค่อนข้างเป็นไปได้เมื่อแหล่งข้อมูลที่รู้จักกันดีบางแห่งยืมบทความ เช่น จากแหล่งข้อมูลเฉพาะ จากนั้นคนส่วนใหญ่ก็เรียนรู้เกี่ยวกับบทความจากแหล่งข้อมูลที่มีชื่อเสียงและใส่ลิงก์ไปยังบทความนั้น ในที่สุด Google จะระบุไซต์ที่รู้จักเป็นแหล่งต้นฉบับ ...

ในกรณีที่มีเนื้อหาซ้ำกันในไซต์เดียวกัน (เช่น หน้าเดิมและหน้าพิมพ์) Google แนะนำให้ผู้ดูแลเว็บใช้ robots.txt อย่างจริงจัง ขอแนะนำให้หยุดใช้ตัวระบุเซสชัน เนื่องจากอาจทำให้เนื้อหาซ้ำกันได้ เหล่านั้น. เครื่องมือค้นหาสามารถจัดทำดัชนีหน้าเดียวกัน แต่ใช้ URL อื่น โดยมีค่าพารามิเตอร์ sessid ต่างกัน

5. คุณสามารถทดลองอะไรได้บ้างและจะทำอย่างไรให้ดีที่สุด

ดังนั้นเราจึงพบประเด็นหลักเกี่ยวกับปัญหาการทำซ้ำเนื้อหา หลักการของตัวกรอง (โดยเฉพาะยานเดกซ์) นั้นค่อนข้างง่าย แต่เป็นการยากที่จะระบุว่าจะพิจารณาปัจจัยต่างๆ อย่างไร

โดยรวมแล้ว สิ่งที่ต้องตรวจสอบในการทดลอง:

รายการที่ซ้ำกันจะถูกกรอง ณ เวลาที่ออกอย่างไร ด้วยหลักการอะไร?
- วิธี "คำอธิบาย" - ตัวอย่างของคำเกิดขึ้นได้อย่างไรและเวกเตอร์เปรียบเทียบอย่างไร
- โดยหลักการใดที่ "สำเนาทั้งหมด" ถูกโยนออกไป?

คุณสามารถแนะนำสิ่งต่อไปนี้:

เราสร้างไซต์เดียวที่มีเนื้อหาต้นฉบับ เราส่งสแปมเล็กน้อยเพื่อให้ได้รับการจัดทำดัชนี ต่อไปเราจะสร้างโคลนจำนวนหนึ่ง (ซ้ำกัน) การโคลนสามารถทำได้หลายวิธี: ผสมคำของต้นฉบับ, เขียนใหม่, แยกย่อหน้า สามารถวางโคลนได้ทั้งบนไซต์ที่แยกจากกัน (บนปกติและ โฮสติ้งปกติ) และบน หน้าภายในเว็บไซต์ คุณสามารถโคลนสแปมได้บางส่วน จากนั้นเราจะประเมินผลลัพธ์โดยคาดเดาและสรุปผล
- คุณสามารถกำหนดหลักการในการกรอง "รายการที่ซ้ำกันแบบคลุมเครือ" โดยใช้วิธีการที่อธิบายไว้ข้างต้น เช่น ง่ายๆ โดยการวิเคราะห์ไซต์ที่ผ่านการกรอง

6. การอ่านเพิ่มเติม

» ฉันได้สัมผัสกับหัวข้อของหน้าที่ซ้ำกันและวันนี้เราจะพูดถึงรายละเอียดเพิ่มเติม

เกิดอะไรขึ้น หน้าซ้ำ? หน้าเหล่านี้คือหน้าที่คล้ายกันหรือ ข้อความเดียวกันใช้ได้หลากหลาย ที่อยู่ URLม. ตัวอย่างเช่น ซ้ำกันมากของหน้าหลักของทรัพยากร

ด้านล่างนี้เราจะพิจารณาตัวเลือกทั่วไปบางประการสำหรับการทำสำเนาเนื้อหา แต่ตอนนี้เรามาพูดถึงวิธีการกัน หน้าคล้ายกันสำหรับการโปรโมทเว็บไซต์

เสิร์ชเอ็นจิ้นได้เรียนรู้มานานแล้วในการพิจารณาความเป็นเอกลักษณ์ของข้อความโดยลำดับของอักขระ นั่นคือ ประโยคที่แต่งขึ้นเหมือนกัน ซึ่งลำดับของตัวอักษรและช่องว่างมาจาก หากเนื้อหาไม่ซ้ำใคร (ถูกขโมย) หุ่นยนต์ก็จะสามารถเข้าใจได้ง่าย และเมื่อไม่ใช่ ข้อความที่ไม่ซ้ำใครเกิดขึ้นบ่อยครั้งโอกาสของทรัพยากรดังกล่าวตกอยู่ภายใต้ ตัวกรองเอจีเอสค่อนข้างสูง

ลองนึกภาพงาน หุ่นยนต์ค้นหา. เมื่อเขาเข้าสู่ไซต์ ก่อนอื่นเขาจะดูที่ไฟล์ โรบ็อต.txtและได้รับคำแนะนำจากมัน: สิ่งที่ต้องทำดัชนีและสิ่งที่ปิดสำหรับการจัดทำดัชนี การดำเนินการต่อไปคือการเข้าถึงไฟล์ sitemap.xml ซึ่งจะแสดงให้หุ่นยนต์เห็นแผนผังเว็บไซต์พร้อมเส้นทางที่อนุญาตทั้งหมด อ่านบทความ - "ไฟล์ Sitemap.xml สำหรับเครื่องมือค้นหา Google และ Yandex" ได้รับทั้งหมดแล้ว ข้อมูลที่จำเป็นหุ่นยนต์จะถูกส่งไปทำหน้าที่ตามปกติ

กำลังจะ หน้าเฉพาะเขา "ดูดซับ" เนื้อหาของมันและเปรียบเทียบกับข้อมูลที่มีอยู่แล้วในสมองอิเล็กทรอนิกส์ของเขา ซึ่งรวบรวมมาจากอินเทอร์เน็ตอันกว้างใหญ่ไพศาล เมื่อจับข้อความที่ไม่ซ้ำกัน เครื่องมือค้นหาจะไม่จัดทำดัชนี หน้านี้และจดบันทึกในของคุณ สมุดบันทึกซึ่งเขาป้อนที่อยู่ URL ที่ "มีความผิด" อย่างที่คุณเดาได้ เขาจะไม่กลับมาที่หน้านี้อีกต่อไป เพื่อไม่ให้เสียเวลาอันมีค่าของเขา

สมมติว่าหน้ามีความเป็นเอกลักษณ์สูงและโรบ็อตได้จัดทำดัชนีไว้ แต่หลังจากติดตาม URL ถัดไปของทรัพยากรเดียวกัน โรบ็อตจะไปยังหน้าที่มีข้อความคล้ายกันทั้งหมดหรือบางส่วน เครื่องมือค้นหาจะดำเนินการอย่างไรในสถานการณ์เช่นนี้ แน่นอนมันจะไม่จัดทำดัชนีเช่นกัน การทดสอบที่คล้ายกันแม้ว่าต้นฉบับจะอยู่บนไซต์เดียวกันแต่ใช้ URL อื่น หุ่นยนต์จะยังคงไม่พอใจกับเวลาที่เสียไปอย่างแน่นอน และจะจดบันทึกลงในสมุดบันทึกของเขาอย่างแน่นอน อีกครั้ง หากเหตุการณ์ดังกล่าวเกิดขึ้นซ้ำๆ ทรัพยากรอาจไม่ได้รับความนิยม เครื่องมือค้นหา.

สรุป #1. หน้าที่คล้ายกันซึ่งอยู่ที่ URL ต่างๆ จะใช้เวลาที่หุ่นยนต์จัดทำดัชนีเว็บไซต์ มันจะไม่จัดทำดัชนีหน้าที่ซ้ำกัน แต่จะใช้เวลาส่วนหนึ่งในการทำความรู้จักกับพวกเขา และอาจไม่มีเวลาเข้าถึงเนื้อหาที่ไม่ซ้ำใครอย่างแท้จริง

สรุปหมายเลข 2เนื้อหาที่ซ้ำกันจะส่งผลเสียต่อการส่งเสริมเว็บไซต์ในเครื่องมือค้นหา เครื่องมือค้นหาไม่ชอบข้อความที่ไม่ซ้ำกัน!

สรุปหมายเลข 3จำเป็นต้องตรวจสอบโปรเจ็กต์ของคุณเพื่อหาเพจที่ซ้ำกันเพื่อหลีกเลี่ยงปัญหาตามรายการด้านบน

หลายคนไม่สนใจเกี่ยวกับ "ความบริสุทธิ์" ของเนื้อหาเลย ด้วยความอยากรู้อยากเห็น ฉันตรวจสอบเว็บไซต์หลายแห่งและค่อนข้างประหลาดใจกับสถานะของหน้าที่ซ้ำกัน ในบล็อกของผู้หญิงคนหนึ่ง ฉันไม่พบไฟล์ robots.txt เลย

มีความจำเป็นต้องจัดการกับเนื้อหาที่ซ้ำกันอย่างจริงจังและจำเป็นต้องเริ่มต้นด้วยการระบุตัวตน

ตัวอย่างเนื้อหาที่ซ้ำกันทั่วไปและวิธีแก้ไขปัญหา

หน้าแรกซ้ำ ตัวอย่าง:

http://site.com
http://site.com/index.php.

ในกรณีนี้ ปัญหานี้ได้รับการแก้ไขโดยใช้การเปลี่ยนเส้นทาง 301 ซึ่งเป็น "คำสั่ง" สำหรับเซิร์ฟเวอร์ผ่านไฟล์ .htaccess

อีกตัวอย่างหนึ่งของโฮมเพจที่ซ้ำกัน:

http://site.com
http://www.site.com

เพื่อหลีกเลี่ยงการทำซ้ำดังกล่าว คุณสามารถลงทะเบียนมิเรอร์ของไซต์หลักในไฟล์ โรบ็อต.txtในคำสั่ง - เจ้าภาพสำหรับยานเดกซ์:

โฮสต์: site.com

และยังใช้ 301 เปลี่ยนเส้นทางและชี้เครื่องมือค้นหา Yandex และ Google ไปที่มิเรอร์ของเว็บไซต์หลักโดยใช้เครื่องมือของผู้ดูแลเว็บ

ตัวอย่างของหน้าหลักที่ซ้ำกันซึ่งเกือบจะทำให้ฉันผิดหวังเมื่อมองหาวิธีแก้ไขมีลักษณะดังนี้:

http://site.com
http://site.com/

ฉันอ่านที่ไหนสักแห่งที่เครื่องหมายทับที่ส่วนท้ายของลิงก์ไปยังหน้าหลักสร้างลิงก์ที่ซ้ำกันและเครื่องมือค้นหารับรู้ลิงก์ที่มีและไม่มีเครื่องหมายทับเป็น URL ที่แตกต่างกันนำไปสู่หน้าที่มีข้อความเดียวกัน มันไม่ได้แม้แต่ความเป็นไปได้ของการทำซ้ำที่รบกวนฉัน แต่การสูญเสียน้ำหนักของหน้าหลักในสถานการณ์เช่นนี้

ฉันเริ่มขุด เมื่อร้องขอไปยังเซิร์ฟเวอร์ที่ URL ด้านบน ฉันได้รับรหัสตอบกลับ 200 รหัส 200 หมายถึง - "คำขอของผู้ใช้ได้รับการประมวลผลสำเร็จและการตอบสนอง เซิร์ฟเวอร์มีข้อมูลที่ร้องขอ จากนี้เป็นไปตามที่ใบหน้าเหมือนกันทั้งหมด

ฉันยังพยายามเปลี่ยนเส้นทาง 301 (เปลี่ยนเส้นทาง) แต่คำสั่งไม่ทำงาน และฉันไม่ได้รับรหัสตอบกลับ 301 ที่ต้องการ วิธีแก้ปัญหาคือการไม่มีตัวปัญหาเอง สำนวนออกมาเป็นเช่นนี้ ปรากฎว่า เบราว์เซอร์สมัยใหม่พวกเขาแทนที่อักขระ "/" ที่ส่วนท้ายของบรรทัดทำให้มองไม่เห็นซึ่งทำให้เป็นไปไม่ได้โดยอัตโนมัติ แบบนี้!

อีกตัวอย่างหนึ่งของหน้าหลักที่ซ้ำกัน:

http://site.com
https://site.com

มีหลายครั้งที่โดยความผิดพลาดของผู้ดูแลเว็บหรือข้อผิดพลาดในเครื่องมือค้นหา หรือภายใต้สถานการณ์อื่นๆ ลิงก์ภายใต้ลิงก์ที่ได้รับการป้องกันจะเข้าสู่ดัชนี https โปรโตคอล//. จะทำอย่างไรในกรณีเช่นนี้และจะหลีกเลี่ยงได้อย่างไรในอนาคต? แน่นอน คุณต้องลบลิงก์ที่มีโปรโตคอล https:// ออกจากการค้นหา แต่คุณจะต้องดำเนินการดังกล่าว คู่มือหมายถึงเครื่องมือสำหรับเว็บมาสเตอร์:

ในเครื่องมือค้นหา Yandex เว็บมาสเตอร์ - เว็บไซต์ของฉัน - ลบ URL:

สำคัญ !คำสั่งที่เขียนในไฟล์ robots.txt ป้องกันไม่ให้โรบ็อตค้นหารวบรวมข้อมูลข้อความ ซึ่งจะช่วยประหยัดไซต์ไม่ให้ซ้ำกัน แต่คำสั่งเดียวกันนี้ไม่ได้ห้ามการจัดทำดัชนี URL ของหน้า

อ่านเพิ่มเติมในบทความ:

มีอีกสวยครับ วิธีที่มีประสิทธิภาพคำจำกัดความของ "โคลน" โดยใช้เครื่องมือค้นหาเอง ใน Yandex ในช่องค้นหา คุณต้องขับรถ: link.site.com "ส่วนของการทดสอบ"ตัวอย่าง:

ยานเดกซ์พบ 2 รายการที่ตรงกันเนื่องจากฉันไม่ได้ปิดหมวดหมู่จากการจัดทำดัชนี ดังนั้นจึงมีรายการที่ตรงกับการประกาศ หน้าแรก. แต่ถ้าสำหรับ บล็อกการทำอาหารการมีส่วนร่วมของหัวข้อในการค้นหานั้นถูกต้องแล้วสำหรับหัวข้ออื่น ๆ เช่น SEO นั้นไม่จำเป็นและเป็นการดีกว่าที่จะปิดหมวดหมู่จากการจัดทำดัชนี

โดยใช้ ค้นหา Googleคุณสามารถตรวจสอบได้ดังนี้: site:site.com "ส่วนข้อความ".ตัวอย่าง:

โปรแกรมและบริการออนไลน์สำหรับค้นหาเนื้อหาที่ซ้ำกันภายในและภายนอกด้วยส่วนข้อความ

ฉันจะไม่ทำในบทความนี้ ภาพรวมโดยละเอียดโปรแกรมและบริการยอดนิยมฉันจะเน้นเฉพาะโปรแกรมที่ฉันใช้เป็นประจำเท่านั้น

หากต้องการค้นหารายการที่ซ้ำกันภายในและภายนอกฉันแนะนำให้คุณใช้บริการออนไลน์ www.miratools.ru นอกจากการตรวจสอบข้อความแล้ว บริการนี้ยังมีฟีเจอร์ที่น่าสนใจต่างๆ อีกด้วย

โปรแกรมสำหรับค้นหารายการซ้ำคือ Advego Plagiatus มาก โปรแกรมยอดนิยมส่วนตัวผมใช้มาตลอด การทำงานของโปรแกรมนั้นเรียบง่าย ในการตรวจสอบข้อความ เพียงคัดลอกและวางลงในหน้าต่างโปรแกรมแล้วคลิกเริ่ม

หลังจากการตรวจสอบแล้ว รายงานจะแสดงข้อความที่ไม่ซ้ำกันซึ่งตรวจสอบเป็นเปอร์เซ็นต์พร้อมลิงก์ไปยังแหล่งที่มาของการจับคู่:

นอกจากนี้ยังจะเน้น พื้นหลังสีเหลืองส่วนของข้อความเฉพาะที่โปรแกรมพบว่าตรงกัน:

มาก โปรแกรมที่ดีใช้และอย่าลืมสมัครรับข้อมูลอัปเดตบล็อก

พบกันใหม่!

ขอแสดงความนับถือ, คิริลลอฟ วิทาลี

เนื้อหาที่ซ้ำกัน หรือเรียกง่ายๆ ว่าซ้ำกัน คือหน้าต่างๆ บนไซต์ของคุณที่เหมือนกันทั้งหมด (ล้างข้อมูลซ้ำ) หรือบางส่วน (ทำซ้ำแบบคลุมเครือ) แต่แต่ละหน้ามี URL ต่างกัน หนึ่งหน้าสามารถมีหนึ่งหรือหลายรายการที่ซ้ำกัน

เนื้อหาที่ซ้ำกันปรากฏบนเว็บไซต์อย่างไร?

สำหรับทั้งความคมชัดและเลือนมีหลายสาเหตุ การล้างข้อมูลซ้ำอาจเกิดขึ้นได้จากสาเหตุต่อไปนี้

ปรากฏขึ้นเนื่องจาก CMS ของไซต์ ตัวอย่างเช่น การใช้ replytocom ใน WordPress เมื่อเพิ่มความคิดเห็นใหม่ ระบบจะสร้างหน้าใหม่ที่ต่างกันเฉพาะใน URL โดยอัตโนมัติ
อันเป็นผลมาจากข้อผิดพลาดของผู้ดูแลเว็บ
เนื่องจากมีการเปลี่ยนแปลงโครงสร้างเว็บไซต์ ตัวอย่างเช่น เมื่อใช้เทมเพลตที่อัปเดตด้วย URL ใหม่
สร้างโดยเจ้าของเว็บไซต์ ฟังก์ชั่นบางอย่าง. ตัวอย่างเช่น หน้าที่มีเวอร์ชันข้อความที่พิมพ์ได้

รายการซ้ำที่ไม่ชัดเจนบนไซต์ของคุณอาจปรากฏขึ้นเนื่องจากสาเหตุต่อไปนี้:

เหตุใดเนื้อหาที่ซ้ำกันจึงเป็นอันตรายต่อไซต์

ส่งผลเสียต่อการโปรโมตในผลการค้นหาหุ่นยนต์ค้นหามีทัศนคติเชิงลบต่อเนื้อหาที่ซ้ำกัน และสามารถลดตำแหน่งใน SERP ได้เนื่องจากขาดความเป็นเอกลักษณ์ ดังนั้นจึงเป็นประโยชน์สำหรับลูกค้า มันไม่สมเหตุสมผลเลยที่จะอ่านสิ่งเดียวกันบนหน้าต่างๆ ของเว็บไซต์
สามารถแทนที่หน้าที่เกี่ยวข้องอย่างแท้จริงโรบ็อตสามารถเลือกที่จะออกหน้าซ้ำได้หากเห็นว่าเนื้อหานั้นเกี่ยวข้องกับข้อความค้นหามากกว่า ในเวลาเดียวกันกฎสองเท่ามีตัวบ่งชี้ ปัจจัยด้านพฤติกรรมและ/หรือ เชื่อมโยงมวลต่ำกว่าหน้าเว็บที่คุณตั้งใจโปรโมต และนั่นหมายความว่าคู่จะแสดงในตำแหน่งที่แย่ที่สุด
นำไปสู่การสูญเสียการเชื่อมโยงตามธรรมชาติเมื่อผู้ใช้สร้างลิงก์ที่ไม่ใช่ต้นแบบ แต่ลิงก์ไปยังลิงก์ที่ซ้ำกัน
มีส่วนทำให้การกระจายน้ำหนักของลิงค์ภายในไม่ถูกต้องรายการที่ซ้ำกันจะแย่งน้ำหนักบางส่วนจากหน้าที่โปรโมต ซึ่งขัดขวางการโปรโมตในเครื่องมือค้นหาด้วย

จะตรวจสอบได้อย่างไรว่าคุณมีสำเนาซ้ำหรือไม่?

มีหลายวิธีในการตรวจสอบว่าหน้าไซต์ซ้ำกันหรือไม่

คุณพบรายการที่ซ้ำกันหรือไม่ เราอ่านวิธีทำให้เป็นกลาง:

301 เปลี่ยนเส้นทางวิธีนี้ถือว่าน่าเชื่อถือที่สุดเมื่อกำจัดสิ่งซ้ำที่ไม่จำเป็นในไซต์ของคุณ สาระสำคัญของวิธีการคือเปลี่ยนเส้นทางหุ่นยนต์ค้นหาจากหน้าที่ซ้ำไปยังหน้าหลัก ดังนั้น หุ่นยนต์จะข้ามการดับเบิ้ลและทำงานด้วยเท่านั้น หน้าที่ต้องการเว็บไซต์. เมื่อเวลาผ่านไป หลังจากตั้งค่าการเปลี่ยนเส้นทาง 301 แล้ว หน้าที่ซ้ำกันจะติดกันและหลุดออกจากดัชนี
แท็ก . ที่นี่เราบอกเครื่องมือค้นหาว่าหน้าใดที่เรามีหน้าหลักสำหรับการจัดทำดัชนี ในการทำเช่นนี้คุณต้องป้อนแต่ละครั้ง รหัสพิเศษสำหรับหุ่นยนต์ค้นหา ซึ่งจะมีที่อยู่ของหน้าหลัก ที่จะไม่ทำ ผลงานที่คล้ายกันด้วยตนเอง มีปลั๊กอินพิเศษ
ไม่อนุญาตใน robots.txt. ไฟล์ robots.txt เป็นคำสั่งชนิดหนึ่งสำหรับโรบ็อตการค้นหา ซึ่งระบุว่าหน้าใดควรทำดัชนีและหน้าใดไม่ควร หากต้องการปิดใช้งานการจัดทำดัชนีและต่อสู้กับรายการที่ซ้ำกัน ให้ใช้คำสั่ง Disallow ที่นี่ เช่นเดียวกับเมื่อตั้งค่าการเปลี่ยนเส้นทาง 301 สิ่งสำคัญคือต้องเขียนการแบนให้ถูกต้อง

จะลบรายการที่ซ้ำออกจากดัชนีเครื่องมือค้นหาได้อย่างไร

สำหรับยานเดกซ์นั้นจะลบรายการที่ซ้ำกันออกจากดัชนีโดยอิสระเมื่อ การตั้งค่าที่ถูกต้องไฟล์ robots.txt แต่สำหรับ Google คุณต้องกำหนดกฎในแท็บ "พารามิเตอร์ URL" ผ่าน Google Webmaster

หากคุณมีปัญหาในการตรวจสอบและกำจัดเนื้อหาที่ซ้ำกัน คุณสามารถติดต่อผู้เชี่ยวชาญของเราได้ตลอดเวลา เราจะพบองค์ประกอบที่น่าสงสัยทั้งหมด ตั้งค่าการเปลี่ยนเส้นทาง 301, robots.txt, rel="canonical" ทำการตั้งค่าใน Google โดยทั่วไป เราจะดำเนินการทั้งหมดเพื่อให้ไซต์ของคุณทำงานได้อย่างมีประสิทธิภาพ

เนื้อหาที่ซ้ำกันสามารถแบ่งออกเป็น สามประเภทใหญ่: ซ้ำกันโดยที่ URL สองรายการมีเนื้อหาเหมือนกันทุกประการ เนื้อหาที่มีความแตกต่างเล็กน้อย(ลำดับประโยค รูปต่างกันเล็กน้อย เป็นต้น) และ การทำซ้ำข้ามโดเมนซึ่งมีสำเนาที่ถูกต้องหรือมีการแก้ไขเล็กน้อยในหลายๆ โดเมน

มีสองแนวคิดที่เกี่ยวข้องกันซึ่งไม่นับรวม ธีมของ Googleเหมือนกับเนื้อหาที่ซ้ำกัน แต่มักจะสร้างความสับสนให้กับผู้เผยแพร่และ SEO ที่ไม่มีประสบการณ์:

เนื้อหาบาง -ตามที่ระบุไว้ก่อนหน้านี้ หน้าเหล่านี้เป็นหน้าที่มีเนื้อหาน้อยมาก ตัวอย่างจะเป็นชุดของเพจที่สร้างขึ้นจากรายการที่อยู่ธุรกิจที่มีที่อยู่ 5,000 รายการ แต่แต่ละเพจมีที่อยู่เพียงรายการเดียว เพียงไม่กี่บรรทัด
ตัดเนื้อหาหมวดหมู่นี้มีหน้าที่แตกต่างกันเล็กน้อย ลองนึกภาพไซต์ขายรองเท้า Nike Air Max ที่มีไซส์ 37, 37.5, 38, 38.5, 39, ... 46 หากไซต์มี หน้าแยกต่างหากสำหรับรองเท้าแต่ละขนาด ความแตกต่างระหว่างหน้าเหล่านี้ทั้งหมดจะไม่มีนัยสำคัญ ชอบ เอฟเฟกต์ของ Googleและโทร ตัดบาง

Google ไม่ชอบเนื้อหาที่บางหรือมีการตัดทอน เอฟเฟ็กต์เหล่านี้สามารถตรวจจับได้ด้วยอัลกอริทึม Panda . วิธีที่ Bing แยกความแตกต่างระหว่างการทำซ้ำเนื้อหา เนื้อหาบาง และการแบ่งส่วนเนื้อหานั้นไม่ชัดเจน แต่เป็นที่ชัดเจนว่าผู้เผยแพร่ควรหลีกเลี่ยงการสร้างหน้าประเภทนี้

เนื้อหาที่ซ้ำกันอาจเกิดขึ้นได้จากหลายสาเหตุ รวมถึงการขออนุญาตใช้เนื้อหาของไซต์ของคุณ ความบกพร่องของสถาปัตยกรรมไซต์เนื่องจากระบบจัดการเนื้อหาที่ไม่ได้ปรับให้เหมาะกับเครื่องมือค้นหา หรือการคัดลอกผลงาน ในช่วงห้าปีที่ผ่านมา นักส่งสแปมที่คลั่งไคล้เนื้อหาได้เริ่มที่จะคัดลอกเนื้อหาจากแหล่งที่ถูกต้อง จัดเรียงคำใหม่ผ่านกระบวนการที่ซับซ้อนต่างๆ และวางข้อความผลลัพธ์บนหน้าเว็บเพื่อดึงดูดการค้นหาแบบหางยาวและแสดงโฆษณาตามบริบท และสำหรับ วัตถุประสงค์อื่น ๆ ที่น่าอับอาย

ทุกวันนี้เราอยู่ในโลกของ "ปัญหาเนื้อหาซ้ำ" และ "บทลงโทษเนื้อหาซ้ำ" ต่อไปนี้เป็นคำจำกัดความที่จะเป็นประโยชน์สำหรับการสนทนาของเรา

เนื้อหาที่ไม่ซ้ำใคร-เขียนขึ้นโดยมนุษย์ ซึ่งแตกต่างจากการรวมตัวอักษร สัญลักษณ์ และคำอื่นๆ อย่างสิ้นเชิง เวิลด์ไวด์เว็บไม่ได้รับผลกระทบจากอัลกอริทึมการประมวลผลคำของคอมพิวเตอร์ (เช่น เครื่องมือของผู้ส่งสแปมที่ใช้ Markov chains)
ชิ้นส่วน -เนื้อหาเหล่านี้เป็นส่วนเล็กๆ (เช่น คำพูด) ที่คัดลอกและใช้ซ้ำแล้วซ้ำอีก แทบไม่เป็นปัญหาสำหรับเครื่องมือค้นหา โดยเฉพาะอย่างยิ่งเมื่อรวมอยู่ในเอกสารขนาดใหญ่ที่มีเนื้อหาเฉพาะจำนวนมาก
โรคงูสวัด - เครื่องมือค้นหามองหากลุ่มวลีที่ค่อนข้างเล็ก (ห้าถึงหกคำ) ในหน้าอื่นๆ บนเวิลด์ไวด์เว็บ หากเอกสารสองฉบับใช้งูสวัดมากเกินไป เครื่องมือค้นหาอาจตีความเอกสารเหล่านี้ว่าเป็นเนื้อหาที่ซ้ำกัน
ปัญหาเนื้อหาซ้ำ -วลีนี้มักจะใช้เพื่อระบุเนื้อหาที่ซ้ำกันซึ่งไซต์สามารถถูกลงโทษได้ เนื้อหาดังกล่าวเป็นเพียงสำเนาของหน้าที่มีอยู่ บังคับให้เครื่องมือค้นหาเลือกเวอร์ชันที่จะแสดงในดัชนี (นี่คือสิ่งที่เรียกว่า ตัวกรองเนื้อหาที่ซ้ำกัน)
ตัวกรองเนื้อหาซ้ำ -สถานการณ์ที่เครื่องมือค้นหาลบเนื้อหาที่คล้ายกันออกจากผลการค้นหาเพื่อให้บริการ คะแนนสูงสุดผู้ใช้
บทลงโทษเนื้อหาซ้ำ -มีการใช้ค่าปรับ (บทลงโทษ) น้อยมากและเฉพาะในสถานการณ์ที่ชัดเจนเท่านั้น เสิร์ชเอ็นจิ้นอาจลดอันดับหรือแบนหน้าที่เหลือของเว็บไซต์ และอาจแบนทั้งเว็บไซต์ด้วย

ผลที่ตามมาของเนื้อหาที่ซ้ำกัน

สมมติว่าเนื้อหาที่ซ้ำกันของคุณเป็นผลมาจากการกำกับดูแลที่ไม่เป็นอันตรายของนักพัฒนาซอฟต์แวร์ของคุณ เครื่องมือค้นหามักจะกรองหน้าที่ซ้ำออกทั้งหมดยกเว้นหน้าใดหน้าที่หนึ่ง เนื่องจากต้องการแสดงเนื้อหาที่ซ้ำกันเพียงเวอร์ชันเดียวในหน้าผลการค้นหา ในบางกรณี เครื่องมือค้นหาอาจกรองผลลัพธ์ก่อนที่จะรวมไว้ในดัชนี และในกรณีอื่นๆ อาจอนุญาตให้จัดทำดัชนีและกรองหน้าเมื่อเตรียมผลการค้นหาสำหรับข้อความค้นหาหนึ่งๆ ในกรณีหลังนี้ หน้าอาจถูกกรองเพื่อตอบสนองต่อบางคน คำขอบางอย่างและไม่ถูกกรองเพื่อผู้อื่น

ผู้ใช้ต้องการเห็นผลลัพธ์ที่หลากหลาย (ไม่ใช่ผลลัพธ์เดิมซ้ำแล้วซ้ำอีก) ดังนั้น เครื่องมือค้นหาจึงพยายามกรองเนื้อหาที่ซ้ำกันออก ซึ่งมีผลตามมาดังต่อไปนี้:

หุ่นยนต์เสิร์ชเอ็นจิ้นมาที่ไซต์ด้วยงบประมาณการดูเฉพาะ ซึ่งแสดงเป็นจำนวนหน้าที่วางแผนจะดูในแต่ละเซสชัน ทุกครั้งที่พบหน้าซ้ำซึ่งจำเป็นต้องกรองออกจากผลการค้นหา คุณกำลังปล่อยให้โรบ็อตเสียงบประมาณในการท่องเว็บไปบางส่วน ซึ่งหมายความว่าจะมีการดูหน้าเว็บที่ "ดี" น้อยลง และส่งผลให้หน้าเว็บของคุณรวมอยู่ในดัชนีเครื่องมือค้นหาน้อยลง
แม้ว่าเครื่องมือค้นหาจะพยายามกรองเนื้อหาที่ซ้ำกันออก ลิงก์ไปยังหน้าเนื้อหาที่ซ้ำกันยังคงส่งน้ำผลไม้ลิงก์ไปยังพวกเขา ดังนั้นเพจที่ซ้ำกันจะได้รับเพจแรงก์หรือลิงก์น้ำผลไม้ และเนื่องจากนั่นไม่ได้ช่วยจัดอันดับ ทรัพยากรนั้นจึงสูญเปล่า
ไม่มีเครื่องมือค้นหาใดที่ให้คำอธิบายอย่างชัดเจนว่าอัลกอริทึมของพวกเขาเลือกหน้าเว็บเวอร์ชันใดที่จะแสดง กล่าวอีกนัยหนึ่ง หากพบสำเนาของเนื้อหาเดียวกันสามชุด สำเนาสองชุดจะกรองออกหรือไม่ อันไหนจะแสดง? ขึ้นอยู่กับ การค้นหา? ด้วยเหตุนี้ เครื่องมือค้นหาอาจแสดงเวอร์ชันที่ไม่ถูกต้องที่คุณต้องการ

แม้ว่าผู้เชี่ยวชาญด้านการเพิ่มประสิทธิภาพบางคนอาจโต้แย้งกับบางประเด็นที่นำเสนอที่นี่ โครงสร้างทั่วไปแทบไม่มีใครคัดค้าน อย่างไรก็ตาม มีปัญหาหลายประการตามขอบเขตของโมเดลนี้

ตัวอย่างเช่น ไซต์ของคุณมีกลุ่มของหน้าผลิตภัณฑ์ รวมทั้งหน้าเหล่านั้นในเวอร์ชันที่พิมพ์ได้ เครื่องมือค้นหาอาจเลือกที่จะแสดงเวอร์ชันที่พิมพ์ได้ในผลลัพธ์ สิ่งนี้อาจเกิดขึ้นได้ในบางครั้ง และอาจเกิดขึ้นได้แม้ว่าหน้าที่พิมพ์ได้จะมีลิงก์น้ำผลไม้น้อยและอันดับต่ำกว่าหน้าผลิตภัณฑ์หลัก

หากต้องการแก้ไขปัญหานี้ ให้ใช้แอตทริบิวต์ลิงก์ rel="canonical" กับหน้าเว็บเวอร์ชันที่ซ้ำกันทั้งหมดเพื่อระบุเวอร์ชันหลัก

ตัวเลือกที่สองอาจปรากฏขึ้นเมื่อคุณรวบรวมเนื้อหาของคุณ (อนุญาตให้พิมพ์เนื้อหาของคุณซ้ำได้) บุคคลที่สาม. ปัญหาคือเครื่องมือค้นหาอาจละเว้นต้นฉบับของคุณจากผลการค้นหาและชอบเวอร์ชันที่ใช้โดยผู้ที่พิมพ์บทความของคุณซ้ำ มีวิธีแก้ปัญหาที่เป็นไปได้สามวิธีสำหรับปัญหานี้:

ให้ผู้ที่เผยแพร่บทความของคุณซ้ำติดตั้ง ลิงก์ย้อนกลับไปยังบทความต้นฉบับบนไซต์ของคุณด้วยแอตทริบิวต์ rel=”canonical” สิ่งนี้จะแสดงให้เครื่องมือค้นหาทราบว่าสำเนาของเพจของคุณเป็นต้นฉบับ และลิงก์ใดๆ ที่ชี้ไปยังเพจที่รวบรวมไว้จะเครดิตไปที่ของคุณ หน้าเดิม;
ให้พันธมิตรการเผยแพร่ของคุณครอบคลุมสำเนาของพวกเขาด้วยแอตทริบิวต์ noindex ในกรณีนี้ เนื้อหาที่ซ้ำกันจะไม่ได้รับการจัดทำดัชนี เครื่องมือค้นหา. นอกจากนี้ ลิงก์ใดๆ ในเนื้อหานี้ที่ไปยังไซต์ของคุณจะยังคงโอนสิทธิ์ให้กับคุณ
ให้พันธมิตรของคุณเชื่อมโยงกลับไปที่หน้าเดิมบนไซต์ของคุณ เครื่องมือค้นหามักจะตีความสิ่งนี้อย่างถูกต้องและเน้นเนื้อหาเวอร์ชันของคุณ อย่างไรก็ตาม ควรสังเกตว่ามีบางกรณีที่ Google ระบุแหล่งที่มาของเนื้อหาอย่างผิดพลาดและมอบหมายผู้แต่งให้กับไซต์ที่เผยแพร่ซ้ำ โดยเฉพาะอย่างยิ่งหากไซต์นั้นมีอำนาจและความน่าเชื่อถือมากกว่าแหล่งที่มาดั้งเดิมที่แท้จริงของเนื้อหา

เครื่องมือค้นหารู้จักเนื้อหาที่ซ้ำกันได้อย่างไร

เราจะแสดงขั้นตอนการค้นหาเนื้อหาที่ซ้ำกันบนเวิลด์ไวด์เว็บสำหรับเครื่องมือ Google พร้อมตัวอย่าง ในตัวอย่างที่แสดงในรูป 1-4 ตั้งสมมติฐานสามข้อ:

หน้าที่มีข้อความคือหน้าที่มีเนื้อหาที่ซ้ำกัน (ไม่ใช่เพียงส่วนย่อยของมัน ดังแสดงในรูป)
ทุกหน้าที่มีเนื้อหาซ้ำกัน โดเมนที่แตกต่างกัน;
ขั้นตอนที่แสดงด้านล่างได้รับการทำให้ง่ายขึ้นเพื่อให้กระบวนการง่ายและตรงไปตรงมาที่สุด นี่ไม่ใช่อย่างแน่นอน คำอธิบายที่ถูกต้อง การทำงานของกูเกิลแต่สื่อความหมาย

ข้าว. 1

ข้าว. 2

ข้าว. 3

ข้าว. 4

มีข้อเท็จจริงบางประการเกี่ยวกับเนื้อหาที่ซ้ำกันซึ่งสมควรได้รับการกล่าวถึงเป็นพิเศษ เนื่องจากอาจทำให้ผู้ดูแลเว็บที่ยังใหม่กับปัญหาเนื้อหาซ้ำเกิดความสับสนได้ ลองพิจารณาปัจจัยเหล่านี้

ตำแหน่งของเนื้อหาที่ซ้ำกัน -หากเนื้อหาทั้งหมดนี้อยู่ในเว็บไซต์ของฉัน เนื้อหานั้นซ้ำกันหรือไม่ ได้ เนื่องจากเนื้อหาที่ซ้ำกันสามารถเกิดขึ้นได้ทั้งภายในไซต์เดียวกันและในไซต์ที่ต่างกัน
เปอร์เซ็นต์ของเนื้อหาที่ซ้ำกัน -เปอร์เซ็นต์ของเพจต้องทำซ้ำเพื่อให้มีคุณสมบัติสำหรับการกรองเนื้อหาที่ซ้ำกัน ขออภัย เครื่องมือค้นหาไม่เคยเปิดเผยข้อมูลนี้เนื่องจากอาจส่งผลเสียต่อความสามารถในการป้องกันปัญหา
เกือบจะแน่นอนว่าเปอร์เซ็นต์นี้เปลี่ยนแปลงตลอดเวลาสำหรับเครื่องยนต์ทั้งหมด และเมื่อตรวจพบเนื้อหาที่ซ้ำกัน ไม่เพียงแต่จะทำการเปรียบเทียบโดยตรงเท่านั้น บรรทัดล่างคือหน้าไม่จำเป็นต้องเหมือนกันจึงจะถือว่าซ้ำกัน
ความสัมพันธ์ระหว่างรหัสและข้อความ -จะเกิดอะไรขึ้นหากโค้ดของเรามีขนาดใหญ่มาก แต่มีองค์ประกอบ HTML ที่ไม่ซ้ำใครบนหน้าเว็บ Google จะไม่คิดว่าทุกหน้าซ้ำกันหรือ? เลขที่ เครื่องมือค้นหาไม่สนใจรหัสของคุณ พวกเขาสนใจเนื้อหาของหน้าเว็บของคุณ ขนาดรหัสจะกลายเป็นปัญหาก็ต่อเมื่อมันมากเกินไป
อัตราส่วนขององค์ประกอบการนำทางและเนื้อหาที่ไม่ซ้ำใคร -ทุกหน้าในไซต์ของฉันมีแถบนำทางขนาดใหญ่ มีส่วนหัวและส่วนท้ายจำนวนมาก แต่มีเนื้อหาน้อยมาก Google จะไม่ถือว่าหน้าทั้งหมดเหล่านี้ซ้ำกันหรือ เลขที่ Google (รวมถึง Yahoo! และ Bing) คำนึงถึงองค์ประกอบการนำทางก่อนที่จะประเมินหน้าเว็บสำหรับรายการที่ซ้ำกัน พวกเขาคุ้นเคยกับเค้าโครงของเว็บไซต์เป็นอย่างดี และเข้าใจว่าการมีโครงสร้างที่สอดคล้องกันในทุกหน้า (หรือหลายๆ หน้า) เป็นเรื่องปกติ พวกเขาให้ความสนใจกับส่วนที่ไม่ซ้ำกันของหน้าและไม่สนใจส่วนอื่น ๆ เกือบทั้งหมด
เนื้อหาที่ได้รับอนุญาต -จะทำอย่างไรหากฉันต้องการหลีกเลี่ยงปัญหาเนื้อหาที่ซ้ำกัน แต่ฉันมีเนื้อหาจากแหล่งเว็บอื่นที่ฉันได้รับอนุญาตให้แสดงต่อผู้เยี่ยมชม ใช้โค้ด meta name = "robots" content="noindex, follow" ใส่เข้าไป หัวข้อหน้าของคุณและเครื่องมือค้นหาจะรู้ว่าเนื้อหานี้ไม่เหมาะสำหรับพวกเขา นี่เป็นแนวทางปฏิบัติที่ดีที่สุด เนื่องจากผู้คนจะยังสามารถเยี่ยมชมและเชื่อมโยงไปยังหน้านี้ได้ และลิงก์ในหน้านี้จะคงคุณค่าของพวกเขาไว้

อีกทางเลือกหนึ่งคือการได้รับสิทธิพิเศษในการเป็นเจ้าของเนื้อหานี้และเผยแพร่

การระบุและการกำจัดการละเมิดลิขสิทธิ์

หนึ่งใน วิธีที่ดีกว่าการติดตามรายการซ้ำบนไซต์ของคุณคือการใช้ CopyScape (copyscape.com) ซึ่งช่วยให้คุณเห็นหน้าเว็บเหล่านั้นบนเวิลด์ไวด์เว็บที่ใช้เนื้อหาของคุณได้ทันที ไม่ต้องกังวลหากหน้าของไซต์เหล่านี้อยู่ในดัชนีย่อยหรือมีอันดับต่ำกว่าของคุณอย่างมาก หากโดเมนขนาดใหญ่ที่เชื่อถือได้และมีเนื้อหาจำนวนมากพยายามที่จะต่อสู้กับสำเนาเนื้อหาทั้งหมดบนเวิลด์ไวด์เว็บ ต้องการ โดย อย่างน้อยสองคนให้เต็มที่ สัปดาห์การทำงาน. โชคดีที่เสิร์ชเอ็นจิ้นเชื่อถือไซต์ดังกล่าว ดังนั้นจึงถือว่าไซต์เหล่านั้นเป็นแหล่งดั้งเดิม

ในทางกลับกัน หากคุณมีไซต์ที่ค่อนข้างใหม่ หรือไซต์ที่มีลิงก์เข้ามาน้อย และผู้ลอกเลียนแบบมักจะอยู่ในอันดับที่สูงกว่าคุณ (หรือไซต์ที่ทรงพลังบางไซต์ขโมยงานของคุณ) มีหลายสิ่งที่คุณสามารถทำได้ ทางเลือกหนึ่งคือการส่งคำขอไปยังผู้จัดพิมพ์เพื่อขอให้ลบเนื้อหาที่ละเมิด ในบางกรณี ผู้เผยแพร่ก็ไม่ทราบเกี่ยวกับการละเมิดลิขสิทธิ์ อีกทางเลือกหนึ่งคือเขียนถึงผู้ให้บริการโฮสต์ บริษัทโฮสติ้งอาจต้องรับผิดชอบในการจัดระเบียบเนื้อหาที่ซ้ำกัน ดังนั้นพวกเขาจึงมักตอบสนองต่อคำขอดังกล่าวอย่างรวดเร็ว เพียงให้แน่ใจว่าคุณยินดีให้เอกสารมากที่สุดเท่าที่จะเป็นไปได้เพื่อพิสูจน์ความเป็นผู้เขียนของเนื้อหา

ตัวเลือกถัดไปคือการส่งการเรียกร้องการละเมิดลิขสิทธิ์ (DMCA) ไปยัง Google, Yahoo! และบิง คุณควรส่งคำขอเดียวกันนี้ไปยังบริษัทที่โฮสต์เว็บไซต์ของผู้กระทำความผิด

ตัวเลือกที่สองคือดำเนินการทางกฎหมายกับไซต์ที่ละเมิดหรือขู่ว่าจะทำเช่นนั้น หากไซต์ที่เผยแพร่ผลงานของคุณเป็นเจ้าของในประเทศของคุณ นี่อาจเป็นขั้นตอนแรกที่ฉลาดที่สุด คุณสามารถเริ่มด้วยการสื่อสารที่ไม่เป็นทางการมากขึ้นและขอให้ลบเนื้อหาออกก่อนที่จะส่งจดหมายอย่างเป็นทางการจากทนายความ เนื่องจากอาจใช้เวลาหลายเดือนก่อนที่มาตรการ DMCA จะมีผลบังคับใช้ แต่ถ้าคุณไม่ได้รับการตอบกลับ คุณก็ไม่มีเหตุผลที่จะต้องเลื่อนการดำเนินการที่ร้ายแรงกว่านี้ออกไป

มีประสิทธิภาพมากและ ตัวเลือกที่ไม่แพงสำหรับกระบวนการนี้คือทรัพยากร DCMA.com

สถานการณ์ที่มีจุดโทษจริง

ตัวอย่างก่อนหน้านี้แสดงวิธีการทำงานของตัวกรองเนื้อหาที่ซ้ำกัน แต่ไม่ใช่บทลงโทษ แม้ว่าในทางปฏิบัติแล้ว ผลกระทบจะเหมือนกับบทลงโทษ นั่นคือการลดอันดับของหน้าเว็บของคุณ อย่างไรก็ตาม มีบางสถานการณ์ที่สามารถมีค่าปรับจริงได้ ตัวอย่างเช่น ไซต์รวบรวมเนื้อหามีความเสี่ยง โดยเฉพาะอย่างยิ่งหากไซต์นั้นเพิ่มเนื้อหาที่ไม่ซ้ำใครเพียงเล็กน้อย ในสถานการณ์นี้ ไซต์สามารถถูกลงโทษได้จริงๆ

วิธีเดียวที่จะแก้ไขปัญหานี้คือการลดจำนวนหน้าที่ซ้ำกันในสไปเดอร์ของเครื่องมือค้นหา สิ่งนี้ทำได้โดยการลบออกโดยเพิ่มแอตทริบิวต์ตามรูปแบบบัญญัติให้กับรายการที่ซ้ำกัน โดยการเพิ่มแอตทริบิวต์ noindex ให้กับหน้าเอง หรือโดยการเพิ่มเนื้อหาที่ไม่ซ้ำจำนวนมาก

ตัวอย่างของเนื้อหาที่สามารถกรองได้บ่อยๆ ได้แก่ ไซต์พันธมิตร "บาง"มักเรียกว่าไซต์ที่ส่งเสริมการขายผลิตภัณฑ์ของผู้อื่นเพื่อรับค่าคอมมิชชั่น แต่ไม่ได้ให้ ข้อมูลใหม่. ไซต์ดังกล่าวสามารถรับคำอธิบายจากผู้ผลิตผลิตภัณฑ์และเพียงแค่สร้างคำอธิบายเหล่านั้นซ้ำพร้อมกับลิงก์ไปยังพันธมิตรเพื่อรับเงินจาก "การคลิก" หรือการซื้อ

ปัญหาเกิดขึ้นเมื่อผู้ขายมีพันธมิตรหลายพันรายที่ใช้เนื้อหาเดียวกัน - และวิศวกรเครื่องมือค้นหาได้รับคำติชมจากผู้ใช้ว่า (จากมุมมองของพวกเขา) ไซต์ดังกล่าวไม่ได้เพิ่มคุณค่าใดๆ ให้กับดัชนีของพวกเขา ดังนั้น เครื่องมือค้นหาจึงพยายามกรองไซต์ดังกล่าวออก หรือแม้แต่แยกออกจากดัชนี ไซต์จำนวนมากใช้โมเดล Affiliate แต่ยังมีเนื้อหาใหม่ที่สมบูรณ์ ดังนั้นพวกเขาจึงไม่มีปัญหา เครื่องมือค้นหาจะดำเนินการก็ต่อเมื่อมีทั้งเนื้อหาที่ซ้ำกันและไม่มีค่าที่ไม่ซ้ำกันในเวลาเดียวกัน

จะหลีกเลี่ยงเนื้อหาที่ซ้ำกันบนเว็บไซต์ได้อย่างไร?

ดังที่เราได้กล่าวไว้ก่อนหน้านี้ เนื้อหาที่ซ้ำกันสามารถสร้างได้หลายวิธี การทำสำเนาเนื้อหาภายในจำเป็นต้องใช้กลวิธีเฉพาะเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดในแง่ของการปรับให้เหมาะสมที่สุด ในหลายกรณี เพจที่ซ้ำกันคือเพจที่ไม่มีคุณค่าต่อผู้ใช้หรือเครื่องมือค้นหา หากเป็นกรณีนี้ ให้พยายามขจัดปัญหานี้ให้หมดไป ปรับแต่งการใช้งานเพื่อให้มีเพียงหนึ่ง URL ที่เชื่อมโยงไปยังแต่ละหน้า ทำการเปลี่ยนเส้นทาง 301 สำหรับ URL เก่าไปยัง URL ที่เหลือ , เพื่อช่วยให้เครื่องมือค้นหาเห็นการเปลี่ยนแปลงที่คุณทำโดยเร็วที่สุด และเก็บ "น้ำเชื่อม" ของหน้าที่ถูกลบไว้

หากเป็นไปไม่ได้แสดงว่ามีตัวเลือกอื่นมากมาย . ต่อไปนี้เป็นบทสรุปของแนวทางส่วนใหญ่ วิธีแก้ปัญหาง่ายๆสำหรับสถานการณ์ที่หลากหลาย:

ใช้ไฟล์ robots.txt เพื่อบล็อกสไปเดอร์ของเครื่องมือค้นหาไม่ให้รวบรวมข้อมูลผ่านหน้าเว็บเวอร์ชันที่ซ้ำกันของไซต์ของคุณ
ใช้องค์ประกอบ rel="canonical" - นี่เป็นวิธีแก้ปัญหาที่สอง (ที่ดีที่สุด) เพื่อกำจัดหน้าที่ซ้ำกัน
ใช้ รหัส เพื่อให้ข้อบ่งชี้ เครื่องมือค้นหาเอ็นจิ้นไม่ทำดัชนีหน้าที่ซ้ำกัน

อย่างไรก็ตาม โปรดทราบว่าหากคุณใช้ไฟล์ robots.txt เพื่อป้องกันการดูหน้าเว็บ การใช้แอตทริบิวต์ noindex หรือ nofollow บนหน้าเว็บนั้นไม่สมเหตุสมผล เนื่องจากสไปเดอร์ไม่สามารถอ่านหน้านี้ได้ มันจะไม่เห็นแอตทริบิวต์ noindex หรือ nofollow เมื่อคำนึงถึงเครื่องมือเหล่านี้แล้ว มาดูสถานการณ์เนื้อหาที่ซ้ำกันที่เฉพาะเจาะจง

หน้า HTTPS -ถ้าคุณใช้ โปรโตคอล SSL(การแลกเปลี่ยนที่เข้ารหัสระหว่างเบราว์เซอร์และเว็บเซิร์ฟเวอร์ ซึ่งมักจะใช้ อีคอมเมิร์ซ) เว็บไซต์ของคุณจะมีหน้าที่ขึ้นต้นด้วย HTTPS: (แทน http :). ปัญหาเกิดขึ้นเมื่อลิงก์ในหน้า HTTPS ของคุณชี้ไปยังหน้าอื่นๆ บนเว็บไซต์โดยใช้ความสัมพันธ์แทน การเชื่อมโยงที่สมบูรณ์(ตัวอย่างเช่น ลิงก์ไปยังหน้าแรกของคุณจะกลายเป็น https://www.YourDomain.com แทนที่จะเป็น http://www.YourDomain.com)

หากไซต์ของคุณมีปัญหาดังกล่าว คุณสามารถใช้องค์ประกอบ rel="canonical" หรือการเปลี่ยนเส้นทาง 301 เพื่อแก้ไขได้ อีกวิธีหนึ่งคือเปลี่ยนลิงก์เป็นลิงก์สัมบูรณ์: http://www.YourDomain.com/content.html แทน /contenthtml) ซึ่งในขณะเดียวกันก็ทำให้ชีวิตยากขึ้นเล็กน้อยสำหรับผู้ที่ขโมยเนื้อหาของคุณ

ระบบจัดการเนื้อหาที่สร้างเนื้อหาซ้ำ -บางครั้งไซต์มีหน้าเว็บที่เหมือนกันหลายเวอร์ชัน นี่เป็นเพราะข้อจำกัดในระบบจัดการเนื้อหาบางระบบที่ระบุเนื้อหาเดียวกันด้วย URL มากกว่าหนึ่งรายการ โดยปกติแล้วนี่เป็นการทำซ้ำที่ไม่จำเป็นโดยสิ้นเชิงซึ่งไม่มีค่าสำหรับผู้ใช้ และวิธีแก้ไขที่ดีที่สุดคือลบหน้าที่ซ้ำกันออกและเปลี่ยนเส้นทาง 301 สำหรับ หน้าที่ถูกลบไปยังหน้าที่เหลือ หากไม่ได้ผล ให้ลองใช้วิธีอื่น (ระบุไว้ในตอนต้นของบทความนี้)
หน้าที่พิมพ์ได้หรือตัวเลือกการเรียงลำดับมากมาย -ไซต์หลายแห่งเสนอหน้าที่พิมพ์ได้ซึ่งให้เนื้อหาเดียวกันแก่ผู้ใช้ในรูปแบบที่เป็นมิตรกับเครื่องพิมพ์ ไซต์อีคอมเมิร์ซบางแห่งเสนอรายการสินค้าของตนด้วยประเภทต่างๆ ที่เป็นไปได้ (ตามขนาด สี ยี่ห้อ และราคา) หน้าเหล่านี้มีค่าสำหรับผู้ใช้ แต่ไม่มีค่าสำหรับเครื่องมือค้นหา ดังนั้นจะปรากฏแก่พวกเขาว่าเป็นเนื้อหาที่ซ้ำกัน ในสถานการณ์เช่นนี้ คุณต้องใช้หนึ่งในตัวเลือกที่แสดงก่อนหน้านี้ในบล็อกนี้ หรือกำหนดค่า ตาราง CSSสำหรับการพิมพ์ (ตามที่อธิบายไว้ใน yoast.com/added-print-css-style-sheet/ โพสต์บนไซต์ Yoast)
เนื้อหาที่ซ้ำกันในบล็อกและระบบการเก็บถาวร-บล็อกเป็นรูปแบบที่น่าสนใจสำหรับปัญหาเนื้อหาที่ซ้ำกัน โพสต์บล็อกสามารถปรากฏในหน้าต่างๆ ได้หลายหน้า: หน้าแรกบล็อก ในหน้าลิงก์ถาวรของโพสต์นี้ ในหน้าเก็บถาวร และในหน้าหมวดหมู่ แต่ละอินสแตนซ์ของโพสต์ซ้ำกับอินสแตนซ์อื่นๆ ผู้เผยแพร่โฆษณาไม่ค่อยพยายามจัดการกับปัญหาการมีอยู่ของโพสต์เป็น หน้าแรกบล็อกและในหน้าลิงก์ถาวร และเห็นได้ชัดว่าเครื่องมือค้นหาสามารถจัดการกับปัญหานี้ได้ค่อนข้างดี อย่างไรก็ตาม การแสดงเฉพาะส่วนของโพสต์ในหมวดหมู่และหน้าเก็บถาวรอาจเหมาะสม
เนื้อหาซ้ำที่ผู้ใช้สร้างขึ้น (โพสต์ซ้ำ ฯลฯ) -ไซต์หลายแห่งใช้โครงสร้างเพื่อรับเนื้อหาที่ผู้ใช้สร้างขึ้น เช่น บล็อก ฟอรัม หรือกระดานข้อความ สิ่งเหล่านี้อาจเป็นวิธีที่ดีในการพัฒนา จำนวนมากเนื้อหาในราคาที่ต่ำมาก ปัญหาคือผู้ใช้สามารถโพสต์เนื้อหาเดียวกันบนไซต์ของคุณและไซต์อื่น ๆ ได้หลายไซต์พร้อมกัน ส่งผลให้เกิดเนื้อหาที่ซ้ำกัน เป็นการยากที่จะควบคุมสิ่งนี้ แต่สามารถพิจารณาสิ่งต่อไปนี้เพื่อลดปัญหา:

คุณต้องมีนโยบายที่ชัดเจนซึ่งแจ้งให้ผู้ใช้ทราบว่าเนื้อหาที่พวกเขาส่งไปยังไซต์ของคุณต้องไม่ซ้ำกันและไม่สามารถโฮสต์บนไซต์อื่นได้ แน่นอนว่าเป็นเรื่องยากที่จะบรรลุผลสำเร็จ แต่จะช่วยให้เข้าใจความคาดหวังของคุณ
ใช้ฟอรัมของคุณในแบบเฉพาะที่ต้องการเนื้อหาที่แตกต่างกัน นอกจากช่องป้อนข้อมูลมาตรฐานแล้ว ให้เพิ่มช่องเฉพาะบางช่อง (แตกต่างจากเว็บไซต์อื่นๆ) ซึ่งจะเป็นประโยชน์สำหรับผู้เยี่ยมชมเว็บไซต์ของคุณ