Tech

การลบชุดข้อมูลที่ผิดจรรยาบรรณยังไม่ดีพอ

ในปี 2559 โดยหวังว่าจะกระตุ้นความก้าวหน้าในการจดจำใบหน้า Microsoft ได้เปิดตัวฐานข้อมูลใบหน้าที่ใหญ่ที่สุดในโลก เรียกว่า MS-Celeb-1M ซึ่งมีภาพใบหน้าของคนดังจำนวน 10 ล้านภาพ “คนดัง” ถูกกำหนดอย่างหลวม ๆ

สามปีต่อมานักวิจัย Adam Harvey และ Jules LaPlace ได้สำรวจชุดข้อมูล และพบบุคคลธรรมดาจำนวนมาก เช่นนักข่าว ศิลปิน นักเคลื่อนไหว และนักวิชาการ ที่รักษาสถานะออนไลน์สำหรับชีวิตการทำงานของพวกเขา ไม่มีใครยินยอมให้รวมเข้าไปด้วย แต่ใบหน้าของพวกเขากลับค้นพบทางเข้าสู่ฐานข้อมูลและอื่น ๆ การวิจัยโดยใช้การรวบรวมใบหน้าดำเนินการโดยบริษัทต่างๆ ซึ่งรวมถึง Facebook, IBM, Baidu และ SenseTime ซึ่งเป็นหนึ่งในบริษัทยักษ์ใหญ่ด้านการจดจำใบหน้ารายใหญ่ที่สุดของจีน ซึ่งขายเทคโนโลยีให้กับตำรวจจีน

ไม่นานหลังจาก Harvey และ การสืบสวนของ LaPlace และหลังจากได้รับ การวิจารณ์จากนักข่าว Microsoft ได้ลบชุดข้อมูลโดยระบุเพียงว่า: “ความท้าทายในการวิจัยสิ้นสุดลงแล้ว” แต่ความเป็นส่วนตัวนั้นสร้างความกังวลให้กับอินเทอร์เน็ตตลอดไป และคดีนี้แทบจะไม่มีเลย

การขูดเว็บเพื่อดูรูปภาพและข้อความถือเป็นกลยุทธ์ที่สร้างสรรค์สำหรับการรวบรวมข้อมูลในโลกแห่งความเป็นจริง ขณะนี้ กฎหมายอย่าง GDPR (ข้อบังคับการปกป้องข้อมูลของยุโรป) และความกังวลของสาธารณชนที่เพิ่มขึ้นเกี่ยวกับความเป็นส่วนตัวของข้อมูลและการสอดส่องดูแล ได้ทำให้การปฏิบัติดังกล่าวมีความเสี่ยงทางกฎหมายและไม่เหมาะสม ส่งผลให้นักวิจัย AI ถอนชุดข้อมูลที่สร้างขึ้นด้วยวิธีนี้มากขึ้น

แต่ การศึกษาใหม่ แสดงให้เห็นว่าสิ่งนี้ ได้ดำเนินการเพียงเล็กน้อยเพื่อป้องกันไม่ให้ข้อมูลที่เป็นปัญหาเพิ่มขึ้นและถูกนำไปใช้ ผู้เขียนเลือกชุดข้อมูลที่อ้างถึงบ่อยที่สุดสามชุดที่มีใบหน้าหรือบุคคล ซึ่งสองชุดถูกหดกลับ พวกเขาติดตามวิธีการคัดลอก ใช้ และนำมาใช้ใหม่เกือบ 1,000 ฉบับ

ในกรณีของ MS-Celeb-1M สำเนายังคงมีอยู่ในไซต์ของบุคคลที่สามและในข้อมูลอนุพันธ์ ชุดที่สร้างขึ้นบนต้นฉบับ โมเดลโอเพนซอร์สที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลยังคงพร้อมใช้งานเช่นกัน ชุดข้อมูลและอนุพันธ์ยังถูกอ้างถึงในเอกสารหลายร้อยฉบับที่ตีพิมพ์ระหว่าง 6 ถึง 18 เดือนหลังจากการถอนกลับ

DukeMTMC ชุดข้อมูลที่มีภาพผู้คนกำลังเดินอยู่ในวิทยาเขตของ Duke University และหดกลับเข้าไปเหมือนเดิม เดือนในฐานะ MS-Celeb-1M ยังคงมีชุดข้อมูลอนุพันธ์และการอ้างอิงกระดาษหลายร้อยฉบับเช่นเดียวกัน

รายชื่อสถานที่ที่ข้อมูลยังคงอยู่ “กว้างขวางกว่าที่เราคิดไว้ในตอนแรก” Kenny Peng นักเรียนปีที่สองที่ Princeton และผู้เขียนร่วมของการศึกษากล่าว และถึงกระนั้น เขากล่าวว่า อาจเป็นการดูถูกดูแคลน เพราะการอ้างอิงในเอกสารการวิจัยไม่ได้กล่าวถึงวิธีที่ข้อมูลอาจถูกนำไปใช้ในเชิงพาณิชย์เสมอไป

บ้าไปแล้ว

ส่วนหนึ่งของปัญหาตามรายงานของ Princeton คือผู้ที่รวบรวมชุดข้อมูลอย่างรวดเร็วสูญเสียการควบคุมการสร้างสรรค์ของพวกเขา

ชุดข้อมูลที่เผยแพร่เพื่อจุดประสงค์เดียวสามารถเลือกใช้ร่วมกันได้อย่างรวดเร็วสำหรับชุดอื่นๆ ที่ผู้สร้างสรรค์ดั้งเดิมไม่เคยคิดหรือจินตนาการถึง ตัวอย่างเช่น MS-Celeb-1M มีวัตถุประสงค์เพื่อปรับปรุงการจดจำใบหน้าของคนดัง แต่หลังจากนั้นก็ถูกนำมาใช้เพื่อการจดจำใบหน้าทั่วไปและการวิเคราะห์คุณลักษณะใบหน้ามากขึ้น นอกจากนี้ยังได้รับการติดป้ายกำกับใหม่หรือประมวลผลใหม่ในชุดข้อมูลอนุพันธ์ เช่น Racial Faces in the Wild ซึ่งจัดกลุ่มรูปภาพตามเชื้อชาติ เปิดประตูสู่แอปพลิเคชันที่มีการโต้เถียง

การวิเคราะห์ของนักวิจัยยังชี้ให้เห็นว่า Labeled Faces in the Wild (LFW) ซึ่งเป็นชุดข้อมูลที่เปิดตัวในปี 2550 และเป็นภาพใบหน้าแรกที่ใช้ ที่คัดลอกมาจากอินเทอร์เน็ต เปลี่ยนแปลงหลายครั้งตลอดเกือบ 15 ปีของการใช้งาน ในขณะที่เริ่มใช้เป็นแหล่งข้อมูลสำหรับการประเมินแบบจำลองการจดจำใบหน้าเฉพาะในการวิจัย ขณะนี้ได้ใช้เกือบจะเฉพาะเพื่อประเมินระบบที่มีขึ้นเพื่อใช้ในโลกแห่งความเป็นจริง แม้ว่าจะมีป้ายเตือนบนเว็บไซต์ของชุดข้อมูลซึ่งเตือนการใช้งานดังกล่าว

ไม่นานมานี้ ชุดข้อมูลถูกนำไปใช้ใหม่ในอนุพันธ์ที่เรียกว่า SMFRD ซึ่งเพิ่มการมาสก์หน้าในแต่ละภาพเพื่อ การจดจำใบหน้าล่วงหน้าในช่วงการระบาดใหญ่ ผู้เขียนตั้งข้อสังเกตว่าสิ่งนี้อาจเพิ่มความท้าทายด้านจริยธรรมใหม่ ๆ ผู้สนับสนุนด้านความเป็นส่วนตัวได้วิพากษ์วิจารณ์แอปพลิเคชันดังกล่าวเพื่อกระตุ้นการเฝ้าระวัง ตัวอย่างเช่น และโดยเฉพาะอย่างยิ่งสำหรับการเปิดใช้การระบุตัวตนของผู้ประท้วงที่สวมหน้ากาก

“นี่เป็นเอกสารที่สำคัญจริงๆ เพราะโดยทั่วไปแล้วสายตาของผู้คนไม่ได้เปิดกว้างต่อ ความซับซ้อน และอันตรายและความเสี่ยงที่อาจเกิดขึ้นของชุดข้อมูล” Margaret Mitchell นักวิจัยด้านจริยธรรม AI และผู้นำในการปฏิบัติด้านข้อมูลอย่างรับผิดชอบ ซึ่งไม่ได้มีส่วนร่วมในการศึกษากล่าว

เป็นเวลานาน เธอกล่าวเสริมว่า วัฒนธรรมภายในชุมชน AI นั้นมีการสันนิษฐานว่าข้อมูลนั้นมีอยู่เพื่อนำไปใช้ เอกสารนี้แสดงให้เห็นว่าสิ่งนั้นสามารถนำไปสู่ปัญหาได้อย่างไร “การคิดผ่านค่าต่างๆ ที่ชุดข้อมูลเข้ารหัสเป็นสิ่งสำคัญมาก เช่นเดียวกับค่าที่มีชุดข้อมูลมีการเข้ารหัส” เธอกล่าว

A แก้ไข

ผู้เขียนศึกษาให้คำแนะนำหลายประการสำหรับชุมชน AI ในอนาคต ประการแรก ผู้สร้างควรสื่อสารให้ชัดเจนยิ่งขึ้นเกี่ยวกับจุดประสงค์ในการใช้ชุดข้อมูลของตน ทั้งผ่านใบอนุญาตและผ่านเอกสารที่มีรายละเอียด พวกเขาควรจำกัดการเข้าถึงข้อมูลของตนให้ยากขึ้น โดยอาจกำหนดให้นักวิจัยลงนามในข้อตกลงหรือขอให้กรอกใบสมัคร โดยเฉพาะอย่างยิ่งหากพวกเขาต้องการสร้างชุดข้อมูลอนุพันธ์

ประการที่สอง การประชุมวิจัยควรกำหนดบรรทัดฐานเกี่ยวกับวิธีการรวบรวม ติดฉลาก และใช้ข้อมูล และควรสร้างแรงจูงใจสำหรับการสร้างชุดข้อมูลอย่างรับผิดชอบ NeurIPS ซึ่งเป็นงานประชุมด้านการวิจัย AI ที่ใหญ่ที่สุด ได้รวมรายการตรวจสอบแนวทางปฏิบัติที่ดีที่สุดและแนวทางจริยธรรมไว้แล้ว

Mitchell แนะนำให้ดำเนินการให้ดียิ่งขึ้นไปอีก เป็นส่วนหนึ่งของ โครงการ BigScience ซึ่งเป็นความร่วมมือระหว่างนักวิจัย AI ในการพัฒนาแบบจำลอง AI ที่สามารถแยกวิเคราะห์และสร้างภาษาธรรมชาติภายใต้มาตรฐานที่เข้มงวดของ จริยธรรม เธอได้ทดลองกับแนวคิดในการสร้างองค์กรดูแลชุดข้อมูล ซึ่งเป็นทีมที่ไม่เพียงแต่จัดการดูแล บำรุงรักษา และการใช้ข้อมูลเท่านั้น แต่ยังทำงานร่วมกับทนายความ นักเคลื่อนไหว และประชาชนทั่วไปเพื่อให้แน่ใจว่าเป็นไปตาม มาตรฐานทางกฎหมายจะถูกรวบรวมโดยได้รับความยินยอมเท่านั้น และสามารถลบออกได้หากมีผู้เลือกที่จะเพิกถอนข้อมูลส่วนบุคคล องค์กรดูแลดังกล่าวไม่จำเป็นสำหรับชุดข้อมูลทั้งหมด—แต่สำหรับข้อมูลที่คัดลอกมาซึ่งอาจมีข้อมูลไบโอเมตริกซ์หรือข้อมูลส่วนบุคคลหรือทรัพย์สินทางปัญญาที่สามารถระบุตัวตนได้

“การเก็บรวบรวมและตรวจสอบชุดข้อมูลไม่ใช่สิ่งเดียว -ปิดงานสำหรับหนึ่งหรือสองคน” เธอกล่าว “หากคุณทำสิ่งนี้อย่างมีความรับผิดชอบ มันจะแบ่งออกเป็นงานต่างๆ มากมายที่ต้องใช้ความคิดอย่างลึกซึ้ง ความเชี่ยวชาญอย่างลึกซึ้ง และผู้คนที่หลากหลาย”

ในช่วงไม่กี่ปีที่ผ่านมา ย้ายไปสู่ความเชื่อที่ว่า ชุดข้อมูลที่ได้รับการดูแลอย่างดียิ่งขึ้น จะเป็นกุญแจสำคัญในการเอาชนะความท้าทายด้านเทคนิคและจริยธรรมของอุตสาหกรรม เป็นที่ชัดเจนว่าการสร้างชุดข้อมูลที่มีความรับผิดชอบมากขึ้นนั้นไม่เพียงพอ ผู้ที่ทำงานด้าน AI ยังต้องให้คำมั่นสัญญาระยะยาวในการรักษาและใช้อย่างมีจริยธรรม

บ้าน

  • ธุรกิจ
  • การดูแลสุขภาพ ไลฟ์สไตล์ เทค

  • โลก

  • อาหาร
  • เกม
  • การท่องเที่ยว
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button