
ຜູ້ຂຽນ:
(1) Andrew J. Peterson, ມະຫາວິທະຍາໄລ Poitiers (andrew.peterson@univ-poitiers.fr).
ສື່ມວນຊົນ, ຟອງການກັ່ນຕອງແລະຫ້ອງສຽງ
ຜົນກະທົບຂອງເຄືອຂ່າຍແລະຂໍ້ມູນ Cascades
ໃນຂະນະທີ່ປັນຍາປະດິດມີທ່າແຮງທີ່ຈະປະມວນຜົນຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍ, ສ້າງຄວາມເຂົ້າໃຈໃຫມ່, ແລະປົດລັອກການຜະລິດທີ່ສູງຂຶ້ນ, ການຮັບຮອງເອົາຢ່າງກວ້າງຂວາງຂອງມັນອາດຈະເຮັດໃຫ້ເກີດຜົນສະທ້ອນທີ່ບໍ່ໄດ້ຄາດຄິດ. ພວກເຮົາກໍານົດເງື່ອນໄຂພາຍໃຕ້ການທີ່ AI, ໂດຍການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການເຂົ້າເຖິງບາງຮູບແບບຂອງຄວາມຮູ້, ສາມາດເປັນອັນຕະລາຍຕໍ່ຄວາມເຂົ້າໃຈສາທາລະນະ. ໃນຂະນະທີ່ຕົວແບບພາສາຂະຫນາດໃຫຍ່ໄດ້ຮັບການຝຶກອົບຮົມໃນຈໍານວນຂໍ້ມູນທີ່ຫຼາກຫຼາຍ, ພວກມັນສ້າງຜົນຜະລິດໄປສູ່ 'ສູນກາງ' ຂອງການແຈກຢາຍຕາມທໍາມະຊາດ. ໂດຍທົ່ວໄປແລ້ວນີ້ແມ່ນເປັນປະໂຫຍດ, ແຕ່ການເອື່ອຍອີງຢ່າງແຜ່ຫຼາຍໃນລະບົບ AI recursive ສາມາດນໍາໄປສູ່ຂະບວນການທີ່ພວກເຮົາກໍານົດເປັນ "ການລົ້ມລົງຂອງຄວາມຮູ້", ແລະໂຕ້ຖຽງວ່ານີ້ສາມາດເປັນອັນຕະລາຍຕໍ່ນະວັດຕະກໍາແລະຄວາມອຸດົມສົມບູນຂອງຄວາມເຂົ້າໃຈແລະວັດທະນະທໍາຂອງມະນຸດ. ແນວໃດກໍ່ຕາມ, ບໍ່ເຫມືອນກັບແບບຈໍາລອງ AI ທີ່ບໍ່ສາມາດເລືອກຂໍ້ມູນທີ່ເຂົາເຈົ້າໄດ້ຮັບການຝຶກອົບຮົມ, ມະນຸດອາດຈະຍຸດທະສາດຊອກຫາຮູບແບບຄວາມຮູ້ທີ່ຫຼາກຫຼາຍຖ້າພວກເຂົາຮັບຮູ້ວ່າມີມູນຄ່າ. ເພື່ອສືບສວນເລື່ອງນີ້, ພວກເຮົາສະຫນອງຮູບແບບທີ່ງ່າຍດາຍທີ່ຊຸມຊົນຂອງນັກຮຽນຫຼືຜູ້ປະດິດສ້າງເລືອກທີ່ຈະໃຊ້ວິທີການແບບດັ້ງເດີມຫຼືອີງໃສ່ຂະບວນການຊ່ວຍເຫຼືອ AI ທີ່ມີລາຄາຜ່ອນຜັນແລະກໍານົດເງື່ອນໄຂທີ່ການລົ້ມລົງຂອງຄວາມຮູ້ເກີດຂື້ນ. ໃນຮູບແບບເລີ່ມຕົ້ນຂອງພວກເຮົາ, ສ່ວນຫຼຸດ 20% ສໍາລັບເນື້ອຫາທີ່ສ້າງໂດຍ AI ເຮັດໃຫ້ເກີດຄວາມເຊື່ອຂອງປະຊາຊົນ 2.3 ເທົ່າຈາກຄວາມຈິງຫຼາຍກວ່າເວລາທີ່ບໍ່ມີສ່ວນຫຼຸດ. ສຸດທ້າຍ, ອີງຕາມຜົນໄດ້ຮັບ, ພວກເຮົາພິຈາລະນາທິດທາງການຄົ້ນຄວ້າຕື່ມອີກເພື່ອຕ້ານກັບຜົນໄດ້ຮັບດັ່ງກ່າວ.
ກ່ອນການມາເຖິງຂອງ AI ທົ່ວໄປ, ຂໍ້ຄວາມແລະວຽກງານສິລະປະທັງຫມົດແມ່ນຜະລິດໂດຍມະນຸດ, ໃນບາງກໍລະນີການຊ່ວຍເຫຼືອໂດຍເຄື່ອງມືຫຼືລະບົບຄອມພິວເຕີ. ຄວາມສາມາດຂອງຕົວແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) ເພື່ອສ້າງຂໍ້ຄວາມດ້ວຍຄວາມພະຍາຍາມຂອງມະນຸດເກືອບສູນ, ແນວໃດກໍ່ຕາມ, ພ້ອມກັບແບບຈໍາລອງເພື່ອສ້າງຮູບພາບ, ສຽງ, ແລະວິດີໂອ, ແນະນໍາວ່າຂໍ້ມູນທີ່ມະນຸດເປີດເຜີຍອາດຈະຖືກຄອບງໍາໂດຍຂະບວນການທີ່ສ້າງ AI ຫຼື AI ຊ່ວຍ.
ນັກຄົ້ນຄວ້າໄດ້ສັງເກດເຫັນວ່າການຝຶກອົບຮົມ recursive ຂອງຕົວແບບ AI ກ່ຽວກັບຂໍ້ຄວາມສັງເຄາະອາດຈະນໍາໄປສູ່ການ degeneration, ເອີ້ນວ່າ "ການລົ້ມລົງຂອງຕົວແບບ" (Shumailov et al., 2023). ຄວາມສົນໃຈຂອງພວກເຮົາແມ່ນຢູ່ໃນກົງກັນຂ້າມຂອງຄວາມກັງວົນນີ້, ແທນທີ່ຈະສຸມໃສ່ຜົນກະທົບຂອງຄວາມສົມດຸນກັບການແຜ່ກະຈາຍຂອງຄວາມຮູ້ພາຍໃນສັງຄົມມະນຸດ. ພວກເຮົາຖາມວ່າພາຍໃຕ້ເງື່ອນໄຂໃດທີ່ການເພີ່ມຂື້ນຂອງເນື້ອຫາທີ່ສ້າງໂດຍ AI ແລະການເຂົ້າເຖິງຂໍ້ມູນໂດຍ AI ໄກ່ເກ່ຍອາດຈະເປັນອັນຕະລາຍຕໍ່ອະນາຄົດຂອງຄວາມຄິດ, ການສະແຫວງຫາຂໍ້ມູນແລະຄວາມຮູ້ຂອງມະນຸດ.
ຜົນກະທົບເບື້ອງຕົ້ນຂອງຂໍ້ມູນທີ່ສ້າງຂື້ນໂດຍ AI ແມ່ນສົມມຸດວ່າມີຂໍ້ຈໍາກັດ, ແລະວຽກງານທີ່ມີຢູ່ແລ້ວກ່ຽວກັບຄວາມເສຍຫາຍຂອງ AI ຢ່າງຖືກຕ້ອງສຸມໃສ່ຜົນກະທົບທັນທີທັນໃດຂອງຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງທີ່ເຜີຍແຜ່ໂດຍ "deepfakes" (Heidari et al., 2023), ຄວາມລໍາອຽງໃນ AI algorithms (Nazer et al., 2023), ແລະຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງທາງດ້ານການເມືອງ (Chen 2023). ຈຸດສຸມຂອງພວກເຮົາມີຂອບເຂດທີ່ໃຊ້ເວລາດົນກວ່າບາງສ່ວນ, ແລະ probes ຜົນກະທົບຂອງການແຜ່ຫຼາຍ, ແທນທີ່ຈະເປັນການຮັບຮອງເອົາຂອບເຂດ.
ປະຈຸບັນ, ນັກຄົ້ນຄວ້າ ແລະວິສະວະກອນກຳລັງສ້າງລະບົບທີ່ຫຼາກຫຼາຍ ເຊິ່ງ AI ຈະໄກ່ເກ່ຍປະສົບການຂອງພວກເຮົາກັບມະນຸດຄົນອື່ນໆ ແລະດ້ວຍແຫຼ່ງຂໍ້ມູນຂ່າວສານ. ເຫຼົ່ານີ້ມາຈາກການຮຽນຮູ້ຈາກ LLMs (Chen, Chen, ແລະ Lin, 2020), ການຈັດລໍາດັບ ຫຼືສະຫຼຸບຜົນການຄົ້ນຫາດ້ວຍ LLMs (Sharma, Liao, and Xiao, 2024), ແນະນຳຄຳຊອກຫາ ຫຼືຄຳສັບຕ່າງໆໃຫ້ຂຽນຄືກັບການຕື່ມຂໍ້ມູນອັດຕະໂນມັດແບບດັ້ງເດີມ (Graham, 2023; Chonka, Diepeveen, and Haile), ການອອກແບບ ແລະລະບົບຄູ່ຄູ່ (20all, 2020) 2018), ການສໍາເລັດພື້ນຖານຄວາມຮູ້ທີ່ອີງໃສ່ LLM ທີ່ມາຈາກ Wikipedia (Chen, Razniewski, ແລະ Weikum, 2023), ການຕີຄວາມຂໍ້ມູນຂອງລັດຖະບານ (Fisher, 2024) ແລະການຊ່ວຍເຫຼືອນັກຂ່າວ (Opdahl et al., 2023), ເພື່ອອ້າງເຖິງພຽງແຕ່ຈໍານວນຫນ້ອຍຈາກບັນຊີລາຍຊື່ທີ່ເພີ່ມຂຶ້ນຕະຫຼອດໄປ.
ເມື່ອເວລາຜ່ານໄປ, ການເພິ່ງພາອາໄສລະບົບເຫຼົ່ານີ້, ແລະການມີປະຕິສໍາພັນຫຼາຍດ້ານລະຫວ່າງພວກມັນ, ອາດຈະສ້າງ "ການສາບແຊ່ງຄືນໃຫມ່" (Shumailov et al., 2023), ເຊິ່ງການເຂົ້າເຖິງຄວາມຫຼາກຫຼາຍຂອງຄວາມຮູ້ຂອງມະນຸດເບື້ອງຕົ້ນຂອງພວກເຮົາແມ່ນໄດ້ຮັບການໄກ່ເກ່ຍໂດຍທັດສະນະບາງສ່ວນແລະແຄບຫຼາຍຂຶ້ນ. ດ້ວຍການເພີ່ມການເຊື່ອມໂຍງຂອງລະບົບທີ່ອີງໃສ່ LLM, ແຫຼ່ງທີ່ນິຍົມຫຼືຄວາມເຊື່ອບາງຢ່າງທີ່ພົບເລື້ອຍໃນຂໍ້ມູນການຝຶກອົບຮົມອາດຈະໄດ້ຮັບການເສີມສ້າງໃນແນວຄິດສາທາລະນະ (ແລະພາຍໃນຂໍ້ມູນການຝຶກອົບຮົມ), ໃນຂະນະທີ່ແນວຄວາມຄິດ "ຫາງຍາວ" ອື່ນໆຖືກລະເລີຍແລະໃນທີ່ສຸດກໍ່ຖືກລືມ.
ຂະບວນການດັ່ງກ່າວອາດຈະໄດ້ຮັບການເສີມສ້າງໂດຍ 'ຫ້ອງສຽງສະທ້ອນ' ຫຼືຜົນກະທົບຂອງຂໍ້ມູນ, ເຊິ່ງການເປີດເຜີຍຄືນໃຫມ່ກັບຊຸດຂໍ້ມູນທີ່ຖືກຈໍາກັດນີ້ເຮັດໃຫ້ບຸກຄົນເຊື່ອວ່າຄວາມຮູ້ທີ່ຖືກລະເລີຍ, ບໍ່ໄດ້ສັງເກດເຫັນແມ່ນມີມູນຄ່າຫນ້ອຍ. ໃນຂອບເຂດທີ່ AI ສາມາດຫຼຸດຄ່າໃຊ້ຈ່າຍໃນການເຂົ້າເຖິງຂໍ້ມູນບາງປະເພດໄດ້ຢ່າງຫຼວງຫຼາຍ, ມັນອາດຈະສ້າງຄວາມເສຍຫາຍຕື່ມອີກໂດຍຜ່ານ "ຜົນກະທົບຂອງແສງສະຫວ່າງຖະຫນົນ", ໃນຈໍານວນການຄົ້ນຫາທີ່ບໍ່ສົມດຸນແມ່ນເຮັດພາຍໃຕ້ພື້ນທີ່ທີ່ມີແສງສະຫວ່າງບໍ່ແມ່ນຍ້ອນວ່າມັນມັກຈະມີກະແຈຂອງໃຜຜູ້ຫນຶ່ງ, ແຕ່ຍ້ອນວ່າມັນງ່າຍຕໍ່ການເບິ່ງຢູ່ທີ່ນັ້ນ. ພວກເຮົາໂຕ້ຖຽງວ່າການຕັດຫາງຂອງຄວາມຮູ້ຂອງມະນຸດຈະສົ່ງຜົນກະທົບຢ່າງໃຫຍ່ຫຼວງຕໍ່ຄວາມກັງວົນຕ່າງໆ, ລວມທັງຄວາມຍຸຕິທຳ, ລວມທັງຄວາມຫຼາກຫຼາຍ, ການສູນເສຍຜົນປະໂຫຍດໃນນະວັດຕະກຳ, ແລະ ການປົກປັກຮັກສາມໍລະດົກວັດທະນະທຳມະນຸດ.
ໃນຮູບແບບການຈໍາລອງຂອງພວກເຮົາ, ແນວໃດກໍ່ຕາມ, ພວກເຮົາຍັງພິຈາລະນາຄວາມເປັນໄປໄດ້ທີ່ມະນຸດມີຍຸດທະສາດໃນການຮັກສາແຫຼ່ງຂໍ້ມູນຂອງພວກເຂົາຢ່າງຈິງຈັງ. ຖ້າ, ດັ່ງທີ່ພວກເຮົາໂຕ້ຖຽງ, ມີມູນຄ່າທີ່ສໍາຄັນໃນຂົງເຂດຄວາມຮູ້ຂອງ tai ທີ່ຖືກລະເລີຍໂດຍເນື້ອຫາທີ່ສ້າງໂດຍ AI, ບາງຄົນອາດຈະພະຍາຍາມເພີ່ມເຕີມເພື່ອບັນລຸຜົນກໍາໄລ, ໂດຍສົມມຸດວ່າພວກເຂົາໄດ້ຮັບຂໍ້ມູນພຽງພໍກ່ຽວກັບມູນຄ່າທີ່ເປັນໄປໄດ້.
ພວກເຮົາກໍານົດແບບເຄື່ອນໄຫວທີ່ AI, ເຖິງແມ່ນວ່າພຽງແຕ່ຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍໃນການເຂົ້າເຖິງຂໍ້ມູນບາງປະເພດ, ອາດຈະນໍາໄປສູ່ "ການລົ້ມລົງຂອງຄວາມຮູ້," ການລະເລີຍຫາງຍາວຂອງຄວາມຮູ້ແລະການສ້າງທັດສະນະທີ່ແຄບ degenerately ໃນໄລຍະຫຼາຍລຸ້ນຄົນ. ພວກເຮົາສະຫນອງຮູບແບບການແຜ່ກະຈາຍຄວາມຮູ້ໃນທາງບວກທີ່ບຸກຄົນຕັດສິນໃຈວ່າຈະອີງໃສ່ເຕັກໂນໂລຢີ AI ລາຄາຖືກກວ່າຫຼືລົງທຶນໃນຕົວຢ່າງຈາກການແຈກຢາຍຄວາມຮູ້ທີ່ແທ້ຈິງ. ພວກເຮົາກວດກາໂດຍຜ່ານການຈໍາລອງເງື່ອນໄຂທີ່ບຸກຄົນໄດ້ຮັບການແຈ້ງໃຫ້ພຽງພໍເພື່ອປ້ອງກັນການລົ້ມລົງຂອງຄວາມຮູ້ພາຍໃນສັງຄົມ. ສຸດທ້າຍ, ພວກເຮົາສະຫຼຸບດ້ວຍພາບລວມຂອງການແກ້ໄຂທີ່ເປັນໄປໄດ້ເພື່ອປ້ອງກັນການລົ້ມລົງຂອງຄວາມຮູ້ໃນຍຸກ AI.
ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY-NC-SA 4.0 DEED.