Развитие индустрии ИИ столкнулось с очередным препятствием: ограничением доступа к данным. Об этом пишет New York Times со ссылкой на исследование, проведенное группой Data Provenance Initiative под руководством Массачусетского технологического института.
Так, анализ более 14 тысяч доменов, используемых в трех крупнейших базах данных для обучения ИИ, показал значительную тенденцию к ограничению доступа. Примерно 5% всех данных и 25% наиболее ценных данных были защищены протоколом Robots Exclusion Protocol, позволяющим владельцам сайтов блокировать автоматизированные системы сбора данных. Кроме того, почти 45% данных из набора данных C4 теперь ограничены условиями обслуживания веб-сайтов.
"Мы наблюдаем быстрое снижение числа согласий на использование данных в Интернете, что будет иметь последствия не только для компаний, занимающихся ИИ, но и для исследователей, ученых и некоммерческих организаций", — констатировал ведущий автор исследования Шейн Лонгпре.