Роз'яснення щодо витоку даних Google: Що потрібно знати

Вступ

Під час нещодавніх свят у соціальних мережах з'явилися повідомлення про ймовірний витік даних, пов'язаних з алгоритмами ранжування Google. Початкові дискусії навколо цих витоків були зосереджені на "підтвердженні" давніх переконань таких діячів, як Ренд Фішкін, але їм бракувало контексту щодо справжньої природи даних.

Контекст має значення: Сховище штучного інтелекту документів

Витік даних, схоже, пов'язаний зі сховищем Google Document AI Warehouse, загальнодоступною хмарною платформою Google, яка використовується для аналізу, організації, пошуку та зберігання даних. Ця публічна документація називається "Огляд Document AI Warehouse". Дописи на таких платформах, як Facebook, свідчать про те, що витік даних є "внутрішньою версією" цієї загальнодоступної документації, що вказує на те, що вона може не бути ексклюзивною для операцій Google Search.

Витік даних внутрішнього пошуку?

В оригінальній публікації на SparkToro не стверджувалося, що дані були отримані з Google Search, але зазначалося, що джерело, яке надало дані Ренду Фішкіну, зробило таке твердження. Фішкін, відомий своїм прискіпливим підходом, зазначив, що твердження про те, що дані походять з пошуку Google, надійшло від людини, яка написала йому електронного листа, а не від перевірених джерел.

Фішкін процитував лист:

"Я отримав електронного листа від людини, яка стверджувала, що має доступ до величезного витоку документації API з підрозділу пошуку Google".

Незважаючи на це, колишні гуглери, з якими консультувався Фішкін, могли лише підтвердити, що дані були схожі на внутрішню інформацію Google, але не підтвердили, що вони були отримані з пошуку Google.

Інсайти від колишніх гуглерів

коментують екс-гуглери:

"Я не мав доступу до цього коду, коли працював там. Але це, безумовно, виглядає законно".
"Він має всі ознаки внутрішнього Google API".
"Це API на основі Java. І хтось витратив багато часу на дотримання внутрішніх стандартів Google щодо документації та іменування".
"Мені потрібно більше часу, щоб бути впевненим, але це відповідає внутрішній документації, з якою я знайомий".
"Ніщо з того, що я побачив у короткому огляді, не вказує на те, що це щось законне".

Ці заяви підкреслюють, що хоча дані виглядають достовірними, немає остаточних доказів того, що вони отримані з пошуку Google.

Залишатися відкритим до всього нового

Дуже важливо залишатися неупередженим щодо цих даних, оскільки значна частина з них залишається неперевіреною. Поспішні висновки або використання даних для підтвердження вже існуючих переконань може призвести до упередженості підтвердження, коли людина інтерпретує інформацію таким чином, щоб підкріпити свої існуючі погляди.

Визначення упередження щодо підтвердження:

"Упередження підтвердження - це тенденція шукати, інтерпретувати, надавати перевагу та згадувати інформацію таким чином, щоб підтвердити або підтримати свої попередні переконання чи цінності".

Ключові питання щодо витоку даних Google

Контекст витоку інформації: Чи пов'язані дані з пошуком Google або з іншими цілями?
Призначення даних: Чи були вони використані для фактичних результатів пошуку, чи для внутрішнього управління даними або маніпулювання ними?
Підтвердження від колишніх гуглерів: Колишні гуглери не підтвердили, що ці дані стосуються саме Пошуку Google, лише те, що вони, як видається, походять з Google.
Неупереджений аналіз: Уникайте використання даних для підтвердження давніх переконань, щоб запобігти упередженості підтвердження.
Зв'язок зі сховищем документів зі штучним інтелектом: Дані свідчать про те, що ці дані можуть бути пов'язані із зовнішнім API для створення сховища документів, а не з Пошуком Google.

Думки експертів щодо "витоку" даних

поділився SEO-експерт Райан Джонс:

Невизначеність щодо того, чи дані призначені для виробництва або тестування.
Брак ясності, якщо це стосується веб-пошуку або інших вертикалей, таких як Google Home або Новини.
Припущення, що деякі поля застосовуються лише до навчальних наборів даних, а не до всіх сайтів.

написав у твіттері DavidGQuaid:

"Ми не знаємо, чи це для пошуку в Google, чи для пошуку документів у хмарі Google. API виглядають як pick & choose - це не те, як я очікую, що алгоритм буде працювати - що, якщо інженер захоче пропустити всі ці перевірки якості - це виглядає так, ніби я хочу створити додаток сховища контенту для моєї корпоративної бази знань".

Висновок

Наразі немає конкретних доказів того, що "витік" даних стався саме з Пошуку Google. Контекст і призначення даних залишаються неоднозначними, при цьому є ознаки того, що вони є зовнішнім API для управління документами, а не основним компонентом пошукового алгоритму Google. Важливо підходити до цієї інформації з обережністю та уникати остаточних висновків без подальшої перевірки.

Роз'яснення щодо витоку даних Google: Що потрібно знати

Вступ

Контекст має значення: Сховище штучного інтелекту документів

Витік даних внутрішнього пошуку?

Інсайти від колишніх гуглерів

Залишатися відкритим до всього нового

Ключові питання щодо витоку даних Google

Думки експертів щодо "витоку" даних

Висновок

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Роз'яснення щодо витоку даних Google: Що потрібно знати

Вступ

Контекст має значення: Сховище штучного інтелекту документів

Витік даних внутрішнього пошуку?

Інсайти від колишніх гуглерів

Залишатися відкритим до всього нового

Ключові питання щодо витоку даних Google

Думки експертів щодо "витоку" даних

Висновок

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Почніть користуватися Ranktracker... Безкоштовно!