26/04/2025
Представляємо GPT-Асистент Рідні
https://chatgpt.com/g/g-tThYRHTS9-agent-ridni
==========
Доця (10р)
– Тату, нащо ти його навчаєш? Він же буде робити твою роботу і замінить тебе!
==========
*РЕЖИМ СПІВБЕСІДИ*
Завтра Проводи. Ви зустрінетесь із родичами, пом'янете разом близьких, відкриєте диктофон на телефоні, і нехай собі пише, а ви розпитуйте все, що можете. А коли повернетесь додому – візьміть цей запис і відкрийте у додатку ChatGPT в нашому Агенті Рідні. Він транскрибує розмову, і почне задавати вам уточнюючі питання про людей, які згадуються в аудіозаписі. Ви можете спілкуватися з ним і голосом, і повертатися в текстовий режим. В ході вашої розмови Агент буде будувати дерево роду у текстовому форматі Ahnentafel ASCII Tree, і з кожною новою деталлю оновлюватиме його вам.
*ТЕКСТОВЕ ДЕРЕВО РОДУ*
Ми навчили Агента Рідні дотримуватися саме формату Ahnentafel ASCII, як простого стандарту для обміну базовим деревом роду між родичами, і навіть для передачі вашому генеалогу для глибшого професійного дослідження. Зберігайте своє дерево роду в будь-якому додатку-блокноті. Можете зберігати окремі гілки окремо, не ускладнюючи. І коли готові доповнити якусь гілку – просто вставляєте це дерево, як текст, у ChatGPT – і продовжуєте фразою типу "Я згадав, у Петра був брат Федось". Ось приклад деревця, яке Агент Рідні вам складе в ході розмови.
1. Катерина Блакита (1951, смт Гребінки)
├── 2. Леонід Блакита (1927, с. Клехівка)
│ ├── 4. Ілько Блакита (1895, с. Клехівка)
│ │ ├── 8. Тарас Блакита (1862, с. Клехівка)
│ │ └── 9. Васса
│ └── 5. Марія Маноха (1905, с. Мар'янівка)
│ ├── 10. Нестор Маноха (1867, с. Мар'янівка)
│ └── 11. Акелина
└── 3. Ганна (1927, с. Телешівка)
├── 6. Амос Карапота (1879, с. Телешівка)
│ ├── 12. Яким Карапота (1860, с. Телешівка)
│ └── 13. Пріська Федина (1863, с. Телешівка)
└── 7. Марія Прибиш (1895, с. Савинці)
├── 14. Семен Прибиш (1850, с. Житні Гори)
└── 15. Параска
Приклади типових промтів:
- Моя баба народилася у селі Телешівка 1927 року.
– Її батька звали Амос, він теж там народився, 1879 року.
– У нього було семеро братів та сестер.
*РОЗПІЗНАВАННЯ РУКОПИСІВ (HTR)*
Ще у 2019 році Рідні натренували декілька HTR-моделей на базі бібліотеки TensorFlow, про які ми писали і вийшло декілька репортажів на телебаченні. Удоступнювати їх було б затратно, оскільки вони вимагають постійного технічного супроводу: підібрати масив однакового почерку, сторінки з однаковим освітленням, збереженням, тегування сторінок з з титулкою, вмістом, екстрактом, тощо. Але працюють наші моделі незрівняно з HTR-інструментами загального призначення.
1. Компромісним рішенням було б опублікувати для вас наші моделі, зроблені під Transcribus. Але він став занадто платним і пропрієтарним (закритим), щоб розвивати свої моделі на його базі і змушувати вас ставати їх платними користувачами. Минулої осені я мав нагоду особисто познайомитися з керівниками проекту.
2. Інший компроміс – це GPT-асистент на базі OpenAI, який ми і презентуємо сьогодні. Якість задовільна, ціна – моя улюблена, 0 грн. І перевага в тому, що напрацювання на базі OpenAI ми дублюємо на наш сервер з локальними LLM-моделями, можемо масштабувати потужності, делегуючи якусь частину обробки даних власному серверу, а в разі чого з OpenAI – просто переключитись на власний сервер.
Всі моделі OpenAI з аргументацією (reasoning) досить непогано читають кирилицю різними охайними почерками і за XIX, і за XVIII ст. Яку цінність у завданнях з транскрибування (HTR) додає саме наш GPT-асистент, то це локальні словники прізвищ за населеним пунктом. Коли ви даєте асистенту на розпізнавання сторінку чи фрагмент рукописного генеалогічного джерела, скажімо метричної книги, асистент звертається до бази Рідні по словник прізвищ потрібного поселення та повіту. Прізвища у словниках проходять морфологічний аналіз, щоб допускати інші варіанти прізвища, враховуючи найбільш поширені в регіоні суфікси. І під час розпізнавання, прізвищам зі словника надається вищий пріоритет. Таким чином зменшуються галюцинації і розпізнавання стає точнішим.
*РОБОТА З КАТАЛОГОМ МЕТРИЧНИХ КНИГ*
Найприємніше користуватися цим функціоналом у режимі інтерв'ю. Знаючи рік та місце народження вашого пращура, асистент звертається до бази Зведеного Каталога метричних книг на Рідні, щоб знайти найбільш релевантну архівну справу. Ми його навчили, і він тепер розуміє, якщо за цей рік метрична книга не збереглась, то варто взяти сповідний розпис чи ревізьку казку за пізніші роки, і багато інших дрібниць, які вам очевидні. Майте на увазі, з Каталогом асистент працює у два кроки: спочатку він вибирає з бази весь список архівних справ, а наступним запитом бере всі деталі архівної справи (наприклад посилання на скани) за її сигнатурою. Так, ми додали в Каталог Рідні функціонал пошуку посилання на скан справи, але в самому інтерфейсі Каталога ця функція з'явиться трохи згодом.
Приклади типових промтів:
- Що там збереглося в архівах по селу Телешівка?
- Дай посилання на скан цієї справи по селу Клехівка: ЦДІАК 127-1012-3469.
- Чи збереглась метрична книга селища Гребінки за 1863 рік?
- Дай список оцифрованих сповідних розписів селища Гребінки.
*І АВЖЕЖ, ВІН ЗНАЄ ВСЕ ПРО ПРІЗВИЩА*
Все, що знає Карта Прізвищ Рідні, разом із підключеними словниками Чучки, Редьки, СУМ, Етимологічним, тощо.
Бажаємо приємних бесід :)