[OT] Ayuda con edicion de textos

Zui

Puede parecer una chorrada pero me ahorraria mucho tiempo saber como puedo hacer lo siguiente con algun programa (o lo que sea):

Resulta que tengo q hacer un trabajo en el que tengo unos textos en este formato (formato FASTA de alineacion de proteinas):

Bicho 1 ADGFDNBYDGHA…(secuencia de unos 40 aminoacidos)
Bicho 2 ADGFDNBYDGHA...(secuencia de unos 40 aminoacidos)
Bicho 3 ADGFDNBYDGHA...(secuencia de unos 40 aminoacidos)
.
.
.
.
hasta bicho 40 o 50
Bicho 1 ADGFDNBYDGHA...(secuencia de unos 40 aminoacidos)
Bicho 2 ADGFDNBYDGHA...(secuencia de unos 40 aminoacidos)
Bicho 3 ADGFDNBYDGHA...(secuencia de unos 40 aminoacidos)
.
.
.
.
hasta bicho 40 o 50
...

Asi repetido hasta completar la secuencia completa de la proteina que son unos 400 aminoacidos, y necesito pasarlo a otro formato par que me lo reconozca otro programa (formato nexus) que es tal que asi:

#Begin data;
Dimensions ntax=[numero de bichos] nchar=[numero de aa];
GAP=. datatype=protein;
Matrix
Bicho 1 ADGFDNBYDGHA…(secuencia completa de unos 400 aa)
Bicho 2 ADGFDNBYDGHA...(secuencia completa de unos 400 aa)
Bicho 3 ADGFDNBYDGHA...(secuencia completa de unos 400 aa)
.
.
.
.

hasta bicho 40 o 50
;
END;

Hasta ahora lo he hecho a mano, tardando horas de copy/paste, y estoy seguro de que hay alguna forma mas sencilla asi que si alguien sabe como ayudarme se lo agradecere enormemente.

Un saludo

marcalj

Buenas no entiendo la estructura, podrias pegar el archivo, o un cacho del archivo a tratar i decir mejor como esta esto?

El tema es SUPER SIMPLE haciendo un SCRIPT en BASH, que lo tendrias que ejecutar en una consola bajo Linux.

Si me explicas un pelin mejor esto te lo hago en un plis, es muy sencillo.

Mas bien, donde se repite tal cosa, i si esta tabulado perfecto i esas cosas, no el contenido, sino la estructura del archivo a tratar.

Salu2!

Zui

Te pongo un ejemplo de lo que necesito hacer con 3 especies para que lo comprendas mejor (yo es que me explico fatal xD)

Yo tengo este archivo que me da una base de datos y q solo me sirve para ver la alineacion de aminoacidos en el cual las secuencias no estan seguidas de principio a fin sino que estan partidas en trozos:
attachment_p_205100_0_ejemplo-alineado.txt

Zui

Y lo necesito de la siguiente manera para trabajar con el (el archivo es con extension nex pero le he puesto txt para q lo veas del tiron):

Como ves esta la secuencia del tiron y no por "capitulos" como el anterior.

Muchas gracias por la ayuda
attachment_p_205102_0_ejemplo-final.nex.txt

josefu

Buscando a ver si alguien ya había hecho algun programa/script de ese tipo (apt-cache search fasta); me ha salido este programilla: seaview del cual también hay una versión para windows, no se si te valdrá, pero prueba a ver.

También me ha salido ClustalW que no es un editor y no se muy bien lo que es, a ver si tu que estas más familiarizado con estas cosas lo sabes

Te pongo la salida de la busqueda para ver si es lo que buscas:

Seaview

Description: [Biology] A multiple sequence alignment editor
 This is a graphical editor to deal with biosequences.  SeaView is able
 to read various alignment formats (MSF, CLUSTAL, FASTA, PHYLIP, MASE,
 NEXUS).  It allows one to manually edit the alignment, and also to run
 ClustalW to locally improve the alignment.

ClustalW

Description: [Biology] Global multiple nucleotide or peptide sequence alignment
 This program performs an alignment of multiple nucleotide or amino
 acid sequences. It recognizes the format of input sequences and whether
 the sequences are nucleic acid (DNA/RNA) or amino acid (proteins). The
 output format may be selected from in various formats for multiple alignments
 such as Phylip or FASTA. ClustalW is very well accepted. An alternative,
 particularly for fragmented sequences, may be
 T-Coffee ([url]http://www.ch.embnet.org/software/TCoffee.html[/url]),
 DIALIGN ([url]http://www.gsf.de/biodv/dialign.html[/url])
 or one of the other many algorithms as summarised on
 [url]http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/welcome.html.[/url]
 .
 The output of ClustalW can be edited manually but preferably with an alignment
 editor like seaview or within its companion clustalx.
 When building a model from your alignment, this can be applied for improved
 database searches. The debian package hmmer creates such in form of an HMM.
 .
  URL: [url]ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalW/[/url]
  URL: [url]ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw/[/url]

Zui

Ole tus webos tio! te quiero! jajaja, el primer programa me hace las conversiones entre fasta y nexus que es justo lo que necesitaba. El clustalw lo que hace es alinear secuencias pero eso no me hace falta ya que en las bases de datos ya te las alinean pero aun asi miles de gracias

Saludos

josefu

De nada

marcalj

joooo, yo k te keria hacer el script too currado… xD

Pues nada hombre.

Taluegoorl :risitas:

Zui

Hombre si te quieres currar un pogramilla en español que haga eso tan simple, la comunidad de zoologos españoles te lo agradecera porque de estas cosillas hay pocas y por ahi se puede empezar jejeje

Rectifico: hay pocos programitas para windows, para mac si que hay y mucho mas bonitos. Es mas en windows no existe ningun GUI para el programa PAUP (programa tipo consola que en mac es mu bonito pero en windows funciona como un ms-dos cutre) que se lo puedo "enseñar" a alguien interesado y que sepa de esto y hacer uno. Como minimo se hara un nombre entre los zoologos xD

[OT] Ayuda con edicion de textos

Foreros conectados [Conectados hoy]

Estadísticas de Hardlimit